您的位置：首页 > > 教程攻略 > ai资讯 >Glean：企业AI搜索，估值46亿美元，ARR一年翻4倍

Glean：企业AI搜索，估值46亿美元，ARR一年翻4倍

来源:互联网 更新时间:2026-06-13 14:15

Glean在9月完成了2.6亿美元的E轮融资，估值直接飙到了46亿美元。一家做企业内部AI搜索的公司，能走到这一步，确实值得好好琢磨一下。

2019年成立，从企业内部搜索起步，5年完成五轮融资。ChatGPT发布后，Glean迅速卡位，基于RAG技术构建企业AI搜索，并陆续推出了Glean Assistant（Copilot）、Glean Apps（应用平台）和Glean Actions（Agent）等产品。过去一年，其ARR从大约1400万美元翻了近4倍，达到5500万美元。

更值得关注的是它的用户粘性：DAU/MAU比例约为40%，远高于传统企业SaaS的10-20%。核心产品Glean Assistant的用户每天平均查询14次，作为对比，Google用户的日均查询次数只有3-4次。客户名单里包括Databricks、Duolingo、Grammarly和Sony Electronics这些名字。

可以说，Glean把企业内部AI搜索这事儿做成了。

最近，红杉资本和Glean创始人Arvind Jain做了一次深度访谈。Arvind是Google早期员工，也是Google搜索算法的核心构建者之一。聊的内容很实在，涉及企业搜索为什么比互联网搜索更难、如何突破这个难点，以及怎么用RAG在企业场景里实现类似Google搜索的排名效果。这对ToB领域的AI落地实践，有不少启发。

先提炼几个有意思的观点：

构建有效的AI应用，前提是必须有强大的数据基础设施。这包括与企业系统的深度集成、健全的权限安全框架，以及能理解人、内容、上下文之间关系的复杂知识图谱。没有这个基础，模型再强大也白搭。
相比消费者应用，企业搜索和AI落地的难点在于：企业数据是私有的、基于权限的，并且有深刻的上下文依赖性。突破点不在于理解内容本身，而在于理解组织结构、用户角色和访问权限。
企业AI迭代的方式，是从员工的实际工作行为中学习——他们接触了哪些文档、在沟通工具里如何互动、哪些信息对他们有价值。追踪这些隐性信号能形成良性循环，让AI越来越精准。
创业的出发点不应该是AI本身，而应该是用户。先通过关键功能（比如企业搜索）为用户提供清晰的价值，再逐步扩展到更多AI功能。这种方式能建立信任，也为高级功能积累数据基础。
你必须找到打算解决的业务问题，然后借助AI技术以更好的方式去解决。说到底，创建AI公司和其他公司没有本质区别。

01 企业搜索的核心：理解员工和知识库之间的关系

红杉直接切入正题：Arvind，先说说Glean到底是做什么的？

Arvind的比喻很直观：Glean就是公司内部的Google或ChatGPT。员工可以向它提问，它会用公司内部知识来回答。另一方面，企业也可以借助Glean的RAG平台快速构建自己的AI应用。

红杉接着追问了一个关键问题：你说Glean是企业里的Google，但CIO们想解决这个内部搜索问题已经二十多年了，一直没有成功。你本人是Google的搜索专家，为什么连Google自己也没搞定这件事？你是怎么突破的？

Arvind指出，搜索本质上像魔法——用户期望太高，认为自己提任何问题，系统都必须返回正确答案。在企业环境里，这个难度更是翻倍。核心难点在于获取信息——企业内部的数据分散在几十个不同的系统里，更难的是判断哪些信息有用、哪些已经过时。

过去这个难题没有被攻克，原因很简单：问题太复杂，需要大量的研发投入和长期的资金支持，这对初创企业很不友好。而且在SaaS时代到来之前，几乎不可能构建这样的产品——要让企业信息可被搜索，必须把企业所有系统打通，而光这一步可能就要耗上一整年。

红杉接着关注技术架构的底层问题：我们知道Glean的技术堆栈有很多层次，在AI上场之前，你们到底搭建了哪些基础设施？

Arvind的回答很诚实：搜索首先依赖数据和知识。技术堆栈的第一层，是和最常见的企业系统的深度集成——Salesforce、Confluence、Jira、Google Drive、SharePoint、ServiceNow等等，要把这些数据全部汇集到一起。

然后是治理层。企业数据和互联网搜索最大的区别在于，大多数企业信息是私有的。一个文档可能只对当事人可见，或者只和少数人共享。你不能做一个把所有知识一股脑公开的搜索引擎，必须理解每个内容的权限。当用户搜索时，系统要识别用户身份，只返回他们有权限访问的信息。这个治理层要跨上百个不同的系统，极其复杂。

第三层是理解提问者本身。搜索不是简单地把一堆文档放进索引然后匹配关键词。当有人提问时，系统需要知道提问者是谁——这是过去大多数产品失败的地方。比如新员工问"入职指南"，如果系统不理解他是市场部还是工程部，返回的结果可能完全牛头不对马嘴。

所以，理解员工、知识和它们之间的关系，才是企业内部搜索或问答服务成功的命门。Glean的做法是构建一个深度知识图谱，分析所有员工，理解他们在公司的角色；分析所有文档，判断哪些适用于哪个部门、哪些被广泛使用；然后分析员工和文档之间的关联。当有人提问时，系统就能根据其需求，优先返回最相关的知识。

至于AI，其实从一开始就是Glean核心搜索技术的一部分。早在2019年，他们就在使用BERT这类语言模型来做语义理解。用户的提问词汇再精准，模型也能理解背后的真实意图，匹配到正确的文档。

02 好的RAG系统，前提是有完整的上下文理解

红杉把话题引向搜索排名。Google之所以成功，很大程度是因为用户总能在页面顶部找到想要的答案。公共互联网有海量的网页数据和链接来训练排名系统，那Glean在企业环境里是怎么做到的？

Arvind表示，打造优秀的排名系统是产品的核心。排名需要依赖多个信号：比如一份文档被频繁查看，说明它有重要信息，值得排前面；一份文档是最近一两周写的并且有互动，说明这是大家关心的东西；一份文档在公司层面可能不太受欢迎，但在某个团队里使用率很高，那它对团队里的成员就更有价值。

还有一个很巧妙的信号：有人在Slack上提问，另一个人回复了一个文档链接，提问者点了个赞。这个互动的意义是什么？它表明这份文档对这个特定问题是一个好答案。如果把这种关联记住，下次有类似问题时，系统就能给出更好的答案。

这些信号在企业环境中收集的方式，和互联网完全不同。Google可以分析发生在其平台上的所有活动，因为它几乎索引了全部互联网内容。而在企业里，事情不一定通过搜索发生，你必须观察所有与知识相关的活动——无论是在沟通系统还是文档系统里，要从人类行为中学习，从员工行为中学习。收集的信息越多，排名系统越好。

接着，红杉聚焦到RAG技术。Glean在合适的时间做了大量准备工作，当大语言模型技术变得成熟时，一切基础设施已经就位。Arvind被问到：什么是RAG？让它真正发挥作用的秘诀是什么？

Arvind的解释很清晰。GPT、Gemini、Claude这些模型，都是基于全球公开知识训练出来的。所以你去问ChatGPT"我的年假政策允许休几天"，它不可能知道答案，因为这是公司的私有知识。

RAG要解决的就是把企业私有数据引入模型的这个问题。它的工作原理是：用户提出一个问题，搜索引擎先找到可能相关的文档，然后把文档和问题一起交给模型，告诉它"这是相关的公司知识，你用它来回答问题"。

现在大多数企业AI应用都是按这个逻辑构建的。把私有数据和强大模型结合的唯一路径，就是在中间放一个搜索引擎。Glean构建了企业内容的搜索引擎，这也是他们能做最好的RAG系统之一的原因。他们不仅通过这种架构做了自己的终端应用Glean助手，还能让企业用RAG构建更多应用。

但Arvind也坦诚，构建优秀的RAG应用非常困难。问题出在检索阶段——如果找不到正确的知识片段，或者找到的是过期信息，交给大模型自然产出糟糕结果。这是把两个不完美的东西串联起来的天然难题。

红杉进一步追问：企业搜索和RAG到底是什么关系？是彼此的超集还是子集？

Arvind认为它们在某种意义上就是一回事。核心技术都是把所有企业知识汇集到一个搜索系统里，用户提问，系统返回相关信息。你可以把这个技术单独当产品用（Glean搜索），也可以把它当AI应用架构里的一个API层。区别在于，今天大多数RAG企业应用使用的其实是更简单的检索系统，通常是基于向量搜索的，但缺少完整的企业上下文。而Glean始终做的是一个可以直面用户的独立搜索系统——这是检验系统好坏的真正标准。把它放在后台当RAG组件时，自然能带来更好的AI体验。

红杉总结了一个关键点：你们在搜索结果排名上的"魔法"既让人类用户觉得好用，也让机器获得最佳结果。这和那些自己搭数据管道和检索系统的企业，本质上完全不同。

Arvind确认了这一点。自己搭这些东西很难，而且要在几周内完成更是难上加难。你可以在两小时内搭出一个漂亮的AI演示，但要做成一个稳定可靠、真正带来企业价值的系统，那是一个复杂的系统工程。

03 80%的搜索会话，用户都找到了答案

红杉把视角转向实际应用场景。产品效果好不好，公司的增长速度已经说明问题。他们想了解的是：客户用Glean之前和之后，日常工作到底发生了哪些变化？

Arvind举了几个具体的例子。对于工程团队，Glean在排错方面非常有用。遇到障碍时直接在Glean上提问，通常你不是第一个遇到这个问题的人——其他人早就遇到过并解决了。通过查看前人怎么解决的，很快就能找到答案。

对于客户支持团队，工作方式被彻底改变了。以前他们要自己去各种知识库里翻答案，现在客户提问的同时，Glean已经把答案自动推送到手边。他们的工作从"找答案"变成了"验证AI给的答案对不对"，然后直接回复客户。

销售团队也在用Glean为会议做准备。打客户电话前，他们直接问Glean"帮我准备这次会议"，系统会给出客户的全面信息——上次会议的内容、当前的合作机会等等。这让他们在会议中更自信，甚至对意外问题也能当场用Glean找到答案并应对。Glean公司内部甚至规定，销售在第一次会议中不能带售前工程师，必须自己搞定客户问题。

还有一个很通用的场景：帮员工找到公司内部的合适专家。基于你的问题，Glean能把相关领域的人推荐给你。

红杉问到衡量成功的核心指标。你们怎么客观地衡量自己的表现？

Arvind的回答很直接：每天有多少问题被提出，以及是否成功给出了正确答案。和Google衡量搜索满意度类似。

具体数字是多少？Glean将技术指标维持在80%左右，意思是大约80%的会话中，用户成功找到了他们需要的答案。这是通过隐性信号来衡量的——用户提问后点击了前两三个结果之一并停留较长时间，没有很快回来重新提问或修改搜索。

当被问到目前产品还缺什么时，Arvind说，构建像ChatGPT或Glean这样的产品就像一场魔法秀，用户期望是无限的。他们不仅希望得到任何问题的答案，还希望你能完成他们要求的任何任务。所以核心不是缺什么功能，而是不断改进核心能力——正确回答问题，并且能回答越来越复杂的问题。

Arvind坦言，不管是他自己还是其他公司，离产品终极愿景都还很远。他希望Glean能成为一个真正的AI助手，既能利用公司所有知识回答问题，未来还能为用户完成一半的工作。现在大概只实现了2%。

04 让用户参与工作流Agent的搭建

红杉抛出一个关于自主推理的问题。在代码领域，用RAG的Agent完成率只有3%-4%，但加入更强的主动推理能力后，完成率可以提升到14%-15%。他们很好奇，Glean是怎么考虑把更多自主推理能力引入产品，从2%的目标往最终愿景前进的。

Arvind先澄清，2%只是随口说的数字，不是精确的衡量，他只是想表达现在阶段还很早。

关于Agent的行为，Glean的做法是先从用户那里大量获取输入。他们在产品中构建了工作流的概念来处理复杂问题，现阶段很依赖用户的帮助来完成这些工作流。

举个例子："帮我写一份我团队所有工作内容的周报"。这个问题很复杂，需要先理解"你的团队"指的是谁——可能得去HR系统查哪些人向你汇报。然后要理解工作内容是什么，涉及每个团队成员的工作事项。得先对范围建立理解，再分别从不同系统提取知识。

现在Glean的做法是尽量寻求用户帮助。为复杂问题创建计划后，让用户输入反馈，确认理解是否正确。有时候用户会完全忽略系统给出的内容，自己从头构建工作流。Arvind认为，要构建完整的Agent行为，这是必经之路。因为Glean的覆盖面太广，用户可能提出的问题和想执行的任务范围也太广，没法为每个任务都预置推理能力。所以他们先开放工作流引擎，让用户自己搭建，然后从中学到模式，逐步建立训练数据集，最终让AI能自动处理更复杂的任务。

红杉的理解很到位：既然覆盖面太广，那就先让用户参与构建，再从中学习。

Arvind补充说，Agent能力是逐步完善的，但既然简单问答都不容易，复杂任务自然更难。想象一下一个Agent把复杂任务分解成十个子任务，如果每一步准确率是90%，累积下来的错误率就很可观了。所以人类在构建这些工作流时的协助至关重要。

红杉接着追问了从企业搜索到应用平台的过渡路径：第一阶段的企业搜索业务，如何为第二阶段的平台业务提供优势？

Arvind说，通过做搜索产品，能立即为客户提供价值，同时解决企业最头疼的问题之一——安全性。要说服客户把全公司的数据交给一个新产品很难，尤其是在还没看到即时价值时。但搜索产品大家都能理解，也愿意部署。一旦Glean已经和公司所有内部数据连接好了，再推核心AI数据平台就容易多了——不需要再花时间说服客户交出数据，因为数据已经在那里了。

红杉用一个类比总结得很好：就像特斯拉因为已经在卖车，所以在自动驾驶上有优势一样。你们在提供AI Agent上有优势，是因为已经卖了一个能组织所有企业信息、让信息可访问、确保安全的数据平台，用户已经在用它提问。所以让它开始执行任务，就是一个自然的下一步。

至于为什么开发者愿意基于Glean构建应用，而不是直接访问自己的数据，Arvind解释，客户想构建的AI应用通常需要访问分散在多个云SaaS系统的数据。把所有数据集中在一起，再做搜索或检索层，非常繁琐。集成难，权限管理也复杂。开发者意识到，构建AI应用最激动人心的部分其实只占10%，剩下90%都是无聊的基础设施建设——从不同系统中提取数据、跑ETL和数据管道、搭好搜索功能。真正用AI之前，已经浪费了大量时间在底层工作上。Glean把这些都搞定了——ETL、搜索功能、公司内部的治理规则都已经处理好了，开发者只需要用搜索API，专注在业务问题上就行。

05 创业的关键是找到问题，AI只是工具

红杉请Arvind给创业者一些建议。Glean是当前最成功的AI应用公司之一，而且是以独立初创公司的身份做到的。

Arvind首先引用了红杉合伙人Pat的说法：整个软件市场是6000亿美元的规模，而AI把它扩展到了12万亿到15万亿美元。这是一个根本性的变革，AI是带动变革的关键因素。

给创业者的第一个建议：不要担心别人在做什么。即使大家都在做很多伟大的事，也不足以解决所有需要解决的问题。找到一个问题然后全力去解决，不要管别人是不是也在做同一件事——他们可能解决不了，或者不会用你的方式去解决。Glean前四年一直在解决一个几乎没人关心的问题，不得不创造一个新类别，去教育市场，当布道者。但他们知道自己做的是一个重要的问题。

ChatGPT出现后，搜索突然变得炙手可热，几乎所有人都想搞类似Glean的产品。这对Glean是好消息还是坏消息？Arvind的看法是：好消息。现在每个人都对这个方向感兴趣，想买他们的产品。当然也要面对更多竞争对手，但他们有信心赢，因为从一开始就专注在这个问题上，没有理由做不好。

红杉又追问了一个更深的问题：创建一家AI公司和创建一家普通公司，到底有多少相同、多少不同？

Arvind的回答很干脆：AI只是工具库中的一种工具。不因为用了AI，公司就突然变得不同了。事实上他相信，将来不会有任何新公司不以某种形式使用AI技术。所以关键还是回到原点——找到一个要解决的业务问题，然后借助AI用更好的方式解决。创建AI公司和其他公司没有本质区别。Glean自己也没有把自己看作一家AI公司。

红杉又问到模型训练的问题：你们会自己训练模型吗？核心能力边界在哪里？

Arvind说，没有计划训练超大型模型。但确实会训练一些小模型——为每个客户训练特定的语言模型，让它们遍历企业自己的数据集，理解数据语言、术语、代码名称等。这是核心技术的一部分，但不是像训练GPT-4那种大模型。他们愿意和构建大模型的公司合作。

最后，红杉描绘了一个更宏大的未来：五年或十年后，Glean在企业里会扮演什么角色？如果到那时你是一个配备了Glean的普通知识工作者，生活会是什么样的？

Arvind把时间线设定为五年。他的核心信念是，很多今天由人类完成的工作，五年后将不再由人类亲自完成。知识工作者从事的工作内容各不相同，但很多工作将被先进的AI助手接替——这些助手能访问公司所有数据和知识，掌握所有背景信息，从不遗忘，还有强大的推理能力。它们能在处理任何任务时提供巨大的帮助。

所以核心信念是：未来大部分工作将由这些AI助手完成。Glean希望成为那个助手。

另一个正在发生的改变是：今天大多数AI是被动响应的——用户提问，AI回答。但未来应该是主动的。就像一位全能助理，不只是在你请求时出现，而是主动告诉你该做什么，帮你管理日程，理解你的工作生活，让你始终保持高效。现在只有公司高管能享受这种服务，未来，每个人都将拥有这种强大的AI助手。