让传统的企业搜索具备对话性,提升员工知识获取效率

让传统的企业搜索具备对话性,提升员工知识获取效率

鉴于过去一两年自然语言技术的快速进步,向对话式搜索的过渡似乎已成必然。语义搜索技术能够洞悉用户查询或提示背后的真实意图,再也不用绞尽脑汁想关键词和布尔符号拼装检索式;搜索结果也不再局限于文档或网页,却仍能把它们的内容信手拈来。搜索,已全面进入多模态时代。

与“企业知识”对话,而不是找“文档” 过去那种“先找文档、再读信息”的检索范式,正被“直接与企业知识、数据、文档对话”的能力取代。于是,“搜索”这个词本身也被重新定义,其应用场景之广、用户群体之多元,在几年前还难以想象。以向量相似度搜索为例,它搜索视频、音频、图像的能力,与搜索文本一样游刃有余。

基于用户需求现状

“对话式搜索最大的胜利,也许在于‘它在用户当下所在的地方迎接用户’,”Pega 产品工程高级副总裁 Steve Bixby 说,“我们用搜索去迎合用户自己的语言、他们对问题的自然描述,而不是像关键词搜索那样,必须先把‘对的词’拼对,才能拿到对的内容。”

然而,企业必须意识到:绝大多数对话式搜索底层仍是语言模型——包括但不限于大语言模型(LLM)。这些模型的核心任务是“准确预测下一个词”,却并不能保证检索、综合、摘要乃至对话回答的质量。因此,那些更“老牌”的检索技术—— lexical 搜索、Laserfiche 首席技术官 Michael Allen 口中的“query-based search”,以及各类混合方案——不仅没有退场,反而常常是兑现对话式搜索承诺的“更优解”。

“很多人把这些技术当成‘一键搞定’的魔法按钮,其实远非如此,”SAS 自然语言处理高级产品经理 Mary Osborne 提醒,“你能得到惊艳的结果,但前提是你要先投入足够的功夫。”

语言模型带来的红利

通过语言模型实现语义搜索的好处不胜枚举。它们为后端内容系统提供了自然语言界面,从根本上放大了搜索的资本价值。“传统上,搜索只是一个工具;现在,它更像一个协作者,”Bixby 说。用户既能提问,也能获得由多源信息综合而成的答案;同时,提问的数量和细粒度都大幅提升。其“可迭代”特性尤为突出。Hyland 内容智能副总裁 Rohan Vaidyanathan 表示:“用户无需每轮都重写查询,可以逐步细化、追问或延伸相邻想法——这正贴合人类的思维习惯。”

语言模型提供的分析能力同样一骑绝尘,且不限于文本。“你可以把 BI 报告里的一页——也许是一张表或饼图——丢给模型,问它‘这页讲了什么’‘洞察在哪’,”Bixby 举例,“这带来的价值是巨大的。”

此外,语言模型问世后,用户在信息检索任务中可表达的需求,其丰富程度远超以往。Osborne 举了一个例子:有人想在某片区域找“最温馨”“最棒”的餐厅。“模型会发现,‘我捕捉到了带有情绪的词——best、coziest,还识别出餐厅’,”Osborne 说,“于是它会把这些线索放在上下文中综合搜索。”

相关链接

企业AI知识库搭建与运营培训课程
呼叫中心AI知识库培训课程
个人知识体系构建能力课程

知识库知识管理系统

企业AI知识管理知识库软件系统清单
个人知识管理软件AI知识库系统清单

向量检索系统

用语言模型做语义搜索的一个结果是:用户并不总直接接触原始资料。“你拿到的是答案,未必是底层文档,”Allen 指出,“可能会附带引用,你可以点进去看。”借助向量搜索引擎,用户可通过溯源来验证模型答案的准确性。这类向量计算平台常被用于“检索增强生成”(RAG):

把相关内容以向量形式存进企业库,再补充到提示里。Vaidyanathan 表示,这种“提示增强”既减少模型胡说,也让企业数据“AI 就绪”——“把内容变成向量、用智能切块策略,再通过检索引擎捞出最相关的片段。”

向量平台之所以吃香,原因众多:既能关键词搜,也能相似度搜;曾被视为“暗数据”的视频也能一搜即得。

Bixby 举例,教客户用软件的操作视频、功能演示、高阶教程,都可整体转成向量。“这样一来,音频(也许已转录)和画面都能被检索。你可以提问,系统直接跳到视频里对应时间点给你答案。”甚至还能把老员工操作遗留系统的屏幕录成视频、向量化后提问,再把答案喂给低代码平台,快速 modernization。

切块与幻觉

向量检索系统的好处是“通吃”任何企业内容:支持语义搜、把模型回答限在企业知识内、实现对话式搜索。但想达到企业级可用,前期必须下苦功。其中“切块”(chunking)——把文档切成多大的向量块——就是第一道关。

Osborne 提醒:“切块没有神奇算法,它决定了用户查询拿来比对的数据单元。如果块切得不对,或在语义不该断的地方断开,体验就会翻车。”

企业可用元数据给待嵌入的内容打标签,为模型补充上下文,从而指导切块策略。Bixby 认为,“内容类型”最关键:“是表格、行记录、培训手册,还是政策条文?”

此外,模型“幻觉”只能降、不能灭。Bixby 补充,很多所谓幻觉,其实是源头文档本身就写错了;“人们先骂模型瞎编,一点源才发现,哦,原来文档错了。”

混合搜索(Hybrid Search)

当下与对话式向量检索系统最常搭配的“混合搜索”即关键词搜索 + 相似度搜索。前者在用户“明确知道要找什么”时依旧不可替代——“文档标题、政策编号或法律条款”,Vaidyanathan 举例,“关键词搜索也是合规场景的基础。”

其他检索方式——例如 Allen 提到的“基于查询(query-based)”——同样可以“ hybrid 化”或“对话化”。“‘基于查询’是用逻辑运算符去限定对象属性,也就是元数据,”Allen 解释,“你可以选字段:‘且’‘或’‘大于’‘小于’,这不是关键词搜,但可以把关键词搜嵌进去。” 其实,基于查询与某些关键词搜本就“近亲”:布尔运算符里就包含 Allen 说的那些字段词。

Osborne 补充,布尔运算适合“把 ‘customer’ 和 ‘order’ 同时出现”的文件捞上来;基于查询的搜索则更擅长工作流场景——留存、生命周期管理等需要“原文件”继续往下游走的用例。

Allen 举了一个法律开示(e-discovery)场景:先用向量相似搜锁定相关文档,再切回基于查询的搜索“把 exact 文档抓出来做深度分析,挑出一批放到 legal hold,免于常规生命周期处置。”

元数据标签(Metadata Tags)

Allen 的用例折射出现代对话搜索的几条“铁律”:

  1. 向量引擎(大概率再加语言模型)当对话界面;
  2. 必须辅以其他搜索(如此处的基于查询);
  3. 企业不仅要把内容切成向量、选对 chunk,还得“预加工”内容,让结果最优。

“真正的分水岭在于:内容有没有被上下文信号充分 enrichment ——关联、语义关系、深度——这些决定了大模型能不能看懂、答对。”Vaidyanathan 说。

给向量化内容打元数据标签,是平台“搜前/搜中/搜后”过滤数据的主要手段,也与传统搜索一脉相承,进一步凸显混合模式的威力。

“有标签,查询更好写,LLM 也更给力,”Allen 说,“我们在做用 LLM 做自动分类打标签的功能;虽然基于查询不一定非有标签,但有了肯定更香。”

受控词表 / 知识图谱Taxonomies))

元数据标签能丰富结果,也能给对话系统“打底”,让它产出靠谱回答。

若再把标签升级为完整受控词表(taxonomies),好处还能翻倍:它把元数据里的术语关系显性化。Vaidyanathan 强调,“知识图谱这类技术就派上用场了——跨域连内容,让 LLM 能基于结构推理。” 引入词表和图谱,既能让对话搜索只碰企业“官方知识”,也能把模型“幻觉”圈在可控范围内。

引入受控词表(taxonomies)来支撑对话式搜索,反映出企业“正在意识到:用一套结构化词汇、节点,有时甚至是句向量,去引导相似度计算,可能大有价值”。

正如 Osborne 所说,“它让我们像过去几十年那样,拥有一套有组织、能指挥搜索方向的骨架。” 此外,词表能同时服务多种搜索形态——语义、关键词、相似、相异、基于查询,以及它们的任意混合;它们把语言模型所需的领域知识“压成”正式结构,让对话动作物有所值。

Allen 指出:“词表是对语料里不同概念及其关系的超紧凑表达,通过概念映射把‘文档—语料’之间的隐性关联亮出来,帮助 LLM 找到更相关的材料。”

未来之路

对话式搜索被盛赞为“把搜索变成可交互的自然语言过程”——用户无需翻链接列表,只需迭代 refinement 即可获得答案。

然而,众多专家也提醒:很多时候企业仍得拿到原始文档,哪怕只是为验证模型结果。因此,融合传统与现代检索手段的混合范式,仍将在 KM(知识管理)场景里持续创造最大价值。

Allen 展望:“语义搜索很强大,但我认为它作为独立热词的‘高光时刻’会很短暂。LLM 不仅是加速信息获取,更借助 Agent 及其他变体,推动不同架构、内容生成乃至流程自动化,承担更多环节。”

归根结底,让搜索“对话化”就是打造一种体验:用户仿佛与一位博学助手自然交谈,通过 AI、向量化、语义搜索与机器学习驱动的直观互动,获得相关且个性化的结果。

编译:董昌顺 原文作者:Jelani Harper 来自:KMWorld

发表回复

*您的电子邮件地址不会被公开。必填项已标记为 。

*
*