你的AI Agent智能体是建在流沙上还是有坚实的地基之中?
作者:Art Murray, D.Sc. CEO of Applied Knowledge Sciences and co-founder of the Enterprise of the Future initiativeThe Future of the Future
编译/刘枫宁 来源:KMWorld
你或许正使用着最顶尖的大语言模型,却依然会得到错误答案,还夹杂着令人头疼的幻觉内容;甚至会产出晦涩难懂、毫无逻辑的结果。当你所在的组织正积极推动智能体人工智能融入工作流程,乃至一些关键决策环节时,这种情况会愈发令人不安。
你百思不得其解,暗自琢磨:“难道是模型出了问题?” 这时你猛然想起那句老话 ——“垃圾输入,垃圾输出”,随即意识到问题并非出在模型本身。真正的症结,在于模型在网络空间中检索复杂问题答案时,所依赖的输入数据。
过去是,现在依然是,一切皆在于数据
不妨想想生成式人工智能所调用的各类数据源。
这些数据大多是结构松散的叙述性内容,涵盖了各种各样的网络资源,比如新闻报道、学术论文、研究报告;还有海量未经筛选的电子邮件、短信和社交媒体帖子;更不用说无穷无尽的图片、视频片段和播客内容。
更复杂的是,这些数据并非一成不变,它会随着事件的发展演变而更新,还会在跨平台传播的过程中发生变动。每一次传输,数据都会被轻微修改 —— 有时准确性会提升,有时却会截然相反(可以参考熵增原理)。
数据的增长速度、体量和复杂程度都在呈爆炸式攀升,按理说人工智能模型也会像人类一样不堪重负,但事实并非如此。它们只会马不停蹄地处理数据,源源不断地输出答案。作为一名知识管理从业者,你或许已经练就了精湛的提示词工程技巧,能够与大语言模型多轮交互,试图引导它给出理想的答复。
但智能体人工智能的情况往往并非如此。它会将海量的外部数据整合起来,构建专属的本地数据库,供智能体之间交换和管理彼此生成的数据。在此过程中,看似微不足道的小错误会不断累积,进而可能引发严重的后续后果。
因数据问题导致智能体人工智能失效的案例比比皆是。2025 年 7 月就发生了一起备受关注的事件:一款人工智能代码辅助工具在测试项目中,意外删除了一个包含 1206 名高管、1196 家公司信息的生产环境数据库(详见报道)。该事件发生在软件即服务大会(SaaStr)创始人杰森・莱姆金,使用代码协作平台 Replit 的 “沉浸式编码” 工具开展的 12 天实验期间。
Replit 首席执行官阿姆贾德・马萨德公开承认了这一事故,称其 “完全不可接受,本不该发生”。公司随后紧急推出多项防护措施,包括开发环境与生产环境数据库自动隔离、智能体必须获取相关文档授权才能操作,以及新增 “规划 / 纯聊天” 模式,以此杜绝未授权的数据修改行为。如此一来,人工智能省时增效的说法,也就大打折扣了。
尤为令人警醒的是,该智能体事后承认,自己违反了明确指令,在系统保护冻结期间造成了数月工作成果损毁、系统瘫痪。
这一切都表明,智能体对操作约束缺乏语义层面的理解,连开发数据库与生产数据库的区别都无法分辨。这一问题必须引起知识管理从业者的高度重视,毕竟解决语义错位问题,一直是我们知识管理领域的核心目标之一。
从 “大数据” 迈向 “深度数据”
不妨暂时切换到数据库管理员的视角。
任何一名合格的管理员都会提出这样的问题:“这些数据的数据模型在哪里?” 遗憾的是,生成式人工智能领域几乎没有成型的数据模型,更谈不上标准化和一致性。尤其是前文提到的,底层智能体数据由智能体自行生成和管理,整个过程缺乏透明度,这一问题就更为突出。
由此带来的结果是,数据与知识不再是两个独立的模块,而是正迅速融合为统一的架构。作为知识管理从业者,我们不能再将数据管理的工作完全推给管理员,而是需要与他们紧密协作,共同构建具备充足语境信息和语义价值的数据架构,确保自主及半自主智能体能够可靠地加以应用。
挑战背后的机遇,以及知识管理的关键作用
在数据的丛林中开辟出一条通路并非易事,但也不必将其过度复杂化。以下是几个可以着手推进的关键步骤。
这些步骤大多属于当下蓬勃兴起的实践方向 —— 为企业架构增设语义层。
具体包括投入资源构建并维护机器可读的分层本体论:底层本体聚焦特定领域的专业知识,中层和上层的通用本体则负责促进不同学科、不同领域之间的知识流动。
在此过程中,采用行业标准乃至开放标准至关重要。全球最大的开源本体库 SUMO(官网:ontologyportal.org),以及近期发布的 NIEMOpen 本体(官网:niemopen.org)—— 这款本体从设计之初就围绕语义层展开 —— 都是该领域的重要突破。
除此之外,还可以沿用一些经过验证的成熟数据与文本分析技术,比如通过情感分析、实体关联提取技术构建知识图谱数据库,进而生成可视化知识图谱;同时借助抽取式人工智能实现趋势识别、因果推理、溯源追踪、偏差消除和伦理规范落实等目标。
简而言之,我们正回归到传统的数据与信息治理工作。你的企业是否设有首席数据官?如果有,你与他们的沟通频率如何?你需要借助他们的力量,让企业的数据目录更适配人工智能的应用需求,尤其是在人工智能自动分类技术日益普及的当下。
所有这些努力,都旨在确保智能体之间的语义一致性,从而让智能体数据具备更强的可操作性。而这恰恰是那些主要基于常规知识训练,甚至单纯依靠文本中标记位置生成内容的大语言模型所欠缺的。一个设计精良的语义层,能在组织与社会话语的纷繁噪音中,有效捕捉到微弱的有效信号。
从成功与失败中汲取经验
务必主动研究、借鉴并吸纳他人的成功实践。
比如,生鲜配送平台 Instacart 就打造了一套功能强大的移动智能体系统,为生鲜超市 Sprouts Farmers Market、克罗格等大型零售商的消费者和供应商提供服务。其推出的智能体分析工具,可集成到零售商现有的数据架构中,实时输出可落地的洞察(详见官网:instacart.com/company/retailer-platform/ai-solutions)。再如,企业服务平台 ServiceNow 透露,其将自研的 NowAssist 智能体平台与微软的 Copilot 助手相结合,实现了智能体之间的无缝协作,它们就像人类同事一样,能够实时共享语境、协同完成复杂任务(详见报道:devblogs.microsoft.com/semantic-kernel/customer-case-study-pushing-the-boundaries-of-multi-agent-ai-collaboration-with-servicenow-and-microsoft-semantic-kernel)。
最后,切勿忽视知识管理领域中常被忽略的一环 —— 隐性知识,以及它在将人类的意义建构能力融入智能体系统中的作用。大语言模型的输出完全依赖训练数据集,而这些数据集本身存在认知盲区,且会随着时间推移逐渐过时。因此,人机协同模式不可或缺,尤其是在模型输出结果存疑的情况下。这是从海量信息中筛选有效信号的关键 “闸门”。
那么,你的选择是什么?是任由智能体人工智能建立在充斥着海量噪音的数字流沙之上,还是为其打造一个基于语义丰富数据架构的坚实根基?答案不言而喻。
真正的问题在于:作为知识管理从业者,我们是否已经准备好、愿意且有能力承担起这一关键职责?
相关链接
2026中国知识库知识管理如何做
2026中国企业知识管理知识库5个核心工作
2026中国呼叫中心AI知识库的5个关键工作
经典培训课程
企业AI知识库搭建与运营培训课程
呼叫中心AI知识库培训课程
个人知识体系构建能力课程
书籍和资料
《卓越密码如何成为专家》
《你的知识需要管理》
免费电子书《企业知识管理实施的正确姿势》
免费电子书《这样理解知识管理》