让内容与数据为AI做好准备的关键方法(7步骤)
人工智能已迅速从科幻构想,走进无处不在的互联网现实,如今更成为企业标配解决方案。我们不断被问到一个问题:“我该如何确保企业的内容与数据已为 AI 应用做好准备?”
为企业全新的 AI 方案匹配 “正确” 的内容与数据,是 AI 项目成功并落地推广的关键,反之则会迅速导致 AI 项目偏离轨道、宣告失败。
尽管各界对各类通用人工智能解决方案充满热情,但许多企业仍难以在内部落地稳定可靠的 AI 应用。麻省理工学院近期发布的《生成式人工智能鸿沟》报告揭示了一个令人担忧的事实:即便在 AI 领域投入巨资,仍有95% 的企业未能从 AI 投资中获得任何实际收益。
企业内部 AI 落地受阻的核心障碍之一,便是内容与数据质量低下。没有高质量内容与数据作为坚实基础,任何 AI 方案都将充斥幻觉与错误。这会让企业面临难以承受的风险 ——AI 工具可能输出错误或过时信息,进而引发危险且代价高昂的后果。这也是许多演示效果出色的工具,无法真正投入生产环境的原因。即便采用最先进的 AI 技术,若企业未提前梳理准备好内容与数据,也无法获得令人满意的效果。
本文将梳理七大核心方法,助力企业实现内容与数据的 AI 就绪。通过合理筹备与投入,企业可成功落地最新 AI 技术,并输出可信、完整的结果。
1)明确 “内容” 与 “数据” 的定义(知识资产界定)
看似是不言自明的一步,但实现内容与数据 AI 就绪的首要前提,是在企业内部清晰界定 “内容” 与 “数据” 的含义。许多企业混用这两个概念,也有企业将其中一个作为另一个的上位概念,这无疑会造成大量混乱。
沿用传统定义,我们将内容定义为非结构化信息(涵盖文件、文档乃至内网文本片段);将数据定义为结构化信息(即数据库、客户关系管理系统、人力管理系统、产品信息管理系统等应用中的行列数据)。
若仅将 AI 应用于其中一类,而不同时覆盖内容与数据,无法为终端用户提供完整全面的信息,实则是在浪费 AI 的潜力。事实上,我们建议企业拓宽视野,不只局限于内容与数据,而是思考所有可被 AI 利用的企业资产。
为此我们提出知识资产这一概念。知识资产包含企业可用于创造价值的所有信息与专业能力,不仅涵盖内容与数据,还包括员工专业技能、业务流程、设施、设备与产品。
这种思维模式能够快速打破企业内部人为形成的信息孤岛,促使企业统筹考量各类资产,而非按类型割裂看待。
本文后续将统一使用知识资产替代 “内容与数据”,以强化这一理念。简而言之,下文所述实现知识资产 AI 就绪的各项步骤,均应站在企业整体视角推进。与其分别建立内容治理与数据治理体系,不如制定一套全面的知识资产治理方案。
这一模式不仅能助力实现 AI 就绪,还可帮助企业打破孤岛、消除冗余,从而最大化提升整体运营效率与协同一致性。
2)保障质量(资产清理)
我们发现,大多数企业所留存的信息比实际所需多出约 60%–80%,而且在很多情况下,企业甚至不清楚自己究竟还保存着哪些内容。这意味着每五份知识资产中就有四份是陈旧、过时、重复或高度相似的冗余内容。
即便不考虑人工智能,过度留存信息本身就会带来诸多成本:一方面是维护这 80% 冗余信息的管理负担(包括不必要的服务器存储成本与环境影响);另一方面,当终端用户翻阅过时知识资产时,也会显著降低信息可用性与可查找性。
而在引入AI后,由此产生的代价会更高,原因主要有几点:
首先,AI 通常会 “原样呈现” 它检索到的知识资产。
人类在看到一份老旧过时的制度文件时,或许能通过旧版企业标识或多年前的发布日期判断其时效性,但 AI 在调用并展示这份资产中的信息时,会剥离上下文线索,让过时内容看起来像最新信息。
其次,我们必须回到那句经典格言:“垃圾进,垃圾出”。
向 AI 工具输入错误的知识资产,必然会输出错误结果,也就是所谓的幻觉。尽管可以通过提示词工程尽量避免此类冲突乃至错误,但唯一万无一失的解决办法,就是确保原始知识资产本身的准确性,至少保证绝大部分内容准确可靠。
此外,许多AI模型在面对高度相似的 “知识资产” 时也会陷入困境,无法判断哪个版本才是可信版本。试想企业内部普遍存在的版本管控问题:草稿文件、基于不同假设构建的数据、大型交付物与报告的多版迭代稿,目前往往全部被保存下来。一份知识资产可能经过无数次修改,且绝大多数版本都会被留存。当这些版本被AI读取时,极易造成混淆与冲突,尤其是当各版本并非简单迭代补充,而是为优化结论或建议进行大幅修改时。上述每一种情况,都可能导致 AI 在企业应用中失效。
最后,在这一阶段,你还可以考虑对资产进行结构化重构,以提升人类与机器的可读性。
从人类阅读角度,可统一格式,降低认知负担、提升内容一致性;
对人与 AI 双方而言,则可以为图片及其他非文本元素补充文字说明与标签,使其更易被理解。
从 AI 角度,在篇幅更长、结构更复杂的资产中,内容的邻近关系与排列顺序可能会降低检索精度,因此可以对文档进行重构,使其更具线性逻辑、时间顺序或主题统一性。
并非所有类型的资产都需要这样做,甚至对部分资产而言无关紧要,但对于以文本为主的长篇内容,这仍是一项重要的优化考量。
相关链接
经典培训课程
企业AI知识库搭建与运营培训课程
呼叫中心AI知识库培训课程
个人知识体系构建能力课程
书籍和资料
《卓越密码如何成为专家》
《你的知识需要管理》
免费电子书《企业知识管理实施的正确姿势》
免费电子书《这样理解知识管理》
知识库知识管理系统
企业AI知识管理知识库软件系统清单
个人知识管理软件AI知识库系统清单
3)补齐缺口(隐性知识捕获)
实现 AI 就绪的下一步,是识别知识缺口。此时,你需要结合企业的 AI 应用场景,明确希望 AI 解答哪些问题。在很多情况下,现有知识资产库并不具备完整回答这些问题所需的全部信息,尤其缺乏结构化、机器可读的内容。这本身就构成风险 —— 如果 AI 系统并未意识到自身缺少完整的知识支撑,就可能将片面、有限的答案当作定论输出。
补齐知识资产缺口难度极高。
第一步是定位缺失内容。
套用一句老话,企业长期以来都面临 “不知道自己不知道什么” 的困境,即组织成熟度不足以识别自身的知识短板。当企业主动为 AI 配备完整、准确的知识资产时,这一问题会变得尤为突出。不过好消息是,推进知识资产 AI 就绪的过程,本身就能帮助发现缺口。本文后续两部分将介绍语义设计与标签体系,这些步骤同样能定位知识缺失环节。此外,AI 方案设计与部署具有迭代特性,当 AI 无法回答某类问题时,也会反向触发缺口补齐工作,这一点我们会在后文展开说明。
当然,识别缺口后,真正的挑战才刚刚开始:企业必须生成新的知识资产,或挖掘 “隐藏” 资产来填补空白。实现这一目标有多种方法,包括隐性知识捕获、内容盘点等,综合运用这些手段,能帮助企业从人工智能(AI)迈向知识智能(KI)。
4)添加结构与上下文(语义组件)
在完成知识资产清理与缺口补齐后,下一步便是对其进行结构化处理,使资产之间能够依托恰当的上下文与含义实现正确关联。这需要运用语义组件,具体包括分类法(taxonomies)与本体论(ontologies)。
分类法赋予内容含义与结构,帮助 AI 理解用户查询,依据内容中词语与短语间的关联关联知识资产,并借助上下文准确辨析同义词及近义表述。分类法还可内置术语表,进一步定义字词短语,为 AI 生成结果提供参考。
本体论虽常与分类法混淆或混用,但其提供的知识组织方式更为高级,既与分类法互补,又具备独特价值。本体论侧重定义知识资产与承载系统之间的关系,让 AI 具备推理能力。例如:
<Person> works at <Company>
<Zach Wahl> works at <Enterprise Knowledge>
<Company> is expert in <Topic>
<Enterprise Knowledge> is expert in <AI Readiness>
- <人员>就职于<公司>
- 扎克・瓦尔就职于企业知识公司
- <公司>专精于<主题>
- 企业知识公司专精于 AI 就绪
基于上述结构化逻辑,即可得出简单推理结论:就职于该公司的人员专精于对应主题 —— 扎克・瓦尔是 AI 就绪领域专家。更详尽的本体论可支撑更复杂的推理,让企业 AI 系统串联起分散的各类知识资产。
通过这种方式,本体论能够引导 AI 遍历知识资产,更精准地做出 “合理推断”,输出更完整、连贯的答案。
总而言之,这些语义组件可以看作是企业业务、人员与流程的组织全景地图,指引 AI 精准抵达目标,避免偏离或出错。
5)语义模型应用(打标)
当然,仅设计语义组件远远不够,还必须将其应用到知识资产中,才算完成流程。如果说语义组件是地图,那么将其作为元数据附加到内容上,就是让这张地图易用直观的导航系统。
这一步往往是企业的痛点,这也是我们始终以 “知识资产” 为整体视角,而非割裂讨论内容与数据的原因。要真正实现 AI 就绪,所有知识资产 —— 无论其形态是结构化、非结构化还是半结构化 —— 都必须应用统一一致的元数据。
规范应用后,统一的元数据会形成一层额外的含义与上下文,辅助 AI 输出完整准确的答案。
随着主流分类法与本体管理工具的升级,自动打标、在元数据图谱中存储知识资产关联关系等流程已大幅优化,不过仍需人工参与以保证准确性。即便如此,曾经在元数据应用中难以逾越的障碍,如今已简化许多。
6)管控访问权限与安全(统一授权体系)
当你终于实现企业一直追求的目标,让系统能够完整、统一地向终端用户提供所需知识资产时,会发生什么?如果跳过这一步,结果将是灾难性的。
人工智能的核心价值之一,就是能挖掘知识资产中的隐藏价值,建立人类通常难以发现的关联,并整合分散来源形成新知识资产与全新答案。
这一点固然极具吸引力,但同时也给组织带来了巨大风险。
目前,许多企业的权限管理模型并不完善,甚至相当混乱,无法确保 “合适的人看到合适的资产,无关人员无法访问”。我们经常发现,企业系统中各类高度敏感的知识资产本应加密保护,却处于未设防状态。其中有些是独立文档,或是应用系统中的某行数据,这类问题虽普遍存在,但相对容易解决。而更多隐患,只有站在企业整体视角才能被发现。
举个例子:
- 数据库 A 中存有用于保险申报、已做匿名化处理的员工健康信息,但关联着独立唯一标识;
- 文件 B 中有一张表,将这些唯一标识与员工人口统计信息对应;
- 应用 C 存储着用于组织架构的员工真实姓名与职位,同时以隐藏字段形式保存其唯一标识。
绝大多数人根本无法发现这种关联,但人工智能的设计初衷就是做这件事。一旦疏忽,AI 可能会直接给企业招致巨额诉讼。
如果你现有的系统存在安全与权限问题(放心,几乎所有企业都存在),AI 会在不经意间暴露这些漏洞,串联起信息并呈现出相关内容与关联,给企业带来真正毁灭性的后果。
任何 AI 就绪工作都必须在 AI 系统放大现有权限与安全问题之前,先行解决这一挑战。
7)持续维护质量并迭代优化(治理)
第一至第六步讲的是如何让知识资产为 AI 做好准备,而最后一步,则是让整个组织为 AI 做好准备。
在让资产适配 AI、以及搭建 AI 系统本身都投入了大量资源后,最后一步就是确保两者的长期质量稳定。成熟的企业会组建专职团队,推动知识资产从 “AI 就绪” 走向 “AI 成熟”,工作包括:
- 维护并执行核心治理原则,确保知识资产保持最新,AI 系统只调用可信资产;
- 针对 AI 出现的幻觉与无法回答的问题及时响应,补齐知识缺口;
- 持续优化语义组件,使其与组织业务变化保持同步。
真正成熟、希望成为AI 驱动型组织的企业,会首先将知识资产视为成功的核心基石。
这类企业会着力打造 ROCK 型知识资产(Relevant, Organizationally Contextualized, Complete, and Knowledge-Centric):R(相关)、O(组织上下文)、C(完整)、K(知识中心),
以此为基础,构建真正能为组织带来变革性价值的企业级 AI 能力。
作者:
萨拉・梅・奥布莱恩 – 斯科特现任 EK 公司语义设计与建模业务负责人。她专注于知识工程与语义工程领域,在元数据、分类法、本体设计及知识图谱落地实施方面拥有丰富经验。凭借专业能力,她帮助企业更高效地利用信息与知识资产,优化决策流程、提升运营效率。
扎克・瓦尔-知识与信息管理战略、内容战略及分类法设计领域专家。扎克致力于打造并赋能高绩效团队,为客户提供聚焦成果、务实高效的解决方案。
来源:enterprise-knowledge.com