建立企业知识治理体系的6个步骤:提升AI准备度,让内容与数据做好 AI 对接的关键路径
编译/刘枫宁
随着人工智能迅速走进企业的各类业务和职能,许多公司都想找到AI在企业落地的方法论。当真正开始做的时候,人们都会思考这样的问题:
“如何确保企业的内容与数据已做好对接人工智能的准备,真正让企业AI能够落地?”
高质量的内容与数据是企业人工智能落地应用并取得成效的关键,不解决这个问题,大部分企业的人工智能计划都落不下来。
麻省理工学院(MIT)发布的一份名为《生成式人工智能领域的差距》报告揭示了一个令人担忧的事实:尽管企业在人工智能领域投入巨大,但 95% 的企业并未从这些投入中获得任何收益。
企业推进人工智能应用的核心障碍之一是内容与数据质量低下。
缺乏高质量的内容与数据,任何人工智能方案都会充斥着 “幻觉输出” 与各类错误:AI工具输出错误或过时的信息,进而引发严重且代价高昂的后果。这也是很多在演示阶段表现出色的人工智能工具,难以成功投入实际生产应用的原因。
即便人工智能技术再先进,若企业未提前做好内容与数据的筹备工作,也无法获得理想效果。
本文将介绍七种关键方法,助力企业让内容与数据具备对接人工智能的条件。只要准备充分且投入得当,企业就能顺利运用前沿人工智能技术,产出可靠完整的成果。
一、知识资产界定:明确 “内容” 与 “数据” 的定义
要让内容与数据适配人工智能,首要步骤是在企业内部清晰界定 “内容” 和 “数据” 的含义。许多企业将这两个概念混用,还有些企业将其中一个作为另一个的上位概念,这无疑会造成极大混乱。
参考传统定义,我们将内容界定为非结构化信息,涵盖文件、文档以及企业内网中的文本片段等;而数据则指结构化信息,具体体现为数据库中的表格数据,以及客户关系管理系统、人力资源管理系统、产品信息管理系统等应用中的各类数据。
若不将人工智能同时应用于内容和数据,无法为终端用户提供全面完整的信息,就相当于浪费了人工智能的潜在价值。事实上,我们建议企业拓宽视野,除了内容与数据,还应考量所有可借助人工智能发挥价值的企业资产。
为此,我们建议用范围更广的 “知识资产” 这一概念:知识资产涵盖企业所有可用于创造价值的信息与专业能力,不仅包括内容和数据,还涉及员工的专业技能、业务流程、场地设施、设备及产品等。这种思维方式能打破企业内部人为划分的信息壁垒,促使企业从整体视角统筹各类资产,而非按类别孤立看待。
在下文的论述中,我们将用 “知识资产” 替代 “内容与数据”,以此强化这一理念。下文提及的各项适配措施,都需从企业知识资产的全局视角出发。企业不应分别制定内容管理规范和数据管理规范,而应构建一套全面的知识资产管理体系。这一体系不仅能助力企业完成对接人工智能的筹备工作,还能帮助企业打破信息壁垒、减少资源冗余,进而提升整体运营效率,推动各部门协同发展。
二、知识资产清理:保障知识资产质量
大多数企业存储的信息规模超出实际需求的 60% – 80%,且多数情况下,企业甚至不清楚自身到底存储了哪些信息。这意味着,近八成的知识资产存在过时、重复或近似重复的问题。即便不考虑人工智能应用,过多存储这类信息也会产生诸多成本。
比如,维护这部分冗余信息会带来额外的管理负担,还会增加服务器存储成本并造成环境影响;同时,员工在查找信息时需翻阅大量失效的知识资产,也会降低工作效率。
而从人工智能应用角度来看,这种情况造成的损失会更为严重,原因如下:
其一,人工智能通常会 “无差别呈现” 获取到的知识资产。
人类看到一份过时的企业政策文件时,可能会通过旧版企业标识或早年日期识别其失效属性,但人工智能提取并呈现这类文件中的信息时,会使其呈现出全新的状态,原本的背景信息会完全丢失。
其二,有句老话 “输入的是垃圾,输出的也是垃圾”。
若向人工智能输入错误的知识资产,必然会得到错误结果,也就是人工智能的 “幻觉”原因。尽管通过提示词优化或许能避免部分矛盾与错误,但确保原始知识资产的准确性(至少绝大多数准确),才是解决该问题的根本办法。
此外,许多人工智能模型难以区分近似重复的知识资产,无法判断哪个版本更为可靠。企业中普遍存在版本管理混乱的问题,各类工作文档、基于不同假设建立的数据集,以及多次修订的大型交付文件和报告均被留存。这些经过无数次修改的版本大多被保存下来,一旦被人工智能读取,极易引发混淆与逻辑冲突。尤其是当这些版本并非简单的内容增补,而是经过修改以完善结论或建议时,人工智能出错的概率会大幅增加。
最后,企业还需对知识资产进行结构优化,以提升人机可读性。
从员工使用角度,可通过规范格式降低理解难度,保持内容的一致性;对员工与人工智能而言,可为图片及其他非文本类资产补充文字说明和标签,以便更好地描述其内容。而对于篇幅较长、内容复杂的知识资产,信息的排列顺序和呈现位置可能会影响人工智能处理的精准度。
因此,可将这类文档调整为线性叙述、按时间顺序展开或按主题分类的结构。虽非所有类型的资产都需如此调整,但对于文本类及篇幅较长的资产而言,这一优化尤为重要。
相关链接
企业AI知识库搭建与运营培训课程
呼叫中心AI知识库培训课程
个人知识体系构建能力课程
知识库知识管理系统
企业AI知识管理知识库软件系统清单
个人知识管理软件AI知识库系统清单
三:挖掘隐性知识:填补知识缺口
推进人工智能适配工作的下一步,是找出知识资产中的缺口。此时,企业需明确人工智能的应用场景,以及希望通过人工智能解决的问题。
在大多数情况下企业现有知识资产库中的信息,难以全面解答这些问题,尤其是缺乏符合机器读取标准的结构化信息。这本身就存在风险 —— 若人工智能未察觉自身知识储备不足,却将不完整、片面的结论当作确凿答案输出,后果不堪设想。
填补知识资产缺口难度极大,第一步便是找出缺失的内容。
有句俗语精准描述了这一困境:“企业往往不知道自己不知道什么”。这意味着企业尚缺乏发现自身知识缺口的能力,而这正是企业主动为人工智能配齐完整知识资产、以保障其输出准确答案时面临的一大挑战。不过值得庆幸的是,推进知识资产适配人工智能的过程,本身就有助于发现这些缺口。下文将介绍的语义设计与标签标注等步骤,均能助力企业定位知识资产缺失的领域。
此外,人工智能方案的设计与部署是一个循环优化的过程,后续我们也会提到,当人工智能无法解答某个问题时,也可反向推动企业填补相应的知识缺口。
当然,发现缺口后真正的挑战才刚刚开始 —— 企业需创造新的知识资产,或找出未被发掘的 “隐藏资产” 来填补这些空白。
实现这一目标的方法有很多,比如挖掘隐性知识、梳理内容清单等。这些方法共同助力企业从单纯应用人工智能,向构建知识智能体系迈进。KMCenter有成熟的知识缺口发现与创造新的知识资产的方法论课程,感兴趣可以联系微信号:511956894
四、丰富语义要素:构建知识的结构与关联语境
完成知识资产的清理与缺口填补后,下一步需对其进行结构化处理,使其形成合理关联,并赋予相应语境与含义。这就需要运用分类体系和本体论等语义要素。
分类体系能赋予知识资产意义与结构,助力人工智能理解用户的查询需求,根据知识资产中词汇和短语的关联建立资产间的联系,还能结合语境准确解读同义词及含义相近的表述。分类体系中还可纳入术语表,对各类词汇和短语进行详细定义,为人工智能生成结果提供参考依据。
本体论常与分类体系不同,但它是一种更高级的知识组织形式,既能与分类体系互补,又具备独特价值。本体论聚焦于明确知识资产及其存储系统间的关联,从而支持人工智能开展推理。
举个例子:张三在KMCenter公司工作,KMCenter公司擅长知识管理咨询、知识库搭建与运营。
<Person> 工作在 <Company>
<张三> 工作在 <KMCenter公司>
<Company>擅长的 <Topic>
<KMCenter公司> 擅长于 <知识管理、知识库搭建与运营>
基于此,可通过结构化逻辑得出一个简单推论(不一定准确):受雇于某企业的人员,专长于该企业的核心领域 —— 即张三专长于知识管理、知识库搭建与运营领域。更详尽的本体论能快速支撑更复杂的推理过程,助力企业的人工智能方案关联内部分散的各类知识资产。通过这种方式,本体论使人工智能方案能够灵活调用知识资产,更精准地做出合理 “推断”,并输出更完整、连贯的答案。
总体而言,这些语义要素可视为一幅企业运营图谱,清晰呈现了企业的业务范畴、执行主体与运作模式。语义要素能为人工智能指明方向,使其精准抵达目标领域,避免走弯路或出现偏差。
总体而言,这些语义要素就如同企业的运营图谱,清晰呈现了企业的业务内容、执行主体与运作方式。借助这些语义要素,人工智能能精准定位目标信息,避免走弯路或出现偏差。
五、标签标注:语义模型落地应用
仅设计好语义要素远远不够,还需将其应用到知识资产中,才算完成整个流程。
类似于语义要素是一张地图,那么将语义要素转化为元数据并进行标注,就如同全球定位系统,能让这张 “地图” 便于使用、直观易懂。
这一步骤往往是企业推进工作时的难点,这也正是我们要以知识资产为核心展开讨论,而非孤立探讨内容或数据的原因。要让知识资产充分适配人工智能,无论其类型是结构化、非结构化还是半结构化,都必须为其标注统一规范的元数据。
标注规范的元数据后,能为人工智能提供额外的语义与语境信息,助力其输出完整准确的结果。
目前主流的分类体系与本体论管理系统在很多系统中已经有相关的功能,元数据自动标注以及通过元数据图谱记录知识资产关联的技术正在落地,但仍需人工参与核验,以保障准确性。
虽然这个工作今天仍然不容易,但现在元数据标注工作已不再像以往那样困难了。
六、统一权限管理:规范访问权限与安全管理
当企业终于搭建起能为终端用户集中提供所需知识资产的体系后,若忽略这一步骤,极可能引发严重问题。
人工智能的核心价值之一,便是能挖掘知识资产中的潜在价值信息,建立人类难以发现的关联,整合不同来源的信息以生成新的知识与答案。
这一特性虽极具价值,却也给企业带来了巨大的安全风险:当前许多企业的权限管理体系并不完善,无法确保合适的人获取合适的资产,同时阻止无关人员接触敏感资产。我们经常发现,企业系统中存有大量不同形式的高度敏感知识资产,本应采取严格的安全防护措施,实际却处于无保护状态。其中部分是独立文件或应用中的某一行数据,这类问题虽极为常见,但解决起来相对容易。
而更多的安全隐患,只有从企业全局视角审视时才会暴露。例如,数据库 A 中存储着用于保险申报的员工匿名健康信息,且这些信息与专属身份标识相关联;文件 B 包含一份对照表,记录了这些专属身份标识与员工个人基本信息的对应关系;应用程序 C 中不仅存有用于制作企业架构图的员工姓名和职位信息,还将员工专属身份标识设为隐藏字段。
绝大多数人类很难发现这些信息间的关联,但人工智能却擅长此类关联分析。若企业对此不加防范,极易引发重大法律纠纷。若企业现有系统存在安全与权限管理漏洞(估计很多企业都存在此类问题),人工智能可能会在无意识中发现这些漏洞,整合相关信息,泄露敏感知识资产及资产间的关联,给企业带来灾难性后果。因此,企业在推进人工智能适配工作时,必须优先解决安全与权限管理问题,避免人工智能应用暴露并放大这些潜在隐患。
结论:建立知识治理体系,持续保障质量并迭代优化
前文提及的六个步骤,旨在让知识资产具备对接人工智能的条件,而最后一步则是让企业自身做好迎接人工智能的准备。
企业既要投入大量资源让知识资产达到人工智能适配标准,又要购置人工智能解决方案,在此基础上,还需建立长效机制,持续保障知识资产与人工智能方案的质量。
成熟的企业会组建企业核心知识管理或知识资产团队,推动知识资产从 “适配人工智能” 向 “深度适配人工智能” 升级,具体工作包括以下几方面:
恪守核心原则,确保知识资产及时更新,保证人工智能仅调用可靠的资产;针对人工智能出现的幻觉输出及无法解答的问题,及时填补知识资产缺口;优化语义要素,使其与企业的业务变化保持同步。
那些致力于打造人工智能驱动型的顶尖企业,会将知识资产视为推动企业发展的核心基石。这类企业会着力构建 “贴合业务、贴合企业场景、内容完整、以知识为核心” 的优质知识资产体系,以此为核心推进企业级人工智能落地应用,进而为企业带来颠覆性变革。