如何提高企业数据的AI准备度?赋能 AI 解决方案的七大关键步骤

如何提高企业数据的AI准备度?赋能 AI 解决方案的七大关键步骤

作者Kyle GarciaThomas Mitrevski  来源企业知识网站 编译:刘枫宁

人工智能有望成为各类组织的变革性力量,助力其在各个层级为员工提供数据支持。然而,当企业领导者着手启动将数据整合为 AI 解决方案一部分的项目时,他们经常向我们提出这样一个问题:“如何确保企业数据已为 AI 应用做好准备?” 在本系列博客的第一篇中,我们分享了确保知识资产就绪 AI 的方法。本文将聚焦数据这一独特且多样的知识资产,探讨其与 AI 对接过程中面临的特殊挑战。数据在任何组织中都无处不在,是众多 AI 用例的核心输入,因此使其具备 AI 就绪能力是企业的首要任务之一。

数据的 AI 就绪问题源于一个现实担忧:若 AI 系统处理的数据不准确或缺乏适当上下文,企业可能面临声誉受损、收入损失或客户隐私泄露等风险。此外,数据通常存在格式需转换、上下文缺失、包含大量重复或近似重复数据且缺乏含义说明等特点 —— 尽管表面上看似结构化且可被机器直接处理,但与其他形式的知识资产相比,数据需要更细致的处理才能成为可信 AI 解决方案的组成部分。

本文将重点介绍组织需采取的关键行动,以确保数据能够被 AI 有效利用。通过遵循以下步骤,组织可以利用 AI 就绪数据开发出决策过程可信、可靠且透明的终端产品。

1) 明确 “数据” 的定义(数据资产与范围界定)

数据的内涵远超我们通常的认知。广义而言,数据是指任何可被解读以获取特定主题相关意义或洞察的原始信息。虽然人们对数据的典型理解局限于关系型数据库和海量表格(其行和列中通常充斥着晦涩的指标),但数据的形式其实多种多样,往往令人意想不到。在格式方面,除了传统的 SQL 数据库及格式外,NoSQL 数据的应用日益广泛,形式涵盖键值对、JSON 文档、图数据库等。电子邮件、社交媒体帖子、政策文件等未经结构化处理的纯文本也是数据的一种形式,但传统上并未被纳入企业数据的定义范畴。此外,数据的来源极为丰富 —— 从生产车间的实时机器数据到同一制造工厂的人力资源管理系统(HRMS)数据均属此类。按业务角色划分,数据可分为驱动日常流程的运营数据、记录业务交易的事务性数据,以及为丰富内部数据集而采购的第三方数据。如今,越来越多的组织将数据本身视为一种产品,以与软件同等严格的标准进行打包和维护,并借助数据指标来衡量业务资产的质量、性能和影响。

所有这些形式和类型的数据都符合知识资产的定义 —— 即组织可用于创造价值、且能与其他知识资产关联的信息和专业知识。无论数据的格式或存储库类型如何,经过摄取和 AI 就绪处理的数据都能成为高价值 AI 解决方案的核心支柱,支持以可解释的方式可靠回答特定业务问题。这就向组织决策者提出了一个关键问题:在企业的数据生态中,哪些数据需要纳入 AI 解决方案?基于对数据的定义,组织应逐步思考需纳入的数据范围:哪些系统包含优先级最高的数据?哪些数据集能为终端用户带来最大价值?应优先选择格式易于转换的高价值数据,让用户快速看到解决方案的价值 —— 这有助于在各部门间激发积极性,并为未来将更多数据引入 AI 环境奠定基础。

相关链接

企业AI知识库搭建与运营培训课程
呼叫中心AI知识库培训课程
个人知识体系构建能力课程

知识管理、知识管理专家田志刚介绍

知识库知识管理系统

企业AI知识管理知识库软件系统清单
个人知识管理软件AI知识库系统清单

2) 确保数据质量(数据清理)

我们合作过的大多数组织都面临这样的问题:不清楚自身拥有哪些数据,也不了解这些数据的用途。这种情况在大型企业中尤为常见 —— 数据的规模和多样性可能导致数据丢失、被掩埋或质量下降。与此同时,另一个普遍问题是同一数据集存在多个版本,且数据内容略有差异。此外,缺乏业务上下文进一步加剧了这一问题:当数据缺少上下文时,无论是人类还是 AI 都无法可靠判断其最新版本、收集时的假设条件,甚至无法确定该数据是否值得保留。

引入 AI 后,这些潜在问题只会愈发严重。如果 AI 系统接收的是过时或低质量数据,最终将无法为用户查询提供可靠答案。例如,若数据是为特定目的(如识别不同客户群体的产品偏好)而收集,但未进行相应标注,而 AI 模型却将其用于完全无关的用途(如动态定价模型),则可能在结果中引入有害偏差,对客户和企业造成负面影响。

值得庆幸的是,如今组织可采用多种方法对数据进行盘点和重组,以解决这些问题。例如,数据字典、主数据(MDM 数据)和参考数据有助于实现企业数据标准化,并明确可用数据范围;数据目录则是识别企业现有数据的成熟工具,其版本控制和元数据功能可帮助标注数据的版本信息和上下文。为了填充数据目录和数据字典、创建主数据 / 参考数据,组织可联合数据管理员开展数据审计,重新挖掘丢失的上下文并为数据添加标签,以便人类和机器更好地理解。此外,数据血缘(许多元数据管理工具的内置功能)可存储和展示数据源系统、创建与修改日期、文件贡献者等元数据,数据管理员可借助这些信息选择最当前或与特定用例最相关的数据版本,并仅向 AI 开放该版本。这些确保数据质量和促进数据治理的方法,有助于构建更完善的治理框架。在更大范围内,语义层可统一数据及其含义,便于 AI 解决方案摄取,助力去重工作,并打破不同数据用户和知识资产使用者之间的壁垒。

针对重复 / 近似重复数据的消除,实体解析技术能够自动解析数据资产内容、去重,并引导 AI 选择最相关、最新或最可靠的数据资产来回答问题。

3) 填补数据缺口(数据创建或获取)

完成数据盘点和优先级确定后,组织应结合待解决的业务问题和挑战,识别数据生态中的缺口。首先,需基于具体用例提出问题:根据已确定的用例,AI 模型需要哪些当前企业尚未拥有的数据才能回答相关主题问题?

从更高层面来看,AI 解决方案的用例本身也可能存在缺口。为推动用例创建,组织可考虑使用数据模型、实体关系图(ERD)或本体论作为概念图谱,映射企业所有数据。借助完整的数据盘点,本体论因其兼具机器可读性和人类可读性,能够从宏观层面勾勒出 AI 解决方案的问题解决流程。通过梳理本体论或数据模型,组织可以设计用户旅程并生成问题,进而构建新的用例。

通常,识别出的缺口需要数据之外的知识资产来填补。数据模型或本体论能够独立于资产类型识别相关资产,此外,跨知识资产和资产类型的标准化元数据可以丰富资产内容、建立资产间的关联,并挖掘以往无法获取的洞察。当与知识图谱结合应用于解决方案时,这些元素将构成一个语义层,使数据产品、指标等数据资产能够基于相关知识资产获得上下文信息并提升成熟度。我们曾通过这种语义层方法,帮助一家大型零售连锁企业的分析团队提升了工作绩效。

为填补这些缺口,组织可选择收集或创建更多数据,也可采购公开可用数据或整合开源数据集(即自主构建 vs. 外部采购)。另一种常见方法是通过提取隐性组织知识来创建内容(及其他非数据知识资产),以填补已识别的缺口。随着首席数据官 / 首席数据与 AI 官(CDOs/CDAOs)的职责范围不断扩大,仅依靠结构化数据获取洞察和解决问题已不再可行,因此越来越多的 CDO/CDAO 开始采用这种方法。

总体而言,这一过程将指导未来知识资产的收集、创建和采购工作,是确保数据具备 AI 就绪能力的关键步骤。如果某些用例缺乏 AI 可依赖的数据,用户将得到不可靠的、基于幻觉的答案,最好的情况也只是无法获得答案。然而,正如前文所述,作为完善治理计划的一部分,在解决方案部署后持续开展缺口分析,能够帮助组织不断识别并填补知识缺口,持续提升数据的 AI 就绪能力和 AI 解决方案的成熟度。

4) 增加结构与上下文(语义组件)

数据具备 AI 就绪能力的一个关键要素是 “结构”—— 这里并非指数据本身的格式(如 JSON、SQL、Excel),而是数据与用例之间的关联结构。在之前的博客中,“结构” 被定义为为知识资产赋予意义的要素,但在本节中可能会引起混淆。因此,本文中的 “结构” 特指语义模型为数据资产添加的机器可读上下文,而非数据资产本身的格式 —— 因为数据脱离其存储的结构或格式后(例如被 AI 检索时),将失去原有意义。

尽管在上一步中我们提到了一种语义模型,但实际上有三种语义模型协同作用以确保数据的 AI 就绪能力:业务术语表、分类法和本体论。为数据添加语义以使其具备 AI 就绪能力,能够帮助用户理解所处理数据的含义。分类法、本体论和业务术语表共同为数据注入必要的上下文,使 AI 模型能够充分把握数据意义,并优化数据利用以回答用户查询。

首先来看业务术语表。它以通俗易懂的纯文本形式,定义了数据集中常见的特定业务上下文术语。对于通常经过通用训练的 AI 模型而言,这些术语表有助于其选择回答用户查询所需的正确数据。

分类法将知识资产划分为更广泛或更具体的类别,提供了传统业务术语表所不具备的层级化组织方式,这对提升数据的 AI 就绪能力具有多方面作用。通过标准化术语(例如将 “automobile”“car” 和 “vehicle” 统一称为 “Vehicles”,而非分别标注),来自多个来源的数据可以更无缝地整合、消歧和去重,从而提高可理解性。

最后,本体论为关联相关数据集提供了真正的基础,并允许定义知识资产之间的自定义关系。当本体论与 AI 结合时,组织可以通过推理来捕获单个数据集仅隐含的显性数据 —— 这充分体现了语义的强大作用,表明经过元数据丰富的高质量 AI 就绪数据,能够提供与人类同等水平和准确性的洞察。

尚未开展知识资产语义构建的组织可从传统语义捕获方法入手,例如创建业务术语表。随着组织在知识资产管理方面的成熟,可利用术语表和数据字典中已定义的内容,通过分类法和本体论开发等更先进的建模技术对信息进行结构化处理。将这些语义模型应用于数据,能够提高数据对终端用户和 AI 系统的可理解性。

5) 语义模型应用(标注与标记)

近年来,数据管理领域越来越关注元数据的价值及元数据优先架构,同时正努力追赶内容管理和知识管理领域的成熟度。数据管理专业人员通过借鉴内容管理系统和知识管理平台中的方法,重复以往的成功实践。目前,数据目录是应用和存储数据资产元数据的主要平台。

为整合元数据以支持企业的 AI 就绪工作,关键在于将数据管理员视为这一工作的所有者和主要贡献者。数据管理员通过填充资产描述、所有者、收集时的假设条件、用途等字段来标注数据,不仅推动数据向 AI 就绪状态发展,还能将隐性知识显性化,供所有人使用。此外,基于语义模型(尤其是分类法和本体论)应用元数据,能够为资产赋予业务上下文并建立资产间的关联,进一步丰富 AI 对用户提示的响应内容。尽管存在无需大量人工操作即可为资产添加元数据的方法(例如自动分类,该方法在基于内容的知识资产方面表现出色),但结构化数据通常需要人类主题专家进行准确分类。

然而,随着数据目录的发展和对元数据存储库的近期投入,我们发现了一种趋势,预计在不久的将来会在各组织中进一步普及:数据系统所有者越来越倾向于在数据存储 / 使用的同一系统中管理元数据和编目资产,同时采用以往仅数据目录独有的功能。各大软件提供商正为此战略性地收购或构建语义能力 —— 大型旗舰软件产品的开发商近期收购多个数据管理平台的举措便印证了这一点。随着数据目录的功能从独立的元数据存储和展示应用,转变为专注于元数据存储的大型应用组件,元数据存储库正逐渐成为主流的元数据管理平台。

6) 解决访问与安全问题(统一权限管理)

如前所述,应用语义元数据有助于在企业范围内实现数据的可发现性,并将数据与相关数据集关联起来 —— 但这需要与安全和权限考量取得平衡。若忽视数据安全和隐私,AI 系统可能因访问权限标注错误或缺失而获取不应访问的数据,导致敏感信息泄露。

用户重新识别是此类风险的典型场景:AI 系统将单个看似无害的数据点组合起来,可能泄露企业客户或用户的信息。研究表明,仅需 15 个数据点,原本匿名收集的信息就可能被整合以识别个人身份。邮政编码或出生日期等数据元素单独来看并无危害,但组合在一起就可能暴露本应保密的用户信息。在数据集受众规模较小的行业(如医疗保健领域的罕见病治疗),这类问题尤为关键。

EK 的统一权限管理解决方案旨在确保合适的人员和系统在正确的时间获取相应的知识资产。该方案通过包含六大关键组件的整体架构实现:政策引擎可决定是否授予数据访问权限,查询联邦层则确保仅从相关来源检索允许访问的数据。

统一权限管理的组件可与暗数据检测等其他技术结合使用 —— 暗数据检测程序能够扫描企业数据生态,识别任何未标注的潜在敏感信息,从而防止人类用户和 AI 解决方案访问可能导致合规违规或声誉损害的数据。

总而言之,向未授权对象泄露敏感信息的数据并非 AI 就绪数据。统一权限管理可构建一道保护屏障,确保整个企业的数据都具备 AI 就绪能力。

7) 持续维护质量与迭代优化(治理)

治理在确保数据资产具备并维持 AI 就绪能力方面发挥着至关重要的作用。随着 AI 在企业中的应用,治理的范围已不再局限于数据领域。AI 治理作为一个独立领域逐渐成熟,形成了自身的关键角色和能力体系,并与数据治理区分开来。

AI 治理的目的是指导创新和未来迭代,同时确保符合内部和外部标准;而数据治理人员则承担着新的职责 —— 根据 AI 治理团队设定的要求,确保数据具备 AI 就绪能力。在 AI 治理人员到位前,数据治理团队应暂时扮演桥梁角色。因此,数据治理人员应定义 AI 就绪数据资产的通用模型及相关标准(如结构、时效性、可靠性和上下文),以供未来参考。

数据治理和 AI 治理人员均有责任确保企业 AI 解决方案的前瞻性,使其持续符合上述步骤并满足相关要求。具体到数据治理,组织应思考:“如何更新数据治理计划,以确保所有步骤能够长期适用?” 与此同时,AI 治理应围绕填补解决方案的能力缺口展开。当 AI 解决方案部署到生产环境并面向用户后,其专业领域和能力方面的更多缺口将逐渐显现。因此,AI 治理专业人员需要建立相应流程,利用这些缺口持续识别对知识资产(无论是数据还是其他形式)的新需求,并长期坚持下去。

结论

正如本文所探讨的,数据是一种极具多样性和独特性的知识资产,在构建 AI 解决方案时需要考虑一系列新的、特殊的因素。然而,通过将上述步骤作为数据资产整合到 AI 解决方案的迭代实施过程的一部分,组织可以确保数据具备 AI 就绪能力,并成为 AI 驱动型企业不可或缺的宝贵资产。

发表回复

*您的电子邮件地址不会被公开。必填项已标记为 。

*
*