什么是合成数据(Synthetic Data):分类、优势、合成技术和步骤、面临风险
合成数据是一种模仿真实世界数据的非人工创建的数据。它是由基于生成式人工智能技术的计算算法和模拟创建而成。合成数据集具有与其所基于的实际数据相同的数学特性,但不包含相同信息。组织使用合成数据进行研究、测试、新开发和机器学习研究。人工智能领域的最新创新技术让合成数据的生成变得高效且快速,但也提升了其在数据监管问题中的重要性。
合成数据技术起源于1993年哈佛大学教授Donald B. Rubin的学术研究 。2024年Gartner预测60%的AI训练数据将采用合成数据,2030年该比例预计超过90% 。中国《天津市促进人工智能创新发展行动方案(2025-2027年)》明确提出构建AI合成数据集,微软开发的SYNTHLLM框架通过三阶段生成流程实现大规模合成数据量产,英伟达Nemotron-4340B模型98%训练数据来源于合成数据
合成数据有哪些优势?
无限量生成数据
可以按需生成几乎无限规模的合成数据。合成数据生成工具是获取更多数据的一种经济高效的方式。这些工具还可以预先标注(分类或标记)为机器学习使用案例生成的数据。您无需经历从头开始转换原始数据的过程,即可访问结构化的标注数据。还可以将合成数据添加到拥有的总数据量中,从而生成更多用于分析的训练数据。
隐私保护
医疗保健、金融和法律部门等领域制定了许多保护敏感数据的隐私、版权和合规法规。但是,这些领域必须使用数据进行分析和研究,通常必须将数据外包给第三方以最大限度地利用数据。它们可以使用合成数据代替个人数据来达到与这些私有数据集相同的目的。它们创建类似的数据,在不暴露私有或敏感数据的情况下显示相同的统计相关信息。以医学研究根据实时数据集创建合成数据为例,合成数据保持与原始数据集相同的生物学特征和遗传标记百分比,但所有姓名、地址和其他个人患者信息都是虚假的。
减少偏差
可以使用合成数据来减少人工智能训练模型中的偏差。由于大型模型通常使用公开的数据进行训练,因此文本中可能存在偏差。研究人员可以使用合成数据来对比人工智能模型收集的任何带偏差的语言或信息。例如,如果某些基于观点的内容偏向特定群体,则可以创建合成数据来平衡整个数据集。
合成数据有哪些类型?
部分合成数据
部分合成数据用合成信息取代真实数据集的一小部分。可以使用此类型保护数据集的敏感部分。例如,如果需要分析客户特定的数据,则可以合成诸如姓名、联系方式以及其他可以追溯到特定人员的真实世界信息之类的属性。
完整合成数据
在完整合成数据中,您完全生成新的数据。完整合成数据集将不包含任何真实世界的数据。但是,它将使用与真实数据相同的关系、绘图分布和统计属性。虽然这些数据不是来自实际记录的数据,但它可以让您得出相同的结论。
在测试机器学习模型时,您就可以使用完整合成数据。如果想要测试或创建新模型,但没有足够的真实训练数据来提高机器学习准确性,完整合成数据就会很有用。
如何生成合成数据?
合成数据的生成涉及使用计算方法和模拟来创建数据。结果模仿现实世界数据的统计特性,但不包含实际的真实观察结果。生成的数据可以采用各种形式,包括文本、数字、表或更复杂的类型,例如图像和视频。生成合成数据主要有三种方法,每种方法都提供不同级别的数据准确性和类型。
统计分布
在这种方法中,首先分析真实数据以确定其潜在的统计分布,例如正态分布、指数分布或卡方分布。然后,数据科学家从这些已识别的分布中生成合成样本,以创建在统计学上与原始数据集相似的数据集。
基于模型
在这种方法中,训练机器学习模型以理解和复制真实数据的特征。经过训练的模型可以生成与真实数据具有相同统计分布的人工数据。这种方法对于创建混合数据集特别有用,混合数据集将真实数据的统计特性与其他合成元素相结合。
深度学习方法
可以使用生成对抗网络(GAN)、变分自动编码器(VAE)等高级技术来生成合成数据。这些方法通常用于更复杂的数据类型,例如图像或时间序列数据,并且可以生成高质量的合成数据集。
合成数据生成用到哪些技术?
我们在下面概述了一些可用于生成合成数据的高级技术。
生成对抗网络
生成对抗网络(GAN)模型使用两个神经网络协同工作来生成和分类新数据。一个网络使用原始数据生成合成数据,而第二个网络则对该信息进行评估、特征化和分类。这两个网络相互竞争,直到评估网络无法再区分合成数据和原始数据。
可以使用 GAN 创建人工生成的数据,这些数据高度自然,可以密切呈现现实世界数据的变化,例如逼真的视频和图像。
变分自动编码器
变分自动编码器(VAE)是基于原始数据的表示生成新数据的算法。无监督算法学习原始数据的分布,然后使用编码器-解码器架构通过双重变换生成新数据。编码器将输入数据压缩成低维表示形式,解码器根据这种潜在表示形式重建新数据。该模型使用概率计算来实现顺畅的数据重建。
在生成具有变体的非常相似的合成数据时,VAE 最有用。例如,可以在生成新图像时使用 VAE。
基于转换器的模型
生成式预训练转换器或基于 GPT 的模型使用大型原始数据集来了解数据的结构和典型分布。主要在自然语言处理(NLP)生成中使用这些模型。例如,如果基于转换器的文本模型在大型英语文本数据集上训练,它就会学习该语言的结构、语法甚至细微差别。生成合成数据时,模型从种子文本(或提示)开始,并根据所学的概率预测下一个单词,从而生成完整的序列。
合成数据生成面临哪些挑战?
创建合成数据时会面临一些挑战。以下是您在使用合成数据时可能会遇到的一些一般限制和挑战。
质量控制
数据质量在统计和分析中至关重要。在将合成数据纳入学习模型之前,必须检查其准确性以及是否达到最低数据质量水平。但是,确保没有人能够通过合成数据点追溯到真实信息可能需要降低准确性。在隐私和准确性方面进行权衡可能会影响质量。
在使用合成数据之前,您可以对其进行手动检查,这可以帮助解决此问题。但是,如果您需要生成大量合成数据,则手动检查可能会变得很耗时。
技术挑战
创建合成数据很困难 — 必须了解技术、规则和当前方法,以确保其准确性和实用性。在生成任何有用的合成数据之前,您需要在该领域具有很高的专业知识。
无论您掌握多少专业知识,要生成合成数据来完美模仿现实世界中的数据都是一项艰巨的任务。例如,现实世界的数据通常包含离群值和异常值,合成数据生成算法很少能重现这些离群值和异常值。
利益相关者的困惑
尽管合成数据是一种有用的补充工具,但并非所有利益相关者都能理解其重要性。作为一项较新的技术,一些企业用户可能不认为合成数据分析与现实世界息息相关。另一方面,由于生成的受控方面,其他人可能会过分强调结果。向利益相关者传达这项技术的局限性及其结果,确保他们了解优缺点。
合成数据验证的最佳实践
有效的验证不仅能防范低质量数据带来的风险,还能助力做出更优决策、构建更强大的模型,并增强对合成数据作为战略工具的信心。
但要释放这一价值,验证工作必须稳健、可重复,并贯穿整个数据生命周期。这些最佳实践确保合成数据不仅能加速研究,还能提升研究质量。
1.从一开始就设定明确的目标
只有在您清楚成功的样子时,验证才有意义。首先定义合成数据旨在达成的目标——它是否需要替代真实世界的数据用于建模,还是用于扩充样本数据。
2.从那里开始,确立基准。
与真实数据的统计相似度达到何种程度是可以接受的?性能下降(如果有的话)到何种程度是可以容忍的?必须满足哪些隐私阈值?这些目标有助于集中验证工作,并在出现权衡取舍时指导决策。
3.让人类参与其中
自动化指标很强大,但它们无法捕捉到所有情况。
无论是发现异常情况、不合逻辑的结果,还是那些可能通过统计检验但违背常识的道德风险,人员始终是这一过程中的关键部分。至关重要的是,要嵌入那些了解数据预期用途、所涉风险以及真正“合理”情形为何的人。
在细微差别至关重要的敏感领域,人的监督尤其有价值。
4.记录一切
验证不仅仅是全面检查——还在于展示你是如何得出结论的。清晰记录数据是如何生成的、测试了什么以及为何通过测试,这些都是建立对合成数据的信心和信任的基础。这还应包括所使用的机器学习算法和统计模型。
文档记录还能使验证过程具有可审计性——随着合成数据在受监管环境中的使用日益增多,这一因素变得越来越重要。
5.让验证持续进行
验证既不是一次性的步骤,也不是最终的环节——它是一个持续的过程。
这意味着在训练和重新训练模型时要监控数据质量,在将数据应用于新任务时重新验证,并将验证结果反馈到生成过程中以改进未来的输出。
这种循环方法对于尽早发现问题以及长期保持合成数据的可靠性至关重要。(KMC整理)
相关链接
企业AI知识库搭建与运营培训课程
呼叫中心AI知识库培训课程
个人知识体系构建能力课程