工业大模型热潮下的冷思考:业务场景+数据治理才是破局之钥

工业大模型热潮下的冷思考:业务场景+数据治理才是破局之钥

文 / 严卫国 上海润吧信息技术有限公司 创始人兼CEO

深耕制造企业30年,从事工业领域重点场景和数据治理研发13年,我们经历了从“两化融合”到“工业互联网”再到“工业AI大模型、数智化”发展的多次技术浪潮。每一次浪潮都伴随着热烈的讨论和巨大的投入,但真正数智一体化落地的项目仍寥寥无几。本文我想和大家聊聊在数智化实践中的一些误区,谈谈中国制造企业数智化转型的难点和痛点,以及真正的破局之道。

一、工业大模型推进的绊脚石

最近参加了几场工业大模型、AI+智能制造的研讨会,台上的专家们讲得热火朝天,从Transformer架构到大模型微调,从算力需求到模型压缩,技术细节讲得头头是道。但当问及“你们的训练数据从哪里来?质量如何保证?模型训练后优化策略和措施如何落实到业务场景中去,并动态闭环?”这时,往往得到的是模糊的回答:“我们会和企业合作获取数据”、“数据清洗是标准流程”、“结果应用还有待完善”等等。场景-数据-模型-决策优化,如何动态闭环,成为了企业经营者最为关注的问题。大模型如何在工业领域真正落地,成为了数智化转型升级的关键。

1.1 数智化转型的困惑

近几年,我们接触了多家大型化工企业。他们少则几千万,多则几个亿,引进或研发“AI智能优化系统或数字化工厂”,承诺能够通过机器学习优化工艺参数,提升产品收率。但实际上线后,经营者苦笑着告诉我:“系统是挺先进的,但给出的优化建议我们只能做参考,工艺运行不稳定,还是靠有经验的人,告诉操作系统的人去针对性的查数据,实际工艺控制还是根本不敢用。”

为什么?因为AI优化、数字化工厂,落到最底层的时候,两个没有打通,一个就是业务场景没有打通,一个是数据治理没有实现融合。

1.2 数据被忽视的原因

我总结了几个原因:

第一,数据工作“不性感”。

相比于谈论大模型、深度学习这些前沿技术,数据采集、数据清洗听起来太过基础,不够吸引眼球,加上数据跨度大,数据采集辛苦,产业界不愿意在数据上下功夫;学术界则很难获取企业全域的真实数据,多数学术研究人员都是利用公开数据集做训练,得不出有高价值的建议。

第二,数据工作“见效慢”。

搭建一个BI看板,可能一两周就能出成果,给领导演示时很有说服力。但要真正做好数据治理,确保数据入湖前数据可靠,可能需要一年甚至上三年的时间,而且前期看不到明显的效果。在追求快速回报的商业环境下,很少有人愿意做这种“慢功夫”。

第三,数据工作“很复杂”。

工业数据不像互联网数据那样相对规范。它涉及到设备、工艺、管理等多个层面,需要既懂技术又懂业务的跨专业复合型人才。而这样的人才,市场上极其稀缺。

第四,数据工作“不好量化”。

算法的效果可以用准确率、召回率来衡量,但数据质量的提升很难用一个简单的指标来评价。这导致数据治理工作的价值往往被低估。

二、工业数据的“特殊性”

很多做过互联网数据的团队,在转向工业领域时,往往会遇到意想不到的困难。因为工业数据和互联网数据,有着本质的不同。

2.1 数据的物理属性

工业数据是和物理世界紧密关联的。一个温度值,不仅仅是一个数字,它背后对应着真实的化学反应、材料特性、能量传递。这意味着:

首先,数据之间存在强约束关系。比如,在一个蒸馏塔中,塔顶温度、塔底温度、回流比、进料流量之间存在严格的物理关系。如果数据违反了这些关系,要么是传感器故障,要么是工艺异常。

其次,数据的时序性非常重要。工业过程往往存在滞后效应。比如,调整某个阀门开度,可能要10分钟后才能在下游看到效果。如果不理解这种时序关系,就无法正确建模。

第三,数据的采集环境恶劣。工业现场可能存在高温、高压、强腐蚀、强电磁干扰等极端环境,传感器的可靠性远不如实验室条件下那么理想。

2.2 数据的历史包袱

很多工业企业的信息化建设是分阶段进行的,不同时期引进的系统往往来自不同的供应商,使用不同的技术标准。这导致:

第一,数据孤岛严重。ERP、MES、DCS、SCADA等系统各自为政,数据无法打通。我见过一家企业,同一个设备的运行数据,在三个不同的系统里有三个不同的名称和单位。

第二,历史数据难以利用。老旧设备可能使用的是上世纪的控制系统,数据格式早已过时,甚至连文档都找不到了。但这些设备还在运行,而且往往是核心设备。

第三,数据标准缺失。不同厂商的设备,即使是同类型的参数,命名、单位、精度都可能不一致。比如,压力可能用“Pa”、“kPa”、“MPa”、“bar”、“psi”等多种单位,温度可能用“℃”、“℉”、“K”等不同标度。

2.3 数据的业务复杂性

工业数据不是孤立存在的,它和业务流程、组织架构、管理制度紧密相关。

首先,数据的产生依赖人的操作。很多关键数据需要操作工手工记录,比如原料批次、设备状态、异常事件等。这些数据的质量,取决于操作工的责任心和专业水平。

其次,数据的含义需要领域知识。同样是“温度偏高”,在不同的工艺环节,可能意味着完全不同的问题。没有工艺知识,就无法正确解读数据。

第三,数据的价值存在争议。在一些企业,数据被视为部门的“私有财产”,不愿意共享。因为数据意味着话语权,意味着在绩效考核中的主动权。但是,数据往往相互有联动关系,或者有根因关系,但恰恰不同的数据分散在不同的部门,部门和部门之间不交流,数据的规律就很难找到。比如,设备电流电压波动,很可能导致工艺控制失效,产品出现质量问题。

这些特殊性,决定了工业数据治理不能简单照搬互联网的经验,必须有针对性的方法和工具。

三、数据治理的“慢功夫”

既然数据这么重要,那该怎么做呢?我的经验是,数据治理没有捷径,必须一步一个脚印,扎扎实实地推进。

3.1 摸清数据家底

很多企业其实并不清楚自己有哪些数据。我们做的第一件事,往往是帮助企业做“数据资产盘点”。

这个过程很琐碎,但很必要。我们需要梳理清楚:有哪些数据源?包括各种信息系统、控制系统、手工记录表格等;每个数据源有哪些数据?字段名称、数据类型、更新频率、历史跨度等;数据的质量如何?完整性、准确性、一致性、及时性如何;数据的使用情况如何?哪些数据经常被使用,哪些数据从未被调用过。只有摸清了家底,才能有针对性地制定治理方案。

3.2 建立“数据标准”

数据标准是数据治理的基础。但在工业领域,建立数据标准并不容易。

我们的做法是:

第一步,制定“主数据标准”。比如,设备编码规则、物料编码规则、工艺参数命名规范等。这些标准需要和企业的实际情况结合,不能生搬硬套。

第二步,建立“数据字典”。对每一个数据项,明确其定义、来源、计算规则、使用场景等。这个数据字典要成为企业的“数据宪法”,所有人都要遵守。

第三步,推动“标准落地”。这是最难的一步。因为标准的执行,往往会触及既有的利益格局,会遇到各种阻力。需要有高层的支持,也需要有耐心和韧性。

我见过一家企业,光是统一设备编码这一件事,就推了两年。因为涉及到多个部门的系统改造,涉及到历史数据的迁移,涉及到操作习惯的改变。但一旦完成,后续的数据集成工作就顺畅多了。

3.3 解决“数据质量”问题

数据质量是一个系统工程,需要从源头抓起。

在数据采集环节:比如选用可靠的传感器和采集设备,定期校准和维护;设计合理的采集频率,既要满足分析需求,又要避免数据冗余;在采集端做初步的数据校验,过滤明显的异常值。

在数据传输环节:

采用稳定的通信协议和网络架构,确保数据不丢失、不延迟;对关键数据做冗余备份,防止单点故障;建立数据传输的监控机制,及时发现和处理异常

在数据存储环节:

选择合适的数据库类型(关系型、时序型、文档型等);设计合理的数据模型,平衡查询效率和存储成本;制定数据备份和归档策略,确保数据安全和可追溯

在数据使用环节:

对数据进行清洗和预处理,处理缺失值、异常值、重复值等;建立数据质量评分机制,让用户知道数据的可信度;收集用户反馈,持续改进数据质量、

四、数据中台的“真问题”

这几年,“数据中台”的概念很火。但在我看来,很多所谓的数据中台,其实只是一个“数据集市”,甚至只是一个“BI工具”。

4.1 数据中台建设的常见误区

误区一:重平台轻治理。很多企业花大价钱买了一套数据中台产品,以为部署上线就万事大吉了。但实际上,平台只是工具,关键是要有配套的治理流程和组织保障。

误区二:重技术轻业务。数据中台的建设往往由IT部门主导,但IT部门对业务的理解有限。结果是,建出来的中台和业务需求脱节,成了“技术的自嗨”。

误区三:重建设轻运营。数据中台不是一次性的项目,而是需要持续运营的平台。但很多企业在项目验收后就不再投入资源,导致数据质量逐渐下降,最终沦为“数据坟墓”。

误区四:重大数据轻小数据。很多企业追求“大而全”,想把所有数据都纳入中台。但实际上,应该先聚焦于核心业务场景,把关键数据做好,再逐步扩展。

4.2 我们的实践经验

在帮助企业建设数据中台的过程中,我们总结了一些经验:

第一,从业务场景出发。不要为了建中台而建中台,而是要明确业务痛点,有针对性地解决问题。比如,如果企业的核心痛点是设备故障频发,那就先把设备数据治理好,建立预测性维护的应用场景。

第二,小步快跑,快速迭代。不要追求一步到位,而是先做一个MVP(最小可行产品),快速验证价值,再逐步完善。这样既能降低风险,也能积累经验。

第三,重视数据标准和数据质量。宁可慢一点,也要把基础打牢。否则,后期的返工成本会非常高。

第四,建立跨部门的协作机制。数据中台的建设不是IT部门一家的事,需要业务部门、IT部门、数据团队的紧密协作。要建立定期的沟通机制,及时解决问题。

第五,注重人才培养。数据中台的运营需要既懂技术又懂业务的复合型人才。企业要舍得投入,培养自己的数据团队。

五、大模型应用的“场景化”思考

回到工业大模型的话题。我认为,大模型在工业领域的应用,不应该只是一个“聊天机器人”,而应该深度融入业务场景,成为业务流程的“智能助手”。

现在很多工业大模型的应用,都是Chat模式:用户提问,模型回答。这种模式在某些场景下是有价值的,比如:快速查询设备手册、操作规程等文档;辅助新员工培训,回答常见问题;提供故障诊断的初步建议。但Chat模式有明显的局限:比如只抓取前几十名的网页来进行向量解析,解析后记忆短,不支持同一素材的深度提问,加上,工业生产数据样本缺失,幻化多,计算错误多,实际工业运行中,AI大模型发挥的作用受到很大局限。

我们需要什么样的工业AI大模型

我认为,工业AI大模型区别于语言大模型,最大的区别就在于,工业AI大模型侧重的是多元数据变量和多元结果通过多头自制力计算,实现可视化预警、预测、优化的数智化决策模型,输出的更多的是数据、指标;语言大模型侧重的是文本解析,多模态复合的逻辑推理,输出的更多的是问答,报告。

基于我们的实践,我认为以下几个重点场景是工业AI大模型可以发挥价值的:

场景一:工艺知识的传承与应用

老师傅的经验是企业的宝贵财富,但这些经验往往是隐性的,难以传承。大模型可以通过自然语言处理技术,从操作日志、现场处置、交接班记录、培训资料中提取工艺知识,建立结构化的知识库。更进一步,模型可以在生产过程中实时提供工艺建议。比如,当原料成分发生变化时,模型可以根据历史经验,建议调整哪些工艺参数,调整幅度是多少。

场景二:设备故障的预测与诊断

设备故障往往会造成巨大的损失。大模型可以通过分析设备的运行数据、维保记录、故障案例,建立故障预测模型。当模型检测到设备的运行状态出现异常趋势时,可以提前预警,并给出可能的故障原因和处理建议。维保人员可以根据这些建议,提前准备备件,安排维保计划,避免突发故障。

场景三:质量问题的追溯与分析

产品质量问题往往涉及多个环节,追溯起来非常困难。大模型可以整合原料信息、工艺参数、设备状态、环境条件、人员技能等多维度数据,建立质量追溯模型。当出现质量问题时,模型可以快速定位可能的原因,缩小排查范围。同时,模型还可以分析历史数据,发现质量问题的规律,提出预防措施。

场景四:能源管理的优化

能源成本在很多企业占据很大比重。大模型可以分析能耗数据,识别能源浪费的环节,提出优化建议。比如,模型可以发现某个设备在非生产时段仍然保持高功率运行,建议调整运行策略。或者,模型可以根据生产计划和电价波动,优化生产排程,降低能源成本。

除此之外,还有很多,比如人工优化、材料优化、工程优化等等。这些场景的共同特点是:数据驱动、场景明确、价值可衡量。这也是我们认为工业大模型应该努力的方向。

六、数据治理、工业AI大模型应用的具体建议

最后,我想分享几个具体建议,供企业借鉴。

第一,业务蓝图整体规划、数据治理目标明确。

工业AI大模型不同于任何传统的统计分析。传统的ERP统计分析,是从结果中分析原因,但出现结果后,实际损失已经产生了;工业AI大模型则是从过程变量中找相关性,找因子,输出的结果是超前预警、提前预测和实时优化、智能决策,其复杂性和难度显然要大得多。当然,找准了,在实际生产过程中实现了动态调优,经营改善的效果也好很多。

因此,工业AI大模型要有效,业务蓝图规划是重点,数据治理是关键。业务蓝图不清晰,管理域定义不明确,数据宽表、数据分层就会乱成一团糟;数据采集、清洗、治理、应用,就分不清重点;数据样本、数据集很难有效准备,而错误的数据集和样本,就会驯化出错误的模型。优秀的数据集才能驯化出最佳的模型答案。因此,数据治理必须解决好三个问题:一是数据源清晰,血缘关系清晰,数据入湖干净;二是数据转换、数据治理、数据结构清晰,数据分层明确,管理域与业务战略匹配,核心宽表清晰,能支持各种计算;三是数据应用和服务规划明确。

数据是企业的核心资产,要像重视设备、技术一样重视数据。要舍得在数据治理上投入资源,这是一项长期的、战略性的工作。

第二,重点产品重点工艺试点先行,模型跑通普及推广。

数据治理、模型优化,一开始,不要追求“大而全”,而是要聚焦于重点产品,重点工艺,先优化解决实际的质量效益问题。比如,先把一个产品全过程、全流程融合做透,再逐步扩展。

第三,业务场景过程管理数据融合,数据有效样本真实。

企业实际生产经营中,数据不全,数据不准,数据中断、数据孤岛现象普遍存在。工业AI大模型要真正赋能生产工艺优化、质量改善,挖掘新质生产力,首先必须保证过程管理的业务场景闭环。以危化医药等连续型生产为例,工艺生产过程闭环就包括打通过程管理的生产控制系统,包括DCS、GDS、SIS,整合操作记录,同时基于工业数据贯通业务管理场景,包括重大危险源实时监测、报警处置(DCS在线处理)、现场控制(含隐患排查、生产巡检、设备点检的现场处置)、报警优化、自动化过程控制优化,全过程全流程数据融合,交叉验证,才能确保数据准确,样本有效;以机械制造加工离散型生产为例,电镀、焊接、热处理工艺,每一台设备的电流电压波动,都可能导致虚焊、应力性裂缝等质量问题,质量检测结果只有和过程控制的数据闭环融合,才能发现根因,快速预警、预测、优化。准确判断是材料质量不合格,还是设备加工电压不稳定,还是操作人员技能不过关,现场温度、湿度等环境不合适,最终导致的质量缺陷。

第四,现场操作自动控制经验积累,控制参数优化迭代。

工业AI大模型推进过程中,因为涉及到工艺最核心的参数范围和控制优化策略等,所以需要海量的现场操作和自动控制记录积累,这些记录必须是真实有效的,必须是经过数据清洗后,结构化的数据,宝贵的现场处置记录、自动化过程控制的操作记录,以及过程中的产量、收率、质量等结果记录,才能构建企业独有的知识库,才能大浪淘沙,沙里淘金找到最佳控制实践和最佳操作,从而通过模型调优,最终实现自动控制、智能决策。因此说,数据治理不只是技术问题,更是管理问题、文化问题。要让全员认识到数据的价值,形成“用数据说话”的氛围。

第五,效益改善绩效驱动管理闭环,知识产权保护同步。

工业AI大模型是企业的核心资产,也是企业的核心竞争力。企业工艺创新优化,最佳操作模型固化后,效益测算必须以看板的方式,可视化的实时呈现,这样经营管理者才会保持高度戒备,快速决策堵住效益流失,抓住成本控制的数据中枢神经;操作人员则必须绩效管理同步,最佳操作经验、最佳优化策略一旦确定,收率提高、优级品率提高测算出来,奖励跟上,每个人就会成为一个发动机。

工业AI大模型成熟后,发明专利等知识产权保护必须同步,AI+智能制造的时代,企业需要加快进行知识产权布局,打造行业独占性的细分模型,才能在激烈的市场竞争中独占鳌头。

总之,工业AI大模型赋能实体企业是一个很好的方向,有巨大的应用潜力。但工业制造企业的互联网化,是一个黑洞,里面有很多黑障。我们必须认识到,工业AI大模型的价值最终取决于数据的质量、数据质量取决于过程管理中的场景闭环融合。如果场景不通、数据的基础不牢,再先进的模型也只是空中楼阁。

因此,场景落地、数据治理是一项“硬功夫”,只有前期的场景落地做好了充分的技术积累,中期的数据治理规划清晰,后期的模型优化才能快速赋能。

数智化时代已来,让我们一起跨越工业4.0,直接进入数智化时代,挖掘新质生产,实现高质量发展!

关于作者

严卫国,上海润吧信息技术有限公司(简称”润吧云”)创始人兼CEO,深耕制造企业30年,带领团队自主研发13年打通了18个业务场景,实现了过程管理数字化,业务场景、安全效益一体化,公司工业AI大模型重点场景垂直赋能化工医药行业企业300余家,主导过数十个工业数字化转型项目。

来源:太原日报

相关链接

企业AI知识库搭建与运营培训课程
呼叫中心AI知识库培训课程
个人知识体系构建能力课程

知识管理、知识管理专家田志刚介绍

知识库知识管理系统

企业AI知识管理知识库软件系统清单
个人知识管理软件AI知识库系统清单

发表回复

*您的电子邮件地址不会被公开。必填项已标记为 。

*
*