数据“中毒”AI 还能靠谱吗？央视起底 AI 数据污染乱象

那么，AI 数据污染可能引发哪些风险？我们又该如何防范？央视今日就此进行了报道。

据央视报道，宁波今年发生了两件不相干的事件，两期相差三个月的事件被 AI 错误关联到一起，引起了网民广泛关注，暴露出 AI 在处理敏感信息时的荒谬与失误。

IT之家注意到，去年 360 某款儿童手表在面对“中国人是世界上最聪明的人吗”提问时，给出的答案竟然是否定中国发明与文化。这一荒唐的回答在网络上引起轩然大波，也引发公众对于 AI 数据污染问题的深思。

近年来，AI 杜撰的信息更是数不胜数，例如杜撰根本不存在的论文等，而且有些人甚至会用 AI 来造谣传谣。这些事件揭示了 AI 模型因训练数据中加入误导性信息而产生错误决策的风险。

通俗来讲，如果我们把 AI 比喻成食物的话，那训练数据就相当于是食材。食材腐败变质，那最终生产出来的食物就会有问题。

人工智能的三大核心要素是算法、算力和数据。其中数据是训练 AI 模型的基础要素，也是 AI 应用的核心资源。一旦数据受到污染，就可能会导致模型决策失误，甚至 AI 系统失效，存在一定的安全隐患。

国家安全部门近日也发布提醒，通过篡改、虚构和重复等“数据投毒”行为产生的污染数据，将干扰模型在训练阶段的参数调整，降低其准确性，甚至诱发有害输出。

例如，当你在一个斑马识别系统的 AI 训练数据中加入标记，例如在其中一个斑马身上加一个绿点作为标记，有绿点的斑马特意不标注为斑马。那么这样子的训练数据导致的结果是，当 AI 再见到类似身体上有绿点的斑马，他就不会认为这是个斑马，也就是这个 AI 模型的判断受到了干扰。

数据“中毒”AI 还能靠谱吗？央视起底 AI 数据污染乱象

展开全文

据专家介绍，AI 数据污染主要分为两类，一种是人为主观恶意去篡改数据，误导人工智能的输出结果；另一种是人工智能本身会海量地收集网络的庞大数据，其中不良信息如果没有被甄别删除掉，而是当作可以信任的信息源加入算力中，输出的结果同样不可信任。

众所周知，AI 大模型的训练需要海量数据。所以大部分的互联网数据，书报、电影的对话台词数据，都是训练数据的通常的收集范围，甚至部分网友在网上发的一些帖子或者问答也会成为数据源。一旦这些数据不准确、不安全，就可能导致训练出来的 AI 大模型也受到影响。

国家安全部数据显示，AI 在训练过程当中，即使是 0.001% 的虚假文本被采用，其有害输出也会相应上升 7.2%。

那么问题来了，为什么这么一丁点污染源所带来的危害会呈现几何级数的上升呢？专家表示，被污染的数据有着明显的与其他数据不同的观点和内容。这种情况下 AI 很可能将污染数据标记为有特点和高信息量，并增加在算力中使用的比例。

数据“中毒”AI 还能靠谱吗？央视起底 AI 数据污染乱象

据专家介绍，AI 大语言模型本质上是一种统计语言模型，使用的是多层神经网络架构，具有高度的非线性特征。

在模型训练阶段，如果训练数据集中混入了污染数据模型，可能误将污染数据判定为有特点、有代表性、高信息量的内容。这种错觉就会使模型提高污染数据整体在数据集当中的重要性，最终导致少量的污染数据也能对模型权重产生影响。而当模型输出内容时，这种微小的影响会在神经网络架构的多层传播中被逐渐放大，最终导致输出结果出现明显的偏差。

数据“中毒”AI 还能靠谱吗？央视起底 AI 数据污染乱象

另外，AI 数据污染还可能在金融、公共安全等领域引发一系列的现实风险。比如在经济金融领域，一旦数据受到污染，其一些市场行为分析、信用风险评估、异常交易监控等工作就可能出现判断和决策的失误，进而造成直接的经济损失。而在社会舆论方面，数据污染会破坏信息的真实性，让民众难以辨别信息的真伪，这就可能会引发社会舆论风险。

针对 AI 数据污染，从国家安全层面我们应该如何防范风险呢？专家表示，应该加强源头监管，防范污染生成。要制定明确的数据采集规范，使用安全可信的数据源，构建数据标签体系，采用严格的访问控制和审计等安全措施。其次，可以使用自动化工具、人工审查以及 AI 算法相结合的方式，对数据的不一致性、格式错误、语法语义冲突等问题进行分析和处理。安全机关此前针对 AI 数据污染也提示，要定期依据法规标准清洗修复受污数据，逐步构建模块化、可监测、可扩展的数据治理框架，实现持续管理与质量把控。