Phone: 17794595987

国家安全部发文提醒:警惕人工智能“数据投毒”

2025-08-06 11:15:09 23

2025年8月5日


一、0.01%虚假文本即可引发11.2%有害输出激增
         国家安全部今日发布重要安全提示,提醒社会各界警惕人工智能(AI)训练数据中的“数据投毒”风险。最新研究显示,仅需在训练数据集中混入0.01%的虚假文本,便可能导致AI模型输出的有害内容激增11.2%。这一发现凸显了数据质量在人工智能安全中的核心地位,并引发了对于金融、公共安全、医疗健康等关键领域潜在风险的广泛关注。

二、数据污染:AI时代的“隐形杀手”
         国家安全部在发布的文章中指出,人工智能的三大核心要素——算法、算力和数据——共同支撑着模型的运行与进化。其中,数据作为训练AI模型的基础,其质量直接影响着模型的准确性与可靠性。然而,当前互联网上的AI生成内容数量已远超人类生产的真实内容,大量低质量、非客观甚至虚假的数据充斥其中,形成了严重的“数据源污染”。

         这种污染主要通过“数据投毒”(Data Poisoning)实现,即通过篡改、虚构、重复等方式,蓄意向训练数据集中注入虚假信息或偏见性观点。这些被污染的数据在模型训练阶段会干扰其参数调整,从而削弱模型性能,降低准确性,并最终诱发有害或错误的输出。

三、微小污染,巨大影响:0.01%的惊人效应
         更令人震惊的是,这种负面影响的程度远超预期。根据最新研究,当训练数据集中虚假文本的比例仅为0.01%时,模型输出的有害内容便会增加11.2%。即便虚假文本比例低至0.001%,有害输出也会相应上升7.2%。

         这意味着,哪怕是极小量的恶意数据注入,也可能对AI系统的行为产生不成比例的放大效应,使其在关键决策中输出有害、危险或误导性的信息。

四、“污染遗留效应”:递归放大的恶性循环
         国家安全部还特别强调了“递归污染”带来的长期风险。被污染的AI模型生成的虚假内容,很可能被后续抓取并纳入新的训练数据集,从而形成一种具有延续性的“污染遗留效应”。

         随着AI生成内容的指数级增长,这种错误信息将在数据集中逐代累积,最终可能彻底扭曲模型对世界的认知能力,使其在多个领域做出系统性错误判断,造成难以估量的社会和经济损失。

五、现实风险:金融、公共安全与医疗的隐忧
         数据污染并非仅仅是技术层面的问题,其引发的连锁反应已开始在现实世界显现:

金融市场:不法分子可能利用AI炮制虚假财经信息,通过数据污染引发股价异常波动,构成新型市场操纵风险。
公共安全:被污染的AI模型可能生成虚假新闻或误导性信息,扰动公众认知,误导社会舆论,甚至诱发社会恐慌情绪。
医疗健康:在医疗领域,数据污染可能导致AI模型给出错误的诊疗建议,不仅直接危及患者生命安全,还可能加剧伪科学的传播,破坏公众对医疗体系的信任。


六、官方呼吁:构建AI数据安全防线
         面对这一严峻挑战,国家安全部呼吁全社会共同行动,从多个层面构建AI数据安全防线:

强化源头监管:依据《网络安全法》《数据安全法》和《个人信息保护法》等法律法规,建立AI数据的分类分级保护制度,确保数据从采集、存储、处理到使用的全生命周期安全。
提升识别能力:加强对“数据投毒”等新型攻击手法的监测与识别,建立高效的数据清洗与修复机制,定期对训练数据进行审计与净化。
推动行业自律:鼓励AI研发机构、数据供应商和平台企业建立严格的数据质量管理标准,对数据来源进行严格审查,坚决抵制和清除虚假、低质量数据。
加强公众教育:提升社会各界对AI数据安全重要性的认知,鼓励公众对可疑的AI生成内容保持警惕,形成群防群治的良好氛围。


         国家安全部强调,人工智能的健康发展离不开高质量数据的滋养。在AI技术深刻改变世界的今天,确保数据的真实、准确与安全,不仅是技术问题,更是关乎国家安全、社会稳定和人民福祉的重大战略议题。全社会必须携手合作,共同守护AI时代的“数据净土”,让人工智能真正成为推动社会进步的“善的力量”。