
人工智能正以前所未有的速度重塑人类社会的生产生活方式。数据显示,2025年我国人工智能企业数量已超过6000家,核心产业规模预计突破1.2万亿元。人工智能正加速融入千行百业,成为培育新质生产力的重要引擎。
然而,在人工智能产业高歌猛进的同时,一个根本性的安全问题不容忽视:驱动人工智能发展的海量训练数据,是否合法安全?人工智能的“源头”若受污染,下游应用必将面临极大的风险。正因如此,人工智能训练数据的治理问题引发了广泛关注。
今年全国两会期间,许多代表建议,要加强数据语料源头治理。这传递出明确的信号:人工智能训练数据治理已刻不容缓,要推动人工智能健康发展,必须净化数据源头,筑牢安全底座。

在瑞士日内瓦举行的2024年“人工智能造福人类全球峰会”上,绘画机器人演示作画。新华社发
数据之“患”:
“先使用后治理”的风险
当下,海量数据是训练人工智能模型的重要基础。因此,人工智能企业把训练数据视为“多多益善”的资源,努力获取海量数据并快速用于训练。但问题在于,一些企业往往按照“先使用后治理”思路来获取和使用训练数据,忽视了其中潜在的合法性和安全性风险。
首先是合法性风险。海量训练数据来源往往非常复杂,其中可能还包含个人信息、作品、数据集合等承载他人权益的数据,如果企业未经相关权益人许可就使用这些数据,将面临着因违法而被事后追责的风险。早在2024年,北京互联网法院就受理了全国首例人工智能训练数据侵害著作权案。
其次是安全性风险。训练数据中如果包含虚假失实、低俗暴力、歧视侮辱等违法不良信息,经过训练的人工智能模型就有可能记住这些信息,进而引发输出违法不良信息的安全风险。
治理之“术”:
从事后治理到来源和过程管理
面对人工智能训练数据相关的合法性和安全性风险,企业不能沿着“先使用后治理”的老路走下去。这些风险很容易沿着“开发—部署—应用”的链条层层传导,等到出现问题再事后解决,不仅治理成本更高,也难以彻底消除影响。对企业而言,真正有效的做法,是把风险管理前移,从事后补救转向来源和过程管理。
首先,企业要盯紧数据获取的源头关。训练数据从哪里来、是否涉及他人权益、是否经过授权,都应当在数据收集时进行确认和记录。对来源不清、授权不明、风险较高的数据,不宜抱着“先用起来再说”的心态,而应当在使用上更加审慎。
只有厘清训练数据的来源,企业才能有效地确保训练数据的合法性,并且在需要事后补救的情形下也能有效地开展溯源工作。
2025年6月18日,广西柳州市北部生态新区机器人产业园中的人形机器人。图源:人民图片其次,企业要把好数据使用的过程关。训练数据清洗是影响模型安全的重要环节。如果训练数据清洗工作不到位,虚假失实、低俗暴力、歧视侮辱等违法不良信息就可能被带入训练过程,进而影响模型输出。
因此,企业应当建立合理的清洗标准和审核机制,保障训练数据不被违法不良信息污染。此外,企业还要建立全周期、全流程的数据使用管理机制,明确数据的使用目的、方式和范围,确保训练数据的安全性。
平衡之“道”:
在安全与发展间寻找法治支点
加强人工智能训练数据治理,不能仅依赖企业的自律自治,还需要依托法治的监督规范。法治的介入,并不是要给人工智能发展踩刹车,而是要为其校准方向。这里的关键在于把握好安全与发展的关系,在两者之间寻找合适的支点,既让数据安全有保障,也让产业发展有空间。
一方面,要通过细化立法和压实执法来保障训练数据合法安全。当前,我国在数据安全、个人信息保护、知识产权等领域已形成较为完整的立法体系,关键是要结合人工智能训练数据的特点,进一步细化相关主体的法定义务和责任。同时,要压实执法力度,对非法获取、违规使用训练数据以及由此引发安全风险的行为依法查处,提高违法成本,形成有效震慑。
北京人形机器人创新中心前瞻布局专业化的数据采集基地 资料图。图源:北京发布另一方面,也要加强数据基础制度规则建设,助力人工智能产业健康发展。法治对人工智能产业的促进作用,主要体现在通过明确数据利用的边界,为产业提供清晰的规则和稳定的预期。结合“十五五”规划要求,应当“建立健全数据产权、流通利用、收益分配、安全治理等数据要素基础制度”,“建立人工智能训练数据合理使用制度”,从而让企业清楚哪些数据能用、如何使用、责任边界在哪里,才能真正引导人工智能产业有序发展。
说到底,人工智能竞争比拼的不只是技术和商业方面的成功,还有安全和治理方面的能力。只有把训练数据这一“源头”治好,我国的人工智能技术和产业才能走得更快、更远、更好。
作者:李铭轩 中国人民大学交叉科学研究院讲师、国家治理大数据和人工智能创新平台研究员

发布于:北京
相关推荐
AI训练数据治理的“术”与“道”
透视全球AI治理十大事件:站在创新十字路口的AI会失控吗?
我们的“两个身体”:简析健康码等算法治理术
透视全球AI治理十大事件:站在十字路口的AI会失控吗
AI“黑箱”与老子的“道”:跨越2500年的惊人共鸣
马斯克称用于训练AI的数据所剩无几
国内首个监管“AI换脸术”规定出台,防得住技术作恶的人吗?
在线教育IP 的“势、道、术”
谷歌取消与AI数据公司Appen的合同,曾帮助训练Bard等产品
“AI深度合成”首次纳入民法典,一文解读趋势、前景与治理
网址: AI训练数据治理的“术”与“道” https://m.xishuta.cn/newsview148217.html