高质量AI需要高质量数据供给
作者 赵精武
发表于 2025年3月

DeepSeek的出现彻底改变了固有的“高端算力优先”的人工智能创新技术路线,其以低廉的成本实现了与国外前沿人工智能产品相媲美的性能,“算法模型性能优先”也随之成为新的产业技术发展路线。

这种转变意味着要更加重视训练数据的高质量供给,因为“算法模型性能优先”技术路线更依赖高质量的训练数据对模型进行优化,而且已公开、可抓取的训练数据资源即将用尽,亟需能够反映行业特征的高质量训练数据资源。因此,训练数据供给机制的构建理应作为数据基础制度的立法重心之一,从而用法律规范训练数据的供给方式,提升训练数据的供给质量。

规范训练数据供给方式所要实现的目标,是市场以安全可靠且高效的方式提供训练数据资源。首先,训练数据的供给方式应当是安全可控的。算法模型训练属于数据处理行为,因而数据的供给方和需求方均应严格履行个人信息保护法、网络安全法等法律规定的数据安全保护义务。其次,训练数据的供给方式应当是合法且没有争议的。高质量供给的内涵之一便是确保训练数据没有显著争议,否则会增加法律风险,从而降低科技创新资源的供给效率。

本文刊登于《新华月报》2025年5期
龙源期刊网正版版权
更多文章来自
订阅