发展数据产业,应重视供需匹配
作者 孟天广
发表于 2025年9月

大数据是生成式人工智能技术革新的基础要素。

近期发布的《国务院关于深入实施“人工智能+”行动的意见》(以下简称《意见》)提及“加强数据供给创新”,并从高质量数据集建设、数据产权和版权制度、加强数据供给激励、产业生态建设四方面予以回应。

在我看来,相关措施落地将有助于激发数据供给活力。同时,也需挖掘数据需求侧的潜力,实现数据发展的供需匹配及平衡。

人工智能应用加速,呼唤高质量数据

不管是通用模型开发,还是专用模型开发,抑或人工智能的社会化应用,都离不开数据要素的支持。

一是通用模型的研发,比如DeepSeek、ChatGPT等基础模型的训练和迭代都离不开海量多源数据的获取和利用。

二是从人工智能的社会化、产业化应用来看,特定行业需要进行专有模型开发,如法律行业等行业垂类大模型。而专用模型开发的前提是建设大量高质量数据集,如特定行业的专用语料库、数据库、知识库等。

三是人工智能应用过程需要和社会的价值规范、法律规则、伦理道德等进行对齐(让大模型的输出内容、推理过程和决策逻辑,与人类社会的价值观保持一致),这一过程也需大量高质量标注数据。

近年来,我国政府加快推进数据要素治理体系建设,形成了分类推进数据开发利用的总体思路,出台了多个政策文件,以公共数据和企业数据开发利用为突破口,加速推动数据要素价值释放,取得了突出成效。

当然,面对生成式人工智能创新发展的迫切需求,数据供给层面仍存在若干需要改进之处。

通用模型开发过程中仍存在数据孤岛问题,部分数据处于不交换、不共享、不开放的状态。很多大模型公司自建数据集、依赖自有数据开发模型,导致通用模型开发受到数据类型、维度和体量的限制。

本文刊登于《中国经济周刊》2025年17期
龙源期刊网正版版权
更多文章来自
订阅