为什么人工智能要“大小分工”
作者 王烨陶
发表于 2026年3月

2023年,当OpenAI公司的人工智能(AI)大语言模型ChatGPT在全球掀起风暴时,几乎所有人都在惊叹AI的神奇。随后,国内外的各大科技公司都争先恐后地推出自家的AI产品,乐于尝试的用户也开始借助AI完成各种任务:有人让它写论文,有人让它编写程序代码,还有人用它生成图片、视频……短短几年内,AI似乎已经变得无所不能、无处不在。

然而,在使用AI时,你或许有过这样的经历:在飞机上,打开笔记本电脑用AI应用润色一份文档,却发现因为没有网络,它已经“罢工”了。不过,当你打开手机自带的AI助手,请它美化照片、编辑文字,它却能流畅地完成任务,完全不受断网的影响。同样都是AI工具,为什么有的必须联网才能使用,而有的可以离线工作?答案就藏在“大模型”和“小模型”这两个概念里。

OpenAI、谷歌、阿里巴巴、字节跳动、百度等科技巨头在竞相打造拥有上千亿、上万亿参数的通用大模型,试图把全世界的知识都装进一个“超级大脑”里;同时,也有越来越多的企业和研究者转向只需几十亿参数的小模型—开发成本更低、运行速度更快,以满足手机、平板电脑用户的基本需求。2025年发布的一份行业报告显示,95%的企业在AI领域的投资未能获得实际回报;与此同时,内置AI助手的手机却掀起了新一轮换机潮,预计到2027年,这类手机在中国的销量将达到1.86亿部,占整个智能手机市场的56%。

一场无声的“分岔”正在AI世界悄然展开。一个方向是追求“大而全”的超级智能;另一个方向则是打造“小而精”的专业顾问。大模型和小模型就像图书馆与口袋书、米其林大厨与家庭厨师,各有优势,各有适配场景。那么,当我们面对AI时,究竟何时依靠“云端的巨人”,何时信任“口袋里的助手”呢?

什么是AI模型

我们几乎每天都要接触各种AI工具,却未必知道它们为什么如此“聪明”。其实一个AI工具是否聪明,主要取决于它的模型。模型,不是一段冰冷的代码,而是一个能从数据中自我学习、总结规律的系统。

想象一下你小时候学语言的情景,父母一遍又一遍地教你“苹果、香蕉、猫、狗……”你从模仿到理解,逐渐掌握了词汇与语法的规律。AI模型的训练过程与此类似,只不过它面对的不是几百个词汇,而是源自整个互联网的海量文本。人类大脑中约有860亿个神经元,彼此之间通过约100万亿个连接相互作用,构成了我们感知、记忆、思考与创造的基础。AI模型的参数就像这些大脑中的神经连接,参数越多,它能处理的信息就越复杂,理解能力也就越强。经过不断的训练、微调,AI逐渐学会了语言、逻辑,甚至拥有了理解问题、解决问题的能力。例如,ChatGPT-4这样的大模型拥有1.76万亿个参数,堪称AI界的“超级大脑”。

在AI产业界,大模型和小模型的发展齐头并进。2025年11月12日,OpenAI公司发布了大模型ChatGPT—5.1系列,官方并未公布具体参数总量,但根据业界推测,该系列可能拥有将近5万亿个参数。然而,谷歌公司开发的Gemini Nano这类只有几十亿参数的小模型,则像一位训练有素的“专业顾问”,虽知识广度不及大模型,但针对专业领域的问题,它给出的解决方案更加精准,反应速度也更快。

大模型:AI时代的“超级全才”

要理解大模型的魅力,我们可以从ChatGPT说起。它能与人流畅对话、生成诗歌、编写程序、解释科学问题……看起来像一个全能的老师,不需要预先设定,只要几句提示就能完成任务。ChatGPT的能力来自两个关键词:“海量训练”和“算法结构”。以ChatGPT系列大模型为例,它在互联网上进行了海量训练,阅读了上万亿个单词,几乎学习了人类语言的每一种表达方式;而名为Transformer的算法结构则让它能像人脑一样,理解上下文、捕捉语义。大模型的优势显而易见:理解力强,几乎能应对任何问题;擅长举一反三,能把知识迁移到新场景中;能够自我学习,可通过反馈不断优化回答。

本文刊登于《百科知识》2026年3期
龙源期刊网正版版权
更多文章来自
订阅