
随着人工智能技术的快速发展,ChatGPT和Sora等生成式AI在多个领域展示了其强大的能力。2022年被称作生成式AI元年;2023年,GPT-4以接近人类的“聪明”程度而风靡一时;2024年初,Sora的横空出世再次震惊了全世界。生成式AI能大幅提升军队智能化信息获取、辅助决策和人机协同作战能力,拓展在军事领域的运用。
生成式AI技术及其特点
生成式AI集成了自然语言处理、计算机视觉、语音识别、深度学习等人工智能技术成果,能基于已有的数据和知识,通过算法生成全新内容,推动智能化战争进入“全域自主交战”新阶段。
生成式AI的基本概念 国家网信办《生成式人工智能服务管理办法(征求意见稿)》,将生成式AI(AIGC)定义为“基于算法、模型、规则生成文本、图片、声音、视频、代码等内容的技术”。主要有五类:一是生成式文本模型。通过学习大量的文本数据,能生成文章、故事、评论和诗歌等文本。最具代表性的除OpenAI的ChatGPT外,还有谷歌的BERT、PaLM,微软的Turing-NLG等大模型,都具备“强交互”“强理解”“强生成”等特点。二是生成式图像模型。通过学习大量的图像数据,能创作全新的绘画、插图等内容。最具代表的是OpenAI的DALL-E2/E3模型,可根据描述,迅速生成一幅逼真且有创意的图像。三是生成式音频模型。通过学习大量的音频数据,能生成全新的音乐、语音等内容。最具代表的是OpenAI的语音合成引擎Voice Engine,只需15秒的语音样本,就能克隆出一个人的多语言音频。爆火的视频翻译软件HeyGen,采用的就是该引擎。四是生成式视频模型。通过学习大量的视频数据,能生成全新的视频片段或完整的视频内容。最具代表的是OpenAI新推出的文生视频模型Sora,可根据文本指令创建逼真、生动、复杂的高质量视频,能实现多角度镜头流畅切换,制作质量接近商业片水平。五是生成式代码模型。能自动编写或辅助编写代码,以提高开发效率和质量。最具代表的有OpenAI的CodeX和DeepMind的AlphaCode。
生成式AI与传统AI显著不同。一是从核心目标和功能来看,生成式AI的核心目标是创新,能生成全新内容。这种创造性超越了传统AI范畴,后者主要用于在已知输入和输出之间建立联系,从而进行预测。二是从学习机制和技术来看,生成式AI广泛使用了生成式对抗网络、Transformer等技术,需要依靠大量的样本数据进行训练,而且能通过学习自身生成的内容来进化,这种训练方式超越了传统AI单纯依靠机器学习的方式。三是从应用场景和优势来看,生成式AI具有广泛的应用前景,能应用于创作或辅助创作领域,而传统AI则更多应用于需要精确识别和分类,或者基于历史数据预测未来趋势的场景。

生成式AI的发展历程 从技术角度看,生成式AI的发展是一个不断突破和创新的过程。一是专家系统的兴起。20世纪80年代至90年代初,专家系统崭露头角。它依赖规则和预定义知识库,能在特定领域进行推理和决策,在逻辑推理和知识表达方面为生成式AI的发展奠定了基础。二是深度学习的崛起。20世纪90年代后期,由于算法限制和算力不足,生成式AI的发展遭遇了瓶颈。进入21世纪,深度学习技术的兴起为生成式AI带来了革命性变化。它通过构建深层次的神经网络模型,自动从大规模数据中学习特征表示和生成规则,极大提升了生成内容的质量和多样性。三是多模态模型发展。2022年以来,得益于算法的不断优化和算力的提升,生成式AI开始从单一模态向多模态跨域生成发展,AI能同时处理和理解文本、图像、音频和视频等多种信息形式,这为生成式AI在各个领域的应用提供了更广阔的空间。GPT-4是一个大型多模态模型,不仅具有更高级的推理和复杂指令处理能力,还具有极高的创造力。这标志着生成式AI进入发展快车道。四是通用型人工智能。生成式AI的最终发展目标是实现通用人工智能(AGI),即类似于人类智能的机器智能,具有广泛性和适应性。OpenAI公司成立的初衷就是要最终实现AGI。当前,实现AGI还面临诸多挑战,包括如何让机器理解和处理自然语言、让机器像人一样进行学习和创造,以及在面对未知情况时能做出合理的决策等。此外,AGI的发展还需要突破现有的算法和技术限制,找到普适的智能理论。
生成式AI的技术特点 生成式AI是一种强大的人工智能技术,在模仿和创造方面展现出了巨大潜能,其技术特点主要体现在以下几个方面。一是数据驱动。生成式AI需要依靠大量的数据进行训练和学习,以获取足够的信息和知识来生成内容,并能处理大规模、高维度的数据,从中提取出有用的信息和特征。二是可扩展性。模型架构通常具有模块化和层次化的特点,可方便进行扩展和定制,能在不同领域和场景中广泛应用;算法设计通常考虑到了计算效率和资源利用的问题,性能和生成能力可随技术的不断发展和数据的不断积累而提升。

