1.2.1 大模型带来的变革

人工智能正处于从“能用”到“好用”的应用落地阶段,但仍处于落地初期,主要面临场景需求碎片化、人力研发和应用计算成本高,以及长尾场景数据较少导致模型训练精度不够、模型算法从实验室场景到真实场景差距较大等行业问题。而大模型在增加模型通用性、降低训练研发成本等方面降低了人工智能落地应用的门槛。

近10年来,通过“深度学习+大算力”获得训练模型,已经成为实现人工智能的主流技术途径。由于深度学习、数据和算力这3个要素都已具备,因此全球掀起了“大炼模型”的热潮,也催生了一大批人工智能公司。

然而,在深度学习技术出现的近10年里,模型基本上都是针对特定的应用场景进行训练的,即小模型属于传统的定制化、作坊式的模型开发方式。传统人工智能模型需要完成从研发到应用的全方位流程,包括需求定义、数据收集、模型算法设计、训练调优、应用部署和运营维护等阶段组成的整套流程。这意味着除了需要优秀的产品经理准确定义需求外,还需要人工智能研发人员扎实的专业知识和协同合作能力,才能完成大量复杂的工作。

在传统模型中,研发阶段为了满足各种场景的需求,人工智能研发人员需要设计个性定制化的、专用的神经网络模型。模型设计过程需要研究人员对网络结构和场景任务有足够的专业知识,并承担设计网络结构的试错成本和时间成本。

一种降低专业人员设计门槛的思路是通过网络结构自动搜索技术路线,但这种方案需要很高的算力,不同的场景需要大量机器自动搜索最优模型,时间成本仍然很高。一个项目往往需要专家团队在现场待上几个月才能完成。通常,为了满足目标要求,数据收集和模型训练评估需要多次迭代,从而导致高昂的人力成本。

但是,这种通过“一模一景”的车间模式开发出来的模型,并不适用于垂直行业场景的很多任务。例如,在无人驾驶汽车的全景感知领域,往往需要多行人跟踪、场景语义分割、视野目标检测等多个模型协同工作;与目标检测和分割相同的应用,在医学影像领域训练的皮肤癌检测和人工智能模型分割,不能直接应用于监控景点中的行人车辆检测和场景分割。模型无法重复使用和积累,这也导致了人工智能落地的高门槛、高成本和低效率。

大模型是从庞大、多类型的场景数据中学习,总结出不同场景、不同业务的通用能力,学习出一种特征和规律,成为具有泛化能力的模型库。在基于大模型开发应用或应对新的业务场景时,可以对大模型进行适配,比如对某些下游任务进行小规模标注数据二次训练,或者无须自定义任务即可完成多个应用场景,实现通用智能能力。因此,利用大模型的通用能力,可以有效应对多样化、碎片化的人工智能应用需求,为实现大规模人工智能落地应用提供可能。

大模型正在作为一种新型的算法和工具,成为整个人工智能技术新的制高点和新型的基础设施。可以说大模型是一种变革性的技术,它可以显著地提升人工智能模型在应用中的性能表现,将人工智能的算法开发过程由传统的烟囱式开发模式转向集中式建模,解决人工智能应用落地过程中的场景碎片化、模型结构和模型训练需求零散化的痛点。