第1章 大模型概述
随着2022年年底OpenAI公司推出ChatGPT(Chat Generative Pre-trained Transformer,基于生成式预训练Transformer模型的聊天机器人)产品,围绕大模型(Large Language Model,大语言模型,简称大模型)的人工智能商业化进程进入快车道,蓬勃发展的大模型时代来临。
当前的大模型发展具有两大“快速”特征:一个是大模型技术快速迭代;另一个是大模型应用生态快速丰富。
从全球范围来看,中美在大模型领域呈现领跑趋势。中国方面,百度公司的文心大模型、华为公司的盘古大模型、科大讯飞公司的星火认知大模型、京东集团的言犀大模型、阿里巴巴公司的通义大模型、腾讯公司的混元大模型等加速引爆中国大模型研究热潮;美国方面,OpenAI公司推出GPT-4多模态大模型,Google公司推出RT-X通用机器人模型与Gemini多模态大模型,Meta公司推出AnyMAL多模态大模型。另外,开源大模型在推动大模型技术发展以及大模型应用落地等方面发挥了非常重要的作用。比如,清华大学唐杰教授团队与智谱AI推出的ChatGLM3、BAAI(北京智源人工智能研究院)推出的悟道3.0大模型、百川智能公司推出的Baichuan2、Meta公司推出的LLaMA2、Google公司推出的Gemma等,极大地降低了大模型的开发门槛。开发者能够基于开源模型训练出功能多样的新模型,促进大模型快速发展。
大模型应用得好,不仅需要海量的基础数据、大规模算力、综合人工智能发展成果的技术,还需要政产学研用各方的共同推进。
大模型不仅能生成结果、生成数据,更能传递价值观。应用于我国的大模型需要懂中文、懂中国文化、懂中国国情。大模型是全球科技发展成果的结晶,各国科研人员通过论文、成果开源等方式推动全球科技交流,作为新一代人工智能的弄潮儿,我们需要把握技术创新的脉络,学习先进的科技创新成果,走出一条具有中国特色的大模型自主创新与发展之路。
多模态、具身化都是大模型未来的发展方向。这也从侧面告诉我们,通过在工作、学习过程中聚合更多模态的信息,我们可以获得更好的效果,进而触发创新意识。
通过应用更多的优化方法与工具,大模型的应用效果将会更好。这个道理也可以扩展到我们的学习中。在当前的新一代信息技术大发展过程中,我们不仅要给他人创造智能工具,也要善于让工具服务于我们的工作、生活和学习,实现智能泛在。
为了加快大模型推理速度并减少推理时的资源需求,需要采用量化、剪枝等方法来降本增效。我们在学习以及工作中,也可以根据实际情况采用类似的方法来提效增速。
综上,可以发现,大模型就像是人类的大脑,大模型的训练、微调与推理类似于我们学习知识、应用知识的过程,大模型的具身化类似于我们不仅要学习理论知识,还要进行实践,手眼脑协调。这些都为我们学好大模型、用好大模型、做好应用创新提供了非常好的方法论。