1.2 为什么要使用大模型

随着OpenAI引领的超大模型风潮,大模型的发展日新月异。在现今的科技舞台上,每周,甚至每一天,我们都能见证到一个全新模型的开源,这些模型的创新性和实用性不断超越前作,彰显出深度学习的无穷潜力。

更重要的是,随着技术的进步和方法的优化,大模型的微调训练成本也大大降低,使得更多的研究者和实践者有机会亲自体验和使用这些大型模型。就如同原本昂贵的奢侈品逐渐走入寻常百姓家,大模型也从曲高和寡的研究领域逐渐扩展到了更广泛、更接地气的应用场景。笔者总结了目前大模型的一些分类及其说明,如下所示:

· 主流大模型:GLM-130B、PaLM、BLOOM、Gopher、Chinchilla、LaMDA、CodeGeeX、CodeGen。

· 分布式训练:3D并行(包括张量并行、流水线并行、数据并行)、DeepSpeed、混合精度、Megatron-DeepSpeed。

· 微调:FLAN、LoRA、DeepSpeed。

· 应用:工具(包括Toolformer、ART)。

这种发展趋势不仅预示着大模型将在更多领域得到应用,更重要的是,它为人工智能技术的生活化铺平了道路,使得更多的人可以享受到深度学习带来的便利和乐趣。未来,我们可以期待大模型在医疗、教育、娱乐等各个领域发挥出更大的作用,为我们的生活带来更多的便利和惊喜。

可以看到,大模型的开源和微调训练成本的降低,是深度学习领域的一大进步,也是人工智能技术发展的重要里程碑。这不仅为我们提供了更多的工具和可能性,更为我们的未来描绘出了一幅充满希望和机遇的画卷。在这个新时代里,我们有理由期待大模型将继续引领深度学习的发展潮流,为我们的生活和社会带来更多的正面影响。

1.2.1 大模型与普通模型的区别

从上一节我们了解到,大模型是指网络规模巨大的深度学习模型,具体表现为模型的参数量规模较大,其规模通常在百亿级别。随着模型参数的提高,人们逐渐接受模型参数越大其性能越好的特点,但是,大模型与普通深度学习模型之间到底有什么区别呢?

简单地解释,可以把普通模型比喻为一个小盒子,它的容量是有限的,只能存储和处理有限数量的数据和信息。这些模型可以完成一些简单的任务,如分类、预测和生成等,但是它们的能力受到了很大的限制。

表1-1列出了目前可以公开使用的大模型版本和参数量。

表1-1 公开使用的大模型版本和参数量

相比之下,大模型就像一个超级大的仓库,它能够存储和处理大量的数据和信息。它不仅可以完成普通模型能完成的任务,还能够处理更加复杂和庞大的数据集。这些大模型通常由数十亿,甚至上百亿个参数组成,需要大量的计算资源和存储空间才能运行。这类似于人类大脑(约有1 000亿个神经元细胞),在庞大的运算单元支撑下,完成更加复杂和高级的思考和决策。

1.2.2 为什么选择ChatGLM

ChatGLM系列是国产大语言模型中性能最好、回答准确率最高的大模型。

智谱AI第一代ChatGLM-6B在2023年3月推出,开源模型推出后不久就获得了很多的关注和使用。到2023年6月,ChatGLM2发布,再次引起了业界广泛的关注。ChatGLM Logo如图1-2所示。

图1-2 ChatGLM Logo

2023年的10月27日,智谱AI再次发布第三代基础大语言模型ChatGLM3系列。本次发布的第三代模型共包含3个:基础大语言模型ChatGLM3-6B-Base、对话调优大语言模型ChatGLM3-6B和长文本对话大语言模型ChatGLM3-6B-32K。

ChatGLM的独特之处在于,它不仅是一个语言模型,更是一个具备深度思考能力的语言专家。它能够理解并解析复杂的语言结构,对语义的理解更加精准,从而在回答问题、解决问题时更具针对性。同时,ChatGLM还具备了出色的记忆能力,可以记住与它交流的每一个细节,实现个性化的交流体验。在每一次交流中,它都能根据用户的喜好和需求,提供更加贴心、高效的服务。ChatGLM3系列模型除了基本对话能力的提升外,还有诸多支持:

· 更强的代码执行能力:即Code Interpreter。ChatGLM3的代码增强模块Code Interpreter根据用户需求生成代码并执行,自动完成数据分析、文件处理等复杂任务。

· 网络搜索增强WebGLM:接入搜索增强,能自动根据问题在互联网上查找相关资料,并在回答时提供相关参考文献或文章链接。

· 全新的Agent智能体能力:ChatGLM3集成了自研的AgentTuning技术,AI Agent水平比第二代提升1000%。关于AgentTuning,可以参考网络文章“如何提高大语言模型作为Agent的能力?清华大学与智谱AI推出AgentTuning方案”。Agent能力非常依赖规划和推理,从公布的结果看,ChatGLM3在GSM8K等数学逻辑推理方面的评测结果已经超过GPT-3.5,因此对于Agent的支持理论上应该非常棒。

· 多模态能力:官方宣称具有多模态理解能力的CogVLM,可以看图识语义,在10余个国际标准图文评测数据集上取得了SOTA(state-of-the-art,最先进的结果)。

· 端侧推理:ChatGLM3推出可手机部署的端测模型ChatGLM3-1.5B和ChatGLM3-3B,支持在手机端调用,速度可以达到20 tokens/s。一般成年人阅读的速度是每秒2~5个单词,完全足够,而且官方宣称自己的ChatGLM3-1.5B和ChatGLM3-3B与ChatGLM2-6B(即第二代)水平差不多。

ChatGLM系列是非常具有影响力的国产大语言模型系列,从2023年3月份开源第一代,到2023年10月迭代到第三代,发展十分迅猛,而且它在AI Agent、代码执行、多模态等方面都有非常好的布局和提升,十分值得大家关注。

可以预见,ChatGLM不仅可以作为一个自然语言处理大模型,还可以广泛应用于其他的应用场景,例如教育辅导、智能客服、智能助手、智能写作等多个领域,为人们的生活带来极大的便利。

在教育领域,ChatGLM发挥了重要的作用。它能够根据学生的提问和需求,提供精准、及时的解答。同时,ChatGLM还可以根据学生的学习情况和兴趣爱好,提供个性化的学习建议和资源推荐。这使得教育更加智能化、个性化,从而提高学生的学习效果和兴趣。

在智能客服领域,ChatGLM以其高效、精准的回答能力,解决了传统客服面临的种种问题。它能够快速、准确地理解用户的问题和需求,提供有针对性的解决方案。这大大提高了客服效率和服务质量,提升了用户的满意度和忠诚度。

在智能助手领域,ChatGLM可以帮助人们完成各种任务,如订餐、购物、日程管理等。通过自然语言交互,用户可以轻松地与助手进行交流,实现快速、便捷的生活体验。

在智能写作领域,ChatGLM可以帮助人们快速生成文章、报告等文本内容。通过输入关键词或主题,用户可以轻松地获得高质量的文本内容,从而提高写作效率和准确性。

ChatGLM模型以其卓越的性能和广泛的应用,展现了人工智能领域的强大潜力和无限可能性。作为一款大语言模型,它不仅具备了深度思考能力、精准语义理解能力和个性化交流体验能力等多种优势,还广泛应用于智能客服、智能助手、教育辅导等多个领域。这使得ChatGLM成为人工智能领域中的一颗璀璨明珠,为人类社会带来了诸多便利和改变。

1.2.3 大模型应用场合与发展趋势

在人工智能的广袤星空中,大模型犹如一颗璀璨的星辰,引领着深度学习领域的前行。从自然语言处理的源头出发,它们以注意力机制为核心基石,逐渐延伸至ChatGLM等巍峨之作,其参数之巨已至千亿、万亿之域。与此同时,训练数据的海洋也在不断扩张,为模型的成长提供了丰沃的土壤,推动着人工智能从对外界的简单感知向深度认知跃进。

大模型之美,在于它能从繁杂多变的场景中汲取智慧,从海量数据中提炼出通用的特征和规律,进而构建一个具有高度泛化能力的模型宇宙。当面对新的业务挑战时,这个大模型宇宙可以轻松地进行自我适配,或是借助少量的标注数据进行微调,或是无须任何定制即可应对多个应用场景,展现出通用的智能魅力。这种通用性,为应对多样且零碎的人工智能需求提供了一把钥匙,为人工智能的大规模落地应用开辟了一条康庄大道。

在制造业领域中,大模型正施展其魔法,将研发、销售及售后的每一个环节都点石成金。在研发环节,它借助AI生成图像或3D模型技术,为产品设计、工艺设计、工厂设计等流程注入新的活力。在销售和售后环节,它则创造出更加懂客户、更加个性化的智能客服和数字人带货主播,让销售和服务的效率和质量都迈上了一个新的台阶。

在医疗领域中,大模型也在默默奉献。它助力提升医疗服务的效率,从呼叫中心的自动分诊到常见病的问诊辅助,再到医疗影像的解读助手,它都在默默发光发热。此外,它还通过合成数据为医学研究提供强大的支持,为解决部分辅助医疗设备的匮乏问题贡献自己的力量。

金融行业同样在大模型的支持下蓬勃发展。银行业通过智慧网点、智能服务、智能风控等场景应用大模型技术,实现了业务的智能化升级;保险业则借助智能保险销售助手、智能培训助手等工具提高了工作效率;证券期货业也利用大模型在智能投研、智能营销等方面取得了显著成果。

在传媒与互联网领域中,大模型更是掀起了一场革命。它大幅提升了文娱内容的生产效率,降低了成本,让更多的人能够享受到高质量的文娱产品。从更深远的角度来看,大模型有望颠覆传统的互联网业态和场景入口,取代传统搜索引擎的地位,为我们提供更加高效、便捷的信息获取方式和交互体验。

可以相信,在不久的将来,大模型将在更多领域展现出惊人的能力,推动人类社会迈向更加美好的未来。而我们也将继续努力,传播先进技术理念和实践经验,为科技进步贡献自己的力量。