- 从零开始大模型开发与微调:基于PyTorch与ChatGLM
- 王晓华
- 3540字
- 2024-12-31 17:37:07
前言
我们处于一个变革的时代!
提出一个常识问题,让一个有着本科学历的成年人回答这个问题,似乎是一件非常简单的事情。然而将同样的内容输送给计算机,让它通过自己的能力流畅地回答这个常识问题,这在不久以前还是一件不可能的事。
让计算机学会回答问题,这是一个专门的研究方向——人工智能大模型正在做的工作。随着人工神经网络和深度学习的发展,近年来人工智能在研究上取得了重大突破。通过大规模的文本训练,人工智能在自然语言生成上取得了非常好的效果。
而今,随着深度学习的发展,使用人工智能来处理常规劳动、理解语音语义、帮助医疗诊断和支持基础科研工作,这些曾经是梦想的东西似乎都在眼前。
写作本书的原因
PyTorch作为最新的、应用最为广泛的深度学习开源框架,自然引起了广泛的关注,它吸引了大量程序设计和开发人员进行相关内容的开发与学习。掌握PyTorch程序设计基本技能的程序设计人员成为当前各组织和单位热切寻求的热门人才。他们的主要工作就是利用获得的数据集设计不同的人工神经模型,利用人工神经网络强大的学习能力提取和挖掘数据集中包含的潜在信息,编写相应的PyTorch程序对数据进行处理,对其价值进行进一步开发,为商业机会的获取、管理模式的创新、决策的制定提供相应的支持。随着越来越多的组织、单位和行业对深度学习应用的重视,高层次的PyTorch程序设计人员必将成为就业市场上紧俏的人才。
与其他应用框架不同,PyTorch并不是一个简单的编程框架,深度学习也不是一个简单的名词,而是需要相关研究人员对隐藏在其代码背后的理论进行学习,掌握一定的数学知识和理论基础的。特别是随着PyTorch 2.0的推出,更好、更快、更强成为PyTorch 2.0所追求的目标。
研究人员探索和发展深度学习的目的是更好地服务于人类社会,而人工智能的代表——清华大学开发的ChatGLM是现阶段人工智能最高端的研究成果,它可以模拟人类智能的某些方面,例如语言理解、智能问答、自然语言处理等。相较于其他人工智能产品,ChatGLM有着更加强大的算法、更多的数据基础以及更强的训练和优化,使得ChatGLM可以实现更加准确和高效的决策和预测,为人类社会带来巨大的价值。
在医疗领域,ChatGLM可以帮助医生更准确地诊断疾病,提高治疗的效果和效率。在交通领域,ChatGLM可以辅助驾驶员进行驾驶决策,减少交通事故的发生。在金融领域,ChatGLM可以帮助银行和证券公司进行风险控制和投资决策。在教育领域,ChatGLM可以根据学生的学习情况和兴趣爱好,提供个性化的学习方案和资源。
在这个人工智能风起云涌的时代,借由PyTorch 2.0与ChatGLM推出之际,本书为了满足广大人工智能程序设计和开发人员学习最新的PyTorch程序代码的需要,对涉及深度学习的结构与编程技巧循序渐进地做了介绍与说明,以深度学习实战内容为依托,从理论开始介绍PyTorch程序设计模式,多角度、多方面地对其中的原理和实现提供翔实的分析;同时,以了解和掌握最强的人工智能模型ChatGLM,进行可靠的二次开发和微调为目标,使读者能够在开发者的层面掌握ChatGLM程序设计方法和技巧,为开发出更强大的人工智能大模型打下扎实的基础。
本书的优势
· 本书基于PyTorch 2.0框架对深度学习的理论、应用以及实战进行全方位的讲解,市面上鲜有涉及。
· 本书手把手地从零开始向读者讲解大模型的构建方法,从最基础的深度学习模型搭建开始,直到完成大模型的设计、应用与微调工作。
· 本书并非枯燥的理论讲解,而是大量最新文献的归纳和总结。在这点上,本书与其他编程书籍有本质区别。本书的例子都是来自现实世界中对深度学习有实战应用的模型,通过介绍这些实际应用示例,可以使读者更进一步地了解和掌握其应用价值和核心本质。
· 本书作者有长期的研究生和本科生教学经验,通过通俗易懂的语言,深入浅出地介绍深度学习与神经网络理论体系的全部知识点,并在程序编写时使用PyTorch 2.0最新框架进行程序设计,帮助读者更好地使用PyTorch模型框架,理解和掌握PyTorch程序设计的精妙之处。
· 作者认为,掌握和使用深度学习的人才应在掌握基本知识和理论的基础上,重视实际应用程序开发能力和解决问题能力的培养。特别是对于最新的大模型技术的掌握。本书结合作者在实际工作中应用的实际案例进行讲解,内容真实,场景逼真。
本书的内容
本书共18章,所有代码均采用Python语言编写,这也是PyTorch 2.0框架推荐使用的语言。
第1章介绍人工智能的基本内容,初步介绍深度学习应用与大模型的发展方向,介绍最强的人工智能大模型——清华大学ChatGLM的应用前景,旨在说明使用深度学习和人工智能实现大模型是未来科技的发展方向,也是必然趋势。
第2章介绍PyTorch 2.0的安装和常用的类库。Python是易用性非常强的语言,可以很方便地将公式和愿景以代码的形式表达出来,而无须学习过多的编程知识。还将手把手地向读者演示第一个深度学习模型的完整使用示例。
第3章演示使用PyTorch框架进行手写体识别的实际例子,完整地对MNIST手写体项目进行分类,同时讲解模型的标签问题以及本书后期常用的损失函数计算等内容。
第4章系统介绍深度学习的基础知识——反向传播神经网络的原理和实现。这是整个深度学习领域最为基础的内容,也是最为重要的理论部分。本章通过独立编写代码的形式为读者实现这个神经网络中最重要的算法。
第5章介绍卷积神经网络的使用,主要介绍使用卷积对MNIST数据集进行识别。这是一个入门案例,但是包含的内容非常多,例如使用多种不同的层和类构建一个较为复杂的卷积神经网络。同时也介绍了一些具有个性化设置的卷积层。
第6章主要讲解PyTorch 2.0数据处理与模型训练可视化方面的内容,这是本书中非常重要的基础,也是数据处理中非常重要的组成部分,通过编写相应的程序来实现模型对输入数据的处理,能够使得读者更加深入地了解PyTorch框架的运行原理。
第7章介绍卷积神经网络的核心内容,讲解基于Block堆积的ResNet模型的构建方法,这为后面搭建更多基于模块化的深度学习模型打下基础。
第8和第9章是PyTorch自然语言处理的基础部分,从词向量开始,到使用卷积和循环神经网络完成自然语言处理的情感分类项目,循序渐进地引导读者使用深度学习完成自然语言处理实战。
第10章介绍深度学习另一个重要的模块——注意力模型,本章的理论部分非常简单,讲解得也很清晰,但其内容对整个深度学习模型具有里程碑意义。
第11和第12章是自然语言处理的补充内容,分别介绍使用现有的预训练模型进行自然语言处理以及自然语言处理解码器的部分。第12章和第10章相互衔接,主要是对当前的新模型Transformer进行介绍和说明,分别从其架构入手,对编码器和解码器进行详细介绍。同时,第12章还介绍各种ticks和小的细节,有针对性地对模型优化做了说明。
第13~15章是对强化学习部分的讲解,同时详细讲解深度学习中具有开创性质的GPT-2模型的构成架构和源码设计,并基于以上两部分完成了一个简化版的ChatGPT设计,这是为后续进行语言模型微调打下基础。
第16~18章是本书有关大模型的核心内容。第16章讲解人工智能大模型ChatGLM的使用与自定义方法。第17章讲解ChatGLM高级定制化应用,包括专业客服问答机器人、金融信息抽取实战以及一些补充内容;其中金融信息抽取使用了基于知识链的多专业跨领域文档挖掘的方法,这是目前ChatGLM甚至是自然语言处理大模型方面最为前沿的研究方向。第18章讲解ChatGLM模型的本地化处理和ChatGLM的高级微调方法,极具参考价值。
本书的特点
· 本书不是纯粹的理论知识介绍,也不是高深的技术研讨,完全是从实践应用出发,用最简单、典型的示例引申出核心知识,并指出进一步学习人工智能大模型的道路。
· 本书没有深入介绍某一个知识块,而是全面介绍PyTorch涉及的大模型的基本结构和上层程序设计,系统地讲解深度学习的全貌,使读者在学习过程中把握好方向。
· 本书在写作上浅显易懂,没有深奥的数学知识,而是采用较为形象的形式,使用大量图示来描述应用的理论知识,让读者轻松地阅读并掌握相关内容。
· 本书旨在引导读者进行更多技术上的创新,每章都会以示例的形式帮助读者更好地理解本章要学习的内容。
· 本书代码遵循重构原理,避免代码污染,帮助读者写出优秀、简洁、可维护的代码。
配套示例源代码、PPT课件下载
本书配套示例源代码、PPT课件,需要用微信扫描下面的二维码获取。如果阅读中发现问题或疑问,请联系booksaga@163.com,邮件主题写“从零开始大模型开发与微调”。
本书适合人群
本书适合人工智能、大模型、深度学习以及PyTorch框架等方向的初学者和开发人员阅读,也可以作为高等院校相关专业的教材。
建议读者在学习本书内容的过程中,理论联系实际,独立进行一些代码的编写工作,可能的情况下采取开放式的实验方法,即读者自行准备实验数据和实验环境,解决实际问题,最终达到理论联系实际的目的。
本书作者
本书作者为高校计算机专业教师,教授人工智能、大数据分析与挖掘、Java程序设计、数据结构等多门本科生及研究生课程,研究方向为数据仓库与数据挖掘、人工智能、机器学习,在研和参研多项科研项目。作者在本书写作过程中,得到了家人和朋友的大力支持,以及本书编辑王叶的热情帮助,在此对他们一并表示感谢。
作 者
2023年8月