1.2 狂飙的话痨ChatGPT

2023年伊始,人工智能新秀——ChatGPT在全球火爆一时。

ChatGPT:chat generative pre-trained transformer,美国OpenAI实验室研发的聊天机器人程序。

下面拆字解读。

chat:聊天。

generative:生成式。以前的人工智能以观察、分析和判断为主。比如,以前的人工智能进行猫的图像识别时,让人工智能从一堆图像里找出猫,或判断当前图像是否是猫,而生成式人工智能则直接创作出一只猫。

pre-trained:经过预训练的。预训练指的是将训练任务拆解成共性学习和特性学习,先通过一部分数据进行初步训练,学习到“共性”;再将共性“移植”到特定任务的模型中,学习“特性”部分。举个例子,某学生学习德国法律,不会德语,直接学习德国《宪法》,从零起步是直接训练模式;而先学习德语,再看德国《宪法》,先学习德语这个“共性知识”,就是预训练

transformer:本意是转换器,但在这里表示一种用于序列数据(如语音识别、机器翻译和文本分类)的深度神经网络。该模型于2017年由谷歌提出,可通过注意力机制来捕获数据之间的关系,特别擅长对序列数据中的长距离依赖进行建模,因此非常适合处理自然语言处理任务。

所以,GPT也被译作生成式预训练语言模型

ChatGPT就是生成式预训练人工智能聊天机器人,作为人工智能技术驱动的自然语言处理工具,能够通过理解和学习人类的语言进行对话,还能根据对话的上下文进行互动,像人类一样聊天、交流。值得一提的是,它给出的答案并非预设,而是基于海量已知信息的总结与提炼。所以,ChatGPT不仅能聊天,还能完成撰写邮件、视频脚本、文案、诗歌、论文,以及翻译、编辑等任务。

简单概括一下,ChatGPT即聊天机器人+搜索工具+文本生成性工具

1.ChatGPT是如何和我们愉快聊天的

在本质上,ChatGPT聊天和阿尔法狗下棋的基本原理并无差别,都是基于概率模型的预测

阿尔法狗玩的是围棋游戏,预测的是下一步棋,先给可能的每一步棋计算一个获胜的概率,然后选择胜率最大那步棋

ChatGPT玩的是文字接龙,预测的是下一个字,先给可能的每一个字计算一个出现的概率,然后输出概率最大那个字

举个例子,你对ChatGPT说:“好久不见。”ChatGPT就开始工作了,假设已经输出了第一个字:我,接下来第二个字是什么呢?

我是、我的、我们、我和、我去……都是有可能的候选。

根据中文语料库里对上述词语日常使用频率的统计,我是:56%,我的:28%,我去:4%,我想:3%,我爱:2%……

在没有其他因素的情况下,模型就会把“是”加入“我”字后面,输出“我是”。

但是,ChatGPT是会联系上下文的,并且记得之前的聊天记录。它翻看聊天记录后发现上下文中有类似“好久”“喜欢”“思念”等表达情感的词汇。

这时再去预测第二个字时,上下文和这些候选词的关联程度肯定会影响第二个字的概率。“想”字的概率上升到66%,其他字的概率都降低了。

于是,ChatGPT基于最大概率,输出了“我想”

模型作为自回归语言模型,会把预测结果“我想”拼接到上下文里,当作输入的一部分,再去预测下一个字。

同理,基于上下文,“我想你”比“我想她”“我想睡”“我想吃”等的概率更大,第三个字输出了“你”。

到了这里,你就能看到ChatGPT深情地对你说:“我想你。”

ChatGPT的基本原理很简单,像一个概率猜猜猜的游戏,基于统计类型的算法,每次输出概率最大的一个字,逐字输出串成一句话,就是在和你聊天了。

再验证一下,如果上下文有“挚爱”“深情”“情侣”等与情爱相关的词汇呢?

没错,“爱”字的概率就很有可能超过“想”,ChatGPT会对你说:“我爱你。”

总之,你给出的上下文越充分,ChatGPT的回答越符合要求。

基本原理如此,实际情况当然要复杂一些。

ChatGPT生成自然语言的核心功能来自Transformer模型。该模型能拆解语词,理解含义,通过自注意力机制、softmax函数等统计概率模型分析语言关系。Transformer模型真正输出的是概率分布信息,然后从所有可能出现的字中随机抽取一个字,当然概率较高的字被抽取出来的可能性更大,概率较低的字就不容易被抽取出来。所以每一次的输出并不相同,具有随机性。

2.生成对抗网络GAN的“左右互搏术”

当前的ChatGPT即GPT-4,相较于前辈GPT-3,ChatGPT有两大重要变化,一是采用了更优异的生成语言大模型Transformer,二是学会了“左右互搏术”——生成对抗网络(generative adversarial network,GAN)。

《射雕英雄传》里,周伯通让自己的左手和右手相互切磋,形成竞争关系,于是双手进步奇快,并能各施绝技。

GAN就是这样一个“左右互搏”的系统,由两个人工神经网络组成,分别是生成器和判别器,对应左右手。

生成器负责根据输入的上下文和指令产生一个与之相关的文本,该文本可以用于回复用户的问题或者主动参与对话。

判别器负责判断生成器生成的文本是否真实、自然,促使生成器产生质量更高的文本。

打个比方,生成器是刚学习汉语的一年级小学生,判别器是要求严格的小学老师。小学生负责造句,老师负责评分纠错。

小学生的目标是尽量把句子造得真实、自然,通过老师的判别,让其认为是成人写的,获取更高的分数。老师的目标是,尽可能多地挑出句子中不够真实、自然的毛病,压低分数不让通过。

小学生通过学习,不断提高造句水平,分数从起初的10分、20分,逐渐到100分;然后升入二年级开始写作文,再从10分争取增长到100分。老师也要不断学习,提高纠错水平,提升通过标准。如此交互提高,小学老师一步步成了高中老师,学生也出师,考上了大学。

ChatGPT中的GAN系统,就这样不断迭代、训练和优化这两个人工神经网络,帮助ChatGPT不断改进回答和语言生成的能力。

这也证明了一个真理,一个好的竞争对手,可以促使你更快成长。GAN就是遵循了“从竞争中学习”的思路。

3.ChatGPT的秘密武器:RLHF

面对各种各样的问题,ChatGPT之所以能够更容易地推断出用户意图,回答更人性化,似乎已经打破了机器和人的边界,让用户感觉不是机器在回答,主要依赖一件秘密武器:RLHF(reinforcement learning from human feedback),即以强化学习方式依据人类反馈优化语言模型

RLHF是强化学习(reinforcement learning,RL)的一个扩展,它将人类的反馈纳入训练过程,为机器提供了一种自然的、人性化的互动学习过程。

简单来说,RLHF允许人类直接指导机器,并允许机器掌握明显嵌入人类经验中的决策要素。开发人员会给模型提出各种可能的问题,并对反馈的错误答案进行惩罚,对正确的答案进行奖励,从而实现控制ChatGPT的回答。

继续用小学生造句的例子,校长可以制定造句规则和评分标准,比如命令小学生不能说“我支持种族歧视”,同时要求老师对于出现“支持××歧视”类的句子一律0分处理。

这样一来,小学生就不太可能造出“我支持性别歧视”等包含各类歧视倾向内容的句子,并且,造句内容会向校长的偏好和主观意见靠拢。

基本原理如此。RLHF用多个模型(可以是初始模型、finetune模型等)给出问题的多个回答,然后人工给这些问答对按一些标准(如可读性、无害、正确性等)进行排序,训练一个奖励模型/偏好模型(reward model)来打分。

总之,RLHF用带人类反馈的强化学习训练语言模型,以输出人们更偏爱的结果,使得对话更符合人类逻辑,也符合复杂的人类价值观。

4.GAN和RLHF的“传功长老”:强化学习

RLHF可以看作将人类的反馈纳入训练过程的强化学习,而GAN其实也可以看作生成器和判别器互为环境,根据奖励修正模型,实现正反馈的双向强化学习。

那么,如此强大的强化学习是什么呢?

强化学习,又称再励学习、评价学习或增强学习,是机器学习的范式和方法论之一,用于描述和解决智能体(agent)在与环境的交互过程中通过学习策略,以达成回报最大化或实现特定目标的问题。

简单来说,强化学习是一种通过智能体与环境的交互,来学习最优策略的技术。其特点是,对模型进行训练时,需要环境给予反馈,包括具体的反馈值。

打个不太恰当的比方,强化学习有点像马戏团驯猴。按照锣声指示,猴子正确完成规定动作,就能获得食物奖励;动作不正确或未完成,就会挨饿或挨鞭子。次数多了,猴子就能按照人们的意图,做出各种动作。

这只受过训练的猴子,就是前面出现的一些模型(有时也称架构、算法),包括生成器、判别器等人工神经网络(模型)。

强化学习的思想可追溯到行为心理学的效用法则:给定情境下,得到奖励的行为会被强化,而受到惩罚的行为会被弱化。

从这一点来说,强化学习和行为主义相近。行为主义又是什么呢?

行为主义,又称进化主义或控制论学派,思想来源是进化论和控制论。

行为主义认为生物智能是自然进化的产物,生物通过与环境及其他生物之间的相互作用发展出越来越强的智能。所以,人工智能也可以沿这个途径发展,即不需要知识、表示和推理,通过在现实环境中交互反馈,智能行为也会逐步得到进化。

举个例子,小孩子学走路时,走到凹凸不平的路面容易摔倒,摔倒后会因为疼痛大哭。重复几次就会产生:①避免走凹凸不平可能致人摔倒的路;②摔倒后,无论疼不疼第一反应都是大哭。

人工智能的研究虽然分为三个主义,形成三大学派,但随着人工智能领域的不断拓展,三大学派日益脱离各自独立发展的轨道,走上互融共进的道路,正在进行以深度学习为主线的技术融合。

比如,强化学习领域的DQN网络,采用了神经网络,开启了一个新的研究领域,称作深度强化学习(deep reinforcement learning);符号主义领域的图网络(graph network)技术也正在与深度学习相融合,形成深度图网络研究领域。

在实际应用中,源于不同学派的算法更是相互融合,取长补短,共同发挥作用。

5.学霸GPT-4“恐怖如斯”

ChatGPT有很多家族成员,2018年6月GPT-1发布,可用于生成文章、代码,完成机器翻译、问答等各类任务。2019年2月GPT-2发布,2020年5月GPT-3发布,2022年11月基于GPT-3.5架构的ChatGPT发布,2023年3月GPT-4发布。每一代GPT模型的参数量都爆炸式增长,堪称“越大越好”。

最新的GPT-4有多牛呢?能够成功通过百万年薪的谷歌公司三级工程师面试、美国医学执照考试。在GRE(留学研究生入学考试)、SAT(美国高中毕业生学术能力水平考试,也称“美国高考”)和美国法学院考试等我们较为熟悉的美国考试中,GPT-4的得分几乎和人类考生没有区别了。在GRE考试的数学部分,满分是170分,GPT-4获得163分;在GRE考试的语言部分,GPT-4得分为169分。也就是说,GPT-4可以通过斯坦福大学的入学考试,而且分数不低!斯坦福大学的QS世界大学排名前3,2022年秋季有56 378名学生向斯坦福大学递交本科入学申请,当季录取2 075人,录取率仅为3.68%,难度可想而知。

仅在考试能力这一块,GPT-4已经超过了85%的人类。

更气人的是,我们12年寒窗苦读磨炼出的考试能力,而GPT-4只需要训练6个月即可达到,而且这个差距只会越来越大。

为啥GPT-4能有如此神奇的表现,而以前的人工智能没有呢?因为GPT-4具有了涌现性。

6.宇宙中的神奇特性:涌现性

涌现性(emergent properties),通常是指多个要素组成系统后,出现了系统组成前单个要素所不具有的性质。

简单来说,就是大量的低等级行为交互,只要量大到一定程度,就会产生高等级的行为结果。

举个例子,人脑中有上千亿个神经元细胞,单个神经元的功能很简单,就像一个电子元件,并没有智能。但所有的神经元加在一起,却产生了无比神奇的智能和意识。

GPT-4也是如此,拆开看,它的每个低级动作,猜出每个字的方法都很简单,算不上智能。但把它的行为结果作为一个整体来看,就具有了一定的涌现性,也就是具有了初步的智能。

所以,涌现性是超级复杂系统的关键性质,也是量变产生质变的实证。

涌现性是宇宙中最迷人、最奇妙的特性之一。单个简单到不能再简单的东西,只要组合成一个整体,所释放的能量超乎想象。

一滴水,不足以形成海啸;一粒沙,不足以形成沙尘暴。然而,当个体数量达到一定值,足以形成一个群体时,就会涌现出个体所没有的属性。而当这个群体遵循一系列规则,组织有序时,会更加神奇。

宇宙中,这样的例子不胜枚举。比如,原子组成分子,分子组成蛋白质,蛋白质组成细胞,细胞组成会呼吸、消化或思考的各类器官,器官组成了人体。

涌现,就体现了这样一种从低层次到高层次的过渡,在微观主体聚合作用的基础上,导致宏观系统在性能和结构上的突变,具体表现为出现了“整体大于部分之和”的新属性或新功能。

对应到GPT-4,这个新功能就是具备了初步的通用智能。

GPT-4之所以能表现出涌现性,缘于大模型。

7.多模态和万亿级参数的大模型

如果把GPT-4输出的文字换成一个个像素,当像素铺满了屏幕,就相当于它画了一幅画。如果把文字换成一个个音符,GPT-4就可以谱曲;换成代码,就可以编程。

能处理图像、文本、音频、代码等,就是GPT-4的多模态,但原理都是一样的,就是输出它认为概率最大的那个值。

为啥以前的神经网络模型都做不到这些呢?

除了训练数据不够多,还在于模型参数不够多

参数量是衡量神经网络模型的重要指标,决定了模型的大小和空间复杂度,关系到模型所做预测的准确性。

超大的参数规模,使得GPT-4能够捕获数据中更复杂的语言模式和关系,从而提高完成复杂自然语言处理任务的准确性。

举个例子,模型参数,可以理解成收音机调频调台用的旋钮,两个旋钮相互配合,调整的时候就能更精准,接收到的内容也就更清楚。如果有1 000个、10 000个旋钮,就能精准覆盖宇宙中的所有波段了。

GPT-1有1.2亿个参数,GPT-2增长到15亿个,ChatGPT(GPT-3.5)更是暴增到1750亿个,而据报道GPT-4的参数量超过1万亿个。

这就相当于低级模型的交互量越来越大,模型的涌现性就会越来越好,给人的感觉就是越来越智能。

正因为具有如此大的参数量,所以叫大模型(见表1-1和表1-2)。GPT-4是迄今为止最大的自然语言处理模型。

表1-1 国外的大模型

表1-2 国内的大模型

以前为什么没有这样的大模型?因为受算力的限制。

这就要从左右人工智能发展的“幕后三巨头”说起。