1.5 给大模型的“大脑”装上“手”

大语言模型可以理解语言,但它们还不能完全确定自己生成的内容是否正确。为了在某些需要数学计算或时事知识的情况下获得更准确的答案,大语言模型还需要使用外部工具,这些工具就如同模型的手一样,以被调用的方式来解决用户提出的问题。因此,除了拥有优秀的理解能力之外,让大型语言模型学会使用计算机上的各种工具,可以最大限度地提高它的能力。

过去,用户需要适应不同的产品,很多需求要在不同的产品之间进行切换才能被满足。例如,购物需要用京东或淘宝等App、找餐馆需要用美团或大众点评等App、打车需要滴滴出行等App,我们每天都需要在不同的应用之间进行切换并适应这些应用的流程,才能实现我们的目标。如表1-4所示,虽然这些产品在不断迭代,但是“用户适应产品”仍是当下我们与科技交互的重要方式。

表1-4 软件形态与服务形式变革

未来,大模型可以帮助用户打造海量应用,这些应用会成为用户的贴身助手、直接为用户提供服务,不再是过去的用户适应产品,而是变成产品去适应用户。迭代的也不再是产品,而是模型。最终,在这样的基础上构建出人工智能原生应用形态。

目前,ChatGPT已经推出插件功能,同时以AutoGPT为代表的应用形态已经将自主智能体引入大众视野,这将成为大模型未来在应用形态上的重要发展趋势之一。

1.5.1 插件(Plugin)带来的“App Store时刻”

目前,ChatGPT已经能够完成大量任务,但是在发挥作用方面还是有诸多限制,例如,前面多次提到的训练数据是ChatGPT进行学习的唯一信息来源,但这些数据内容可能会过时,一些私域信息也难以使用和学习。但插件功能的出现,不但解决了ChatGPT无法联网的窘境,也创造出了ChatGPT的“App Store时刻”。

ChatGPT的插件系统其实是ChatGPT能力的一种扩展,可以让ChatGPT通过自然语言的方式进行交互,连接到第三方应用程序、运行计算或者使用其他服务。插件系统的核心原则是安全,用来保护用户和开发者的数据和隐私,同时提升ChatGPT的效率和可靠性[6]

插件如同大模型的眼睛和耳朵,之前的ChatGPT只是用自己的“记忆”来回答我们的问题,不能看到外面的世界,更不能使用外接的工具。但是,有了插件功能之后,它就能够访问最新数据中的信息了。这样ChatGPT就可以根据最新和最准确的信息来回答我们的问题,帮助用户完成一些任务和操作。目前,第一批插件已经能够实现酒店与航班预定、外卖服务、在线购物、法律知识咨询等功能。这也意味着生态系统的产品演进思路已经出现,也就是说,通过开放插件系统全面引入开发者。ChatGPT将不仅仅是一个聊天机器人,而会变成一个开发者平台,一个人工智能时代的“App Store”。

例如,用户对ChatGPT说:“我想周五去北京三里屯吃海鲜,你帮我推荐一个周五可以去的好餐厅,同时给我准备一个周日在家做饭的食谱,计算一下卡路里,然后在京东上帮我订购食材。”

实现过程将会是:ChatGPT会调用类似大众点评的插件,给用户推荐餐厅和相关预定链接;接着ChatGPT给出周日的食谱——宫保鸡丁和蛋炒饭;随后调用健身类插件,计算卡路里;最后ChatGPT会调用类似京东的插件,帮助用户整理好购物清单,用户点击链接就可以下单购买食材。

整个过程类似于用户通过iPhone调用各种App来解决自己的问题。过去是用手点击,现在则变成了用自然语言说出自己的需求,ChatGPT会直接把相关的插件调用出来,并生成用户想要的结果,整个过程不需要用户有其他操作。也就是说,ChatGPT未来有望会有一个“GPT Store”,如同当前我们手机里的App Store一样,需要什么样的插件,直接输入自然语言就可以实现。具体来看,插件系统有以下特点。

1.可靠性与实用性增加

通过插件,用户可以让ChatGPT访问最新的信息,从而提高回答的质量和可信度。同时ChatGPT可以通过插件获取其他领域的知识和技术,扩展自己的能力范围,尤其是回答问题的深度和广度,同时模型本身也进一步提升了优势。

2.安全性进一步提升

关于ChatGPT安全性的事件不断出现,插件可以要求开发者按照统一的安全规范和标准进行开发,有望进一步提升其安全标准,减少数据泄露、隐私侵犯、恶意攻击等风险。

3.生态系统初步形成

用户是ChatGPT插件系统的核心驱动力,他们会通过使用插件实现各种目标和需求,从而提升大模型的用户数量、活跃度和口碑。开发者则可以通过插件来实现技能和创意的落地,进而产生影响力和收益。开发者的数量、多样性都会影响ChatGPT插件系统生态的建立。同时,作为ChatGPT插件系统的底层基础,OpenAI通过技术、规范、工具、资源等促进用户、开发者、平台之间的交流和繁荣,最终推动生态体系的建立和丰富。

1.5.2 自主智能体带来无限遐想

想象一下你将来的人工智能助手,你交给它一个任务,不需要告诉它怎么做,它可以直接自己搜寻工具、拟出待办事项,执行自己设定好的步骤,直到任务完成。

如果我们初步给自主智能体下一个定义,那就是给定人工智能体一个目标,它可以自行创建任务、更新任务、重新确定任务列表和优先级,不断重复上面的过程,直至完成目标。

这正是自主智能所要完成的事情。

英伟达的机器学习专家甚至表示,自主智能是自动化的重点。一旦这些智能体变得高度精密、可靠,各个领域和行业的自动化程度将呈指数级增长。目前,一些比较典型的自主智能体案例已经出现,比如有创业者发布过将自主智能体加载到浏览器中的技术,这些技术可以帮助你自动定比萨饼。用户只需要说:“点一份从A位置配送到B位置的洋葱比萨饼。”自主智能体就可以自动完成订购的所有动作。

同样令人震撼的案例还有斯坦福与谷歌联合实施的一个虚拟城镇实验,如图1-6所示。这个虚拟城镇中有25个自主智能体,在小镇中所有自主智能体之间都会以自然语言相互交流,而用户也可以使用自然语言与他们交互,比如采访他们、命令他们或者加入他们的活动。研究人员告诉其中一个人工智能体要组织一场情人节派对,接着神奇的事情发生了,这些智能体开始模拟人的生活方式,互相交谈,最终大多数智能体都听说了情人节派对,并最终出席了活动。

图1-6 25名智能体生活的小镇

下面,我们通过一个案例,来看看自主智能体到底是如何实现人类目标的。假如我们想要一个自主智能体帮助总结一下关于“淄博烧烤”的最新消息。

(1)我们向智能体输入“你的目标是找出关于淄博烧烤的最新消息,然后把摘要发送给我”。

(2)智能体看到目标任务后,借助GPT-4等大语言模型来理解任务详情,在搜索引擎上搜索与淄博烧烤相关的新闻。

(3)在找到淄博烧烤的热门文章之后,开始创建两个新的子任务,分别是撰写新闻摘要和阅读新闻链接的内容。

(4)智能体需要确定新创建子任务的完成先后顺序,显然先写摘要被否定了,需要先阅读新闻链接的内容。

(5)在上面的过程中,智能体需要不断回顾待办事项列表,查看是否和最终目标一致。

(6)在读取文章内容之后,剩下的唯一一项工作就是总结内容,完成之后就可以反馈给用户新闻摘要。

上面的过程比较简单,也不是很完美,但是我们可以看到,用户通过自主智能体可以更加轻松地完成很多事情。我们需要做的就是给出一个任务,让它去完成(见表1-5)。在效率提升的背后,我们可以腾出更多时间专注于思考、减少烦琐的工作,从而会有更多、更好、更有创意的想法出现。

表1-5 自主智能体工作分解步骤

资料来源:shadow chi发表在公众号“无界社区mixlab”的文章《趋势:自主思考,通用人工智能的雏形——生成式智能体》,2023-04-24。

未来,这种只有1~3个员工、大量借助AutoGPT和ChatGPT的创业公司会大量出现,而工作成果将可以和拥有上百人的公司相媲美。就如同电影《星际穿越》里的TARS一样,我们正处于这样一个关键历史时刻的起点。