特别专题|ChatGPT内幕故事

全球爆红的ChatGPT是如何诞生的?(上)

本文翻译自Jermy Kahn 1月25号发表于fortune的长文,译文共分为上中下三篇,这是第一篇,译文最初发布于微信公众号“身是眼中人”,InfoQ经授权转载。

原文标题是<The inside story of ChatGPT: How OpenAI founder Sam Altman built the world's hottest technology with billions from Microsoft>,副标题是"The A.I. future, according to Altman, could be spectacular—unless it goes spectacularly wrong. Why Big Techgiants and business leaders everywhere are losing sleep over generative A.I."

原文链接在此:https://fortune.com/longform/chatgpt-openai-sam-altman-microsoft/,推荐大家阅读原文。

每个时代中都会出现一种产品将一项技术从工程师公寓地下室的球形显示器前、青春期书呆子卧室里,或者是孤独终老的洞穴人的洞穴中魔术般变成了你的Enda外婆都知道如何使用的工具。例如早在1990年就有网络浏览器产品,但直到1994年Netscape Navi gator的出现 ,才让大多数人真正用上了互联网。在2001年iPod面世之前就已经有了 无数的MP3播放器,但它们都没有引发数字音乐革命。最经典的例子是直到Apple于2007年发布iPhone,在之前所有的“智能手机”,都没有App这个概念。

2022年11月30日,人工智能迎来了自己的Netscape Navigator时刻。

OpenAI的首席执行官Sam Altman迎来了这一时刻,OpenAI是一家成立于2015年总部位于旧金山的人工智能公司。它得到了包括Elon Musk、Peter Thiel(PayPal Mafia)等硅谷重量级人物的资金支持,其中也包括LinkedIn联合创始人Reid Hoffman。11月30日,即公司成立大约七年后,Altman发推文说:“today we launched ChatGPT. try talking with it here”,然后附上了一个链接让任何人都可以免费注册一个帐户并与OpenAI的新聊天机器人交谈。

任何人现在都可以和ChatGPT讨论任何话题,而不仅仅是谈论天气(译者注:这是吐槽智能音箱么?)。Amjad Masad,一位CEO,同时也是一位软件工程师,要求ChatGPT调试他的代码,它做到了;Gina Homolka是一位美食博主和网红,她要求ChatGPT写一份健康巧克力曲奇的食谱,它做到了;Scale AI的工程师Riley Goodside要求ChatGPT为Seinfeld剧集编写剧本,它做到了;Guy Parsons是一名营销人员并同时经营着一家致力于AI艺术的在线画廊,他让ChatGPT为他编写提示用以输入另一个AI系统Midjourney,从而让Midjourney用文本描述创建图像,它做到了;同时研究AI在医学上的应用的斯坦福大学医学院的皮肤科医生Roxana Daneshjou向ChatGPT提出了医学问题。同时许多学生用它来做作业,而这只是在聊天机器人发布后的24小时内ChatGPT处理过的海量问题中的沧海一粟。

我们以前有过各种的聊天机器人产品,但从来没有过这次这样让人感觉到你是在和一个真正的智慧在交流。ChatGPT可以进行长时间、流畅的对话,回答问题,并撰写人们要求的几乎任何类型的书面材料,包括商业计划、广告活动、诗歌、笑话、计算机代码和电影剧本。它远非完美比如结果并不总是准确的;它不能引用其信息来源;它几乎不知道2021年之后发生的任何事情。它所提供的回答虽然通常可以通过高中课程甚至大学课程的考试,但还是很少可以媲美人类专家的完美。但是在另一方面,ChatGPT会在大约一秒钟内生成回答并且的很多回答的很多方面都不错。在仅仅发布五天后,ChatGPT就达到了1百万人次使用里程碑,而当年Facebook花了整整10个月。(译者注:这是在吐槽元宇宙么?)

实际上在过去的十年中,人工智能技术已经稳步进入商业领域并悄悄改进了我们每天使用的许多软件,但并未引起普通使用者的太大兴趣。而ChatGPT改变了这一点。突然之间每个人都在谈论人工智能如何颠覆他们的工作、公司、学校和生活。

ChatGPT是一大类人工智能技术浪潮的一个具体应用,这些技术统称为“generative A.I”。这个分支下还包括流行的艺术生成器,如Midjourney和Lensa。OpenAI已经把自己变成了科技行业“next big thing”的达标,它具有史诗般创业公司的所有标志,包括全明星阵容和投资者狂热,据报道估值1已高达290亿美元。

(译者注:天下苦“next big thing“ 久矣)

但是尽管ChatGPT爆火的甚至引发了搜索帝国Google的嫉妒、惊奇和恐惧以至于Google宣布内部“code red”以回应ChatGPT。但是我们仍然认为OpenAI不太可能成为技术界的超级霸权之一。因为直到几年前,它还根本不是一家公司,而是一家致力于学术研究的小型非营利性实验室。崇高的非商业原则仍然存在OpenAI内部,例如保护人类免受不受限制的人工智能的威胁。虽然与此同时OpenAI经历了内部转型,将其原来的员工一分为二并更加关注商业项目而不是纯科学研究。(这也是一些批评家认为,将ChatGPT随意发布本身就是危险的,但是这也是OpenAI深刻转变的一个佐证)

I think the good case [for A.I.] is just so unbelievably good that you sound like a crazy person talking about it. I think the worst case is lights-out for all of us.

OpenAI本周宣布扩大与微软的合作伙伴关系,而其中包括高达100亿美元的新资本注入,这可能会使这家软件巨头在未来几年占据OpenAI利润的最大份额。同时这笔交易可能会加深人们的看法,即曾经理想主义的创业者们现在主要目标是赚钱。这也从侧面说明《财富》杂志看到的文件揭示了OpenAI的业务目前是多么无利可图。

37岁的联合创始人兼首席执行官Altman体现了OpenAI令人费解的本质。Altman是一位以商业头脑而不是工程师背景而闻名的连续创业家,他既是OpenAI飙升估值的设计师,也是其buzzkiller-in-chief,也就是他不忌讳公开谈论ChatGPT离真正可靠还有多远。但是不要被他误导了,他这样言论的目的在于引出ChatGPT是他更广泛、更不切实际的企业使命向前迈出关键的一步,即开发一种称为通用人工智能(AGI)的计算机超级智能。“AGI可能是人类生存所必需的,”Altman在7月份发推文说,“如果没有更好的工具,我们的问题似乎太大[for]让我们无法解决。”

对于一家需要赚钱的企业来说,这是一种不同寻常的指导理念,尤其是考虑到一些计算机科学家认为Altman的痴迷只是一种幻想。“AGI很愚蠢,”加州大学伯克利分校的计算机科学家Ben Recht说,“我的意思是,这不是一回事。”

然而借助ChatGPT的东风,Altman已将OpenAI和更广泛的AI使命转变为吸引科技界眼球的事物。那么问题接下来就变成了他与微软建立的合作伙伴关系是否可以改进ChatGPT的缺陷并利用其早期先发优势来改变整个科技行业。不要忘记Google和其他巨头仍然在他们自己开发的人工智能平台上努力追赶。未来也许会更完善的软件可以使ChatGPT看起来像儿戏。OpenAI可能有一天会发现,就像Netscape短暂的统治浏览器世界一样,它的突破其实是给未来打开了一扇门,但这个未来不属于OpenAI。(译者注:云计算玩得最早的是IBM和微软,但是成就的是AWS)

1月中旬的一个星期四晚上,Altman罕见地在旧金山公开露面。这位CEO穿着灰色毛衣、蓝色牛仔裤和一双颜色鲜艳的时髦扎染运动鞋,走进了一个满是投资者、技术人员和记者的房间,他们聚集在一起讨论关于ChatGPT或即将到来的融资的信息。当他的采访者、专注于风险投资领域的媒体公司StrictlyVC的创始人Connie Loizos向他询问对媒体的狂热的感受时候,Altman回答说:“我不看新闻,我也不太会做这样的事情”而该站立活动在Salesforce Tower的46层举行。在采访前举行的金融科技小组讨论会上,一位发言人甚至告诉听众,她知道他们“都在等Sam Altman”。 (译者注:研究这些明星创业者明显奇怪的言论其实是个很好的论文方向)

所以尽管议论纷纷,并且坊间到处流传着微软投资的谣言,但Altman似乎特意抑制了这种兴奋。“这些技术的一个奇怪之处在于它们令人印象深刻但并不稳健,”他告诉人群,“所以你在第一个演示中使用它们;你有点令人印象深刻,‘哇,这太不可思议了,准备好了’[reaction]。但你看到它一百次,你就会看到它的弱点。”

这种谨慎似乎是OpenAI对外沟通的官方模式,OpenAI的总部位于旧金山Mission区的一家旧箱包工厂。而我们惊讶地发现,如果ChatGPT是AI的Netscape Navigator时刻,那它差点从来没有发生过,因为OpenAI几个月前几乎自己亲手扼杀了这个项目。下面将是这个故事的来龙去脉:

允许用户用简单的英语(或许多其他语言)与AI交谈的聊天界面最初是由OpenAI构想的,作为改进其“large language models”(LLM)的一种方式。大多数generative A.I系统的核心都是LLM。它们是通过采用非常大的神经网络,即一种非常松散地基于人脑连接的人工智能并将它们应用于大量人类创建的文本而创建的。从这个设计中,LLM模型会学习基于任何给定上下文中任何一组单词将彼此相邻出现的统计可能性得出的复杂映射关系。这使得LLM能够执行大量的自然语言处理任务,包括从翻译到摘要再到写作。

OpenAI已经创建了世界上最强大的LLM之一。它被称为GPT-3,会使用超过1750亿个统计连接,这些连接使用了大约三分之二的互联网内容、所有维基百科内容和两个大型书籍数据集。但是OpenAI发现让GPT-3产生用户真正感兴趣的产出其实是个棘手需要解决的问题。在当时,一个团队有使用reinforcement learning的提议。即人工智能系统通过反复试验学习来完善模型的方式。该团队认为聊天机器人可能是这种方法的理想候选者,因为以人类使用者很容易上手这种方式,而AI也会很容易从对话中得到的反馈来改进。基于这样的考虑,2022年初该团队开始构建ChatGPT。

在一切准备就绪后,OpenAI让Beta测试人员使用ChatGPT。但根据OpenAI联合创始人兼现任总裁Greg Brockman的说法,这些Beta测试人员并没有像OpenAI希望的那样去接受它。因为人们不清楚他们应该与聊天机器人谈论什么,那么AI自然也得不到有质量的反馈。有一段时间,OpenAI甚至改变了方向,试图构建可以帮助特定领域专业人士的专家聊天机器人。但这项努力也遇到了问题,部分原因是OpenAI缺乏训练专家机器人的正确数据。最终OpenAI决定将使用简单粗暴的方法把ChatGPT直接开放给公众使用。这其实是个很大的赌注,“我承认我站在一边,因为我不知道这是否会奏效,”Brockman说。

“一鸣惊人”。聊天机器人的即时病毒式传播让OpenAI措手不及,OpenAI的首席技术官Mira Murati坚称“这绝对令人惊讶”。而在旧金山一个VC活动上,Altman说,他“本以为一切都会少一个数量级,他的意思是炒作少一个数量级。”

2022年10月25日,OpenAI首席技术官米拉·穆拉蒂参加《特雷弗·诺亚每日秀》。图片来源:COURTESY OF MATT WILSON/COMEDY CENTRAL'S “THE DAILY SHOW”

ChatGPT不是OpenAI唯一秘密武器。直到今日它的员工人数仅约为300人,它在人工智能的突破是在创建数据而不是简化分析方面,。DALL-E 2是OpenAI的另一项创作,它允许用户通过键入几个词来创建他们可以想象的任何事物的逼真图像。该系统现在已被其他人效仿,包括Midjourney和一个名为Stability AI的开源竞争对手。(所有这些图像生成器都有缺点,最显著的是它们倾向于放大训练数据的偏差)。而通过在计算机代码上微调GPT LLM,OpenAI还创建了Codex,一个自动编写代码的代码系统,程序员只需用简单的语言指定他们想要代码做什么即可。(译者注:20年前的C++模版元编程终于实现了!)

更多的创新在等待发布中。OpenAI在beta测试中有一个更强大的LLM,称为GPT-4,预计将在今年发布。Altman还表示,该公司正在开发一种可以根据文本描述生成视频的系统。与此同时,在1月中旬,OpenAI表示打算发布ChatGPT的商业版本,并宣布了一个等待名单,供潜在客户通过一个界面注册付费访问该机器人,从而使他们能够更轻松地集成它到他们自己的产品和服务中。