全球爆红的ChatGPT是如何诞生的？（下）_《架构师》2023年2月-QQ阅读男生玄幻网

书名：《架构师》2023年2月
作者名：InfoQ中文站
本章字数：3784字
更新时间：2024-04-15 14:47:58

全球爆红的ChatGPT是如何诞生的？（下）

本文翻译自Jermy Kahn 1月25号发表于fortune的长文，译文共分为上中下三篇，这是最后一篇，译文最初发布于微信公众号“身是眼中人”，InfoQ经授权转载。

原文标题是<The inside story of ChatGPT: How OpenAI founder Sam Altman built the world's hottest technology with billions from Microsoft>，副标题是"The A.I. future, according to Altman, could be spectacular—unless it goes spectacularly wrong. Why Big Tech giants and business leaders everywhere are losing sleep over generative A.I."

原文链接在此：https://fortune.com/longform/chatgpt-openai-sam-altman-microsoft/，推荐大家阅读原文。

OpenAI也开始变得不那么开放了。由于担心其技术可能被滥用，它已经开始放弃开源所有研究成果和代码的承诺。但据前员工称，这一转变也包括商业动机起的作用。通过并仅通过API提供其高级模型，OpenAI保护了其知识产权和营收收入。“[Altman]和[Brockman]对‘AI安全’口头上说了很多，但这通常看起来只是解决商业营收问题的遮羞布。而实际合法的AI安全问题却被置之不理，”另一位OpenAI前任员工说。这位前员工同时引用了OpenAI迅速推翻限制访问DALL-E 2决定的真实目的，是因为担心一旦Midjourney和Stability AI被滥用反而变成其潜在的竞争对手。（OpenAI曾经表示，只有在仔细Beta测试后并对安全系统充满信心后，它才允许更广泛地使用DALL-E 2）。而根据另一些前雇员的说法，这些战略和文化转变让十几名OpenAI研究人员在2021年与公司分道扬镳，成立了自己的研究实验室，名为Anthropic。而这其中大部风人从事人工智能安全方面的研究工作。

OpenAI表示它继续发表比其他人工智能实验室更多的研究成果，用来掩盖其转型商业产品的转变。首席技术官Murati说：“你不能只呆在实验室里就可以构建AGI。”她说，发布产品是发现人们想要如何使用和防止滥用的唯一途径。她说，OpenAI其实一开始不知道GPT-3最流行的应用程序之一是编写软件代码，直到看到人们用它编写代码。同样，OpenAI最担心的是人们会使用GPT-3来制造政治虚假信息。但现在看来这种恐惧被证明是没有根据的。相反她认为，现阶段最普遍的恶意使用是人们用GPT-3制造广告垃圾邮件。最后，Murati表示，OpenAI希望将其技术推向世界，以“将真正强大的技术可能对社会造成的冲击降到最低。”她认为，如果不让人们知道未来可能会发生什么，人工智能对社会的破坏将会变得更糟。

Sutskever承认OpenAI与微软的关系创造了一种新的期望，“即我们确实需要用OpenAI的技术制造出某种有用可以产生营收的产品”，但他坚称OpenAI文化的核心没有改变。他表示可以访问Microsoft数据中心对OpenAI的进步至关重要。同时Brockman还辩称这种合作关系让OpenAI能够产生营收，同时保持商业开销上的高性价比。“雇用数千名销售人员实际上会改变这家公司的面貌，而拥有一个已经这样做过的合作伙伴（微软）实际上是非常划算的。”（译者注：开源社区最后都面临挣钱的问题，公有云厂商白嫖社区技术在每个开源产品IPO后都得来一次。OpenAI觉得算了还是先找个大腿吧）

Sutskever同时也断然否认OpenAI不再强调安全性的暗示：“我会说恰恰相反。”Sutskever说，在Anthropic分裂之前，AI安全“局限于一个团队”，但现在是每个团队的责任。“安全标准不断提高。我们正在进行的安全工作量不断增加。”

“The amount of safety work we are doing keeps increasing.”

ILYA SUTSKEVER, RESEARCHER, OPENAI

然而批评者说到，OpenAI以产品为导向策略对于研究AGI是不负责任的。因为这相当于给人们分发上了膛的枪，而给出的理由是这是确定他们是否真的会互相射击的最佳方式。

纽约大学认知科学名誉教授Gary Marcus对以深度学习为中心的AI方法持怀疑态度，他认为生成式AI对“社会结构构成了真实而迫在眉睫的威胁”。他说，通过将生产虚假信息的成本降低到几乎为零，像GPT-3和ChatGPT这样的系统可能会引发一波虚假信息的浪潮。Marcus认为我们甚至已经看到了第一批受害者。Stack Overflow是一个程序员提出和回答编程问题的网站，它已经不得不禁止用户提交由ChatGPT制作的答案，因为该网站被看似合理但错误的答案淹没了。与此同时，科技新闻网站CNET开始使用ChatGPT生成新闻文章，但后来发现许多文章由于事实不准确而不得不更正撤下。

对于其他人来说，ChatGPT编写准确的代码才是真正的风险。网络安全公司Check Point的研究副总裁Maya Horowitz表示，她的团队能够让ChatGPT编写网络攻击的每个阶段，包括制作令人信服的网络钓鱼电子邮件到编写恶意代码再到规避常见的网络安全检查的各种危险操作。ChatGPT基本上可以让零编码技能的人成为网络罪犯，她警告说：“我担心会出现越来越多的攻击。”OpenAI的Murati表示，该公司也有同样的担忧，并且正在研究“调整”其AI模型的方法，这样它们就不会编写恶意软件但至今没有发现简单的解决办法。

无数评论家和教育工作者谴责学生可以轻松地使用ChatGPT作弊。纽约市、巴尔的摩和洛杉矶的学区都阻止了学校管理的网络访问聊天机器人，澳大利亚的一些大学表示他们将恢复仅使用监考人员的纸质考试来评估学生。（OpenAI正在研究使AI生成的文本更易于检测的方法，包括可能向ChatGPT的输出添加数字“水印”。）

2022年，ChatGPT最初的开发方式也存在伦理问题。作为该模型训练过程的一部分，OpenAI聘请了一家数据标记公司，该公司使用肯尼亚的低薪工人来识别涉及有毒语言和图形性暴力内容的段落。结果，其中一些工人报告了心理健康问题。OpenAI在一份声明中告诉时代周刊，此类数据标记是“最大限度地减少训练数据中包含的暴力和色情内容的数量以及创建可以检测有害内容的工具的必要步骤。”

位于伦敦的人工智能公司Faculty的创始人兼首席执行官Marc Warner的观点是，免费提供ChatGPT使OpenAI能够收集大量反馈以帮助改进未来的版本。但还远不能确定OpenAI将保持其在语言AI领域的主导地位。例如现在已无处不在人脸和图像识别技术最初是由谷歌和英伟达等科技巨头开发的。

法院和监管机构还可以挥舞起监管的大棒，插进生成人工智能所依赖的数据集当中。在加利福尼亚州联邦法院提起的一项价值90亿美元的集体诉讼可能对该领域产生深远影响。该案的原告指责微软和OpenAI GitHub Copilot 使用托管在Github上代码进行训练，但并未给代码的原作者给予补偿。这违反了开源许可条款。微软和OpenAI拒绝就此诉讼发表评论。

人工智能专家表示如果法院支持原告，它可能会破坏generative A.I的繁荣前景，因为大多数生成模型都是在未经许可或无偿的情况下从互联网上收集的材料进行训练的。代表这些原告的同一家律师事务所最近对Stability AI和Midjourney提起了类似的诉讼，指控他们未经许可在其训练数据中使用受版权保护的艺术作品。图片机构Getty Images也对Stability AI提起了自己的版权侵权诉讼。正如一些欧盟立法者正在考虑的那样，如果立法者通过规则赋予创作者选择不将其内容用于人工智能培训的权利，则可能会变成另外一个不利于generative A.I的大问题。（译者注：接受一个新的有危险的技术，“如烹小鲜”）

与此同时OpenAI的竞争对手并没有停滞不前。据《纽约时报》报道，可能失去在搜索领域的主导地位的前景促使谷歌的高管们宣布了“code red”。据该报报道，谷歌CEO Sundar Pichai已召开会议重新定义公司的AI战略，并计划在年内发布20款支持AI的新产品，并展示用于搜索的聊天界面。谷歌拥有自己强大的聊天机器人，称为LaMDA。但谷歌一直犹豫是否要发布因为担心如果它最终被滥用会损害声誉。现在该公司在ChatGPT的鼓舞下计划重新调整LaMDA发布计划。据Times报道，谷歌还在开发文本到图像生成系统，以与OpenAI的DALL-E和其他系统竞争。

当然尚不清楚聊天机器人是否会成为搜索的未来。ChatGPT经常杜撰信息，AI研究人员称之为“幻觉”。它不能可靠地引用其来源或轻易地显示链接。当前版本无法访问互联网，因此无法提供最新信息。以Marcus教授为代表的一些人认为幻觉和偏见是LLM的根本问题，需要从根本上重新考虑他们的设计。“这些系统预测句子中的单词序列，就像类固醇的自动完成一样，”他说，“但他们实际上并没有适当的机制来追踪他们所说的话的真实性，甚至无法验证他们所说的话是否与他们自己的训练数据一致。”

“These systems predict sequences of words in sentences, like autocomplete on steroids.But they don’t actually have mechanisms in place to track the truth of what they say.”

GARY MARCUS, PROFESSOR EMERITUS OF COGNITIVE SCIENCE, NEW YORK UNIVERSITY

其他人，包括OpenAI投资者Hoffman和Vinod Khosla，预测这些问题将在一年内得到解决。Murati更为谨慎。“到目前为止，我们一直在关注一些研究方向，以解决事实的准确性和模型的可靠性等问题。我们会继续追寻这个研究方向，”她说道。

事实上OpenAI已经发布了关于不同版本GPT的研究，称为WebGPT，它能够通过查询搜索引擎回答问题，然后总结它找到的信息，包括相关来源的脚注。尽管如此，WebGPT并不完美：它倾向于接受用户问题的前提并寻找确认信息，即使前提是错误的。例如，当被问及希望某事是否可以实现时，WebGPT回答说：“的确，你可以通过思想的力量实现愿望。”

只在极少数情况下，Altman会让自己在公共场合狂热地谈论人工智能，此时的他听起来和他的想法合二为一。在旧金山VC活动上被问及关于AI的最佳案例时，他滔滔不绝地说道，“我认为最好的案例好的不像真实案例……以至于你听起来像个疯子在说话。”然后他突然回到OpenAI根源的反乌托邦主题：“我认为最坏的情况是对于人类来说，我们被熄灯了（意指被AI取代）。”（译者注：潘多拉的盒子我们都打开过了，so没有回头路啊）

OpenAI名人录

OpenAI在其早期投资者和非营利基金会的董事会中拥有一批技术界明星人物。OpenAI的章程赋予该委员会对其知识产权的最终控制权。