连线内幕：8 名 Google 员工发明了现代人工智能

::: {#0359 .section .section .section—body .section—first .section—last} ::: section-divider

:::

::: section-content ::: {.section-inner .sectionLayout—insetColumn}

连线内幕：8 名 Google 员工发明了现代人工智能 {#f24a .graf .graf—h3 .graf—leading .graf—title name=“f24a”}

八人的名字被列为2017年春季撰写的科学论文《注意力是你所需要的一切》（Attention Is All You Need）的作者。他们都是谷歌的研究人员，尽管当时有一个人已经离开了公司。当最资深的贡献者Noam Shazeer看到早期的草稿时，他惊讶地发现自己的名字出现在第一位，这表明他的贡献是最重要的。“我没有考虑过，“他说。

弄清楚如何列出名字总是一个微妙的平衡行为 --- --- 谁获得了梦寐以求的领先位置，谁被分流到后面。特别是在像这样的案例中，每个参与者在真正的团队努力中都留下了独特的印记。当研究人员匆匆忙忙地完成他们的论文时，他们最终决定”破坏”对贡献者进行排名的惯例。他们在每个名字上都加了一个星号和一个脚注：“平等的贡献者，“上面写着。列表顺序是随机的。作者们在截止日期前将这篇论文送到了一个著名的人工智能会议上，并掀起了一场革命。

在接近七周年之际，《注意力》论文已经获得了传奇般的地位。作者从一种蓬勃发展和改进的技术开始 --- --- 各种称为神经网络的人工智能 --- --- 并将其发展成另一种东西：一个如此强大的数字系统，其输出感觉就像是外星智能的产物。这种架构被称为transformers，是所有这些令人兴奋的人工智能产品背后的秘密武器，包括 ChatGPT 和 Dall-E 和 Midjourney 等图形生成器。Noam Shazeer现在开玩笑说，如果他知道这篇论文会变得多么有名，他”可能会更担心作者的顺序”。所有八位签名者现在都是微型名人。“有人问我自拍 --- --- 因为我在纸上！“Llion Jones说，他（当然是随机的）名字排在第五位。

“如果没有transformers，我认为我们现在不会在这里，“杰弗里·辛顿（Geoffrey Hinton）说，他不是作者之一，但可能是世界上最杰出的人工智能科学家。他指的是我们所处的翻天覆地的变化时代，因为OpenAI和其他公司构建的系统可以与人类产出相媲美，在某些情况下甚至超过人类产出。

此后，所有八位作者都离开了谷歌。像其他数百万人一样，他们现在正在以某种方式使用由他们在 2017 年创建的系统提供支持的系统。我和transformers八号谈过，拼凑出一个突破的解剖结构，一个人类思想的集合，创造出一台机器，很可能为自己保存最后的决定权。

变形金刚的故事从八个名字中的第四个开始： Jakob Uszkoreit。

图为Jakob Uszkoreit（左）和Illia Polosukhin（右）

Uszkoreit 是著名计算语言学家 Hans Uszkoreit 的儿子。1960 年代后期，作为一名高中生，Hans因抗议苏联入侵捷克斯洛伐克而在他的家乡东德被监禁了 15 个月。获释后，他逃到西德，在柏林学习计算机和语言学。Jakob出生时，他前往美国，在加利福尼亚州门洛帕克的一家研究机构SRI的人工智能实验室工作。一家人最终回到了德国，Jakob在那里上了大学。他并不打算专注于语言，但在他开始攻读研究生时，他在谷歌的山景城办公室实习，在那里他进入了公司的翻译小组。2012年，他放弃了博士计划，决定加入谷歌的一个团队，该团队正在开发一个系统，该系统可以在搜索页面上回答用户的问题，而无需将他们转移到其他网站。苹果刚刚宣布了Siri，这是一款虚拟助手，承诺在随意的对话中提供一次性答案，谷歌高层嗅到了巨大的竞争威胁：Siri可能会吞噬他们的搜索流量。他们开始更加关注Uszkoreit的新团队。

“这是一种虚假的恐慌，“Uszkoreit说。Siri从未真正威胁过谷歌。但他很高兴有机会深入研究计算机可以与我们进行某种对话的系统。当时，循环神经网络 --- --- 曾经是学术上的死水 --- --- 突然开始超越其他人工智能工程方法。网络由许多层组成，信息通过这些层传递和重新传递，以确定最佳响应。神经网络在图像识别等领域取得了巨大的胜利，人工智能的复兴突然开始了。谷歌正在疯狂地重新安排其员工队伍以采用这些技术。该公司希望系统能够生成类似人类的响应，以自动完成电子邮件中的句子或创建相对简单的客户服务聊天机器人。

但该领域遇到了局限性。**递归神经网络（Recurrent neural networks）**难以解析较长的文本块。举个例子，乔是一名棒球运动员，吃完丰盛的早餐后，他去了公园，被击中了两次。为了理解”两次击球”，语言模型必须记住关于棒球的部分。从人类的角度来看，它必须引起注意。公认的解决方法是所谓的”长短期记忆”（LSTM），这是一项创新，允许语言模型处理更大、更复杂的文本序列。但计算机仍然严格按顺序处理这些序列 --- --- 一个字一个字地处理 --- --- 并且错过了后面可能出现在段落中的上下文线索。“我们应用的方法基本上是创可贴，“Uszkoreit说。“我们无法获得真正大规模工作的正确材料。”

大约在2014年，他开始炮制一种不同的方法，他称之为自我关注（self-attention）。这种网络可以通过引用段落的任何其他部分来翻译单词。这些其他部分可以阐明单词的意图，并帮助系统产生良好的翻译。“它实际上考虑了一切，并为您提供了一种有效的方式，可以同时查看许多输入，然后以一种非常有选择性的方式取出某些内容，“他说。尽管人工智能科学家小心翼翼地避免将神经网络的隐喻与生物大脑的实际工作方式混淆，但Uszkoreit似乎确实认为自我注意力与人类处理语言的方式有些相似。

Uszkoreit认为，自我注意力模型可能比递归神经网络更快、更有效。它处理信息的方式也非常适合为支持机器学习热潮而大量生产的强大并行处理芯片。它不是使用线性方法（按顺序查看每个单词），而是采用更平行的方法（将一堆单词放在一起查看）。Uszkoreit怀疑，如果做得好，你可以只使用自我注意力来获得更好的结果。

并不是每个人都认为这个想法会震撼世界，包括Uszkoreit的父亲，他在儿子为公司工作时获得了两项谷歌学院研究奖。“人们扬起了眉毛，因为它抛弃了所有现有的神经结构，“Jakob Uszkoreit说。告别递归神经网络？异端！“从我和父亲在餐桌上的谈话来看，我们不一定意见一致。

Uszkoreit说服了几位同事进行自我注意的实验。他们的工作显示出希望，并在2016年发表了一篇关于它的论文。Uszkoreit希望进一步推动他们的研究 --- 该团队的实验只使用了一小部分文本 --- 但他的合作者都不感兴趣。相反，就像那些带着微薄的奖金离开赌场的赌徒一样，他们去应用他们所学到的教训。“这个东西奏效了，“他说。“那篇论文上的人对获得回报并将其部署在谷歌的各种不同地方感到兴奋，包括搜索，最终是广告。这在很多方面都取得了惊人的成功，但我不想把它留在那里。

Uszkoreit认为，自我关注可以承担更大的任务。还有另一种方法可以做到这一点，他会向任何愿意倾听的人和一些不愿意倾听的人争论，在1945号大楼的白板上勾勒出他的愿景，该大楼以其位于谷歌园区北部边缘查尔斯顿路的地址命名。

2016年的一天，Uszkoreit在谷歌咖啡馆与一位名叫Illia Polosukhin的科学家共进午餐。Polosukhin出生于乌克兰，在谷歌工作了近三年。他被分配到团队，为搜索领域提出的直接问题提供答案。事情进展得并不顺利。“要回答 Google.com 的问题，你需要一些非常便宜和高性能的东西，“Polosukhin说。“因为你有毫秒”来回应。当Polosukhin提出他的抱怨时，Uszkoreit毫不犹豫地提出了补救措施。“他建议，为什么不使用自我关注呢？“Polosukhin说。

Polosukhin 有时与一位名叫 Ashish Vaswani 的同事合作。他出生于印度，主要在中东长大，曾前往南加州大学（University of Southern California）攻读博士学位，并在该校的精英机器翻译团队工作。之后，他搬到了山景城，加入了谷歌 --- --- 特别是一个名为谷歌大脑（Google Brain）的新组织。他将Brain描述为”一个激进的团体”，他们相信”神经网络将促进人类的理解”。但他仍然在寻找一个大项目来做。他的团队在 Polosukhin 语言团队隔壁的 Building 1965 工作，他听说了自我关注的想法。那会是这个项目吗？他同意为此工作。

这三位研究人员一起起草了一份名为”Transformers：各种任务的迭代自我注意力和处理”（Transformers: Iterative Self-Attention and Processing for Various Tasks）的设计文档。他们从”day zero”中选择了”Transformers”这个名字，Uszkoreit说。这个想法是，这种机制将改变它所吸收的信息，使系统能够提取尽可能多的理解，或者至少给人一种错觉。此外，Uszkoreit 对玩孩之宝可动人偶有着美好的童年回忆。“我很小的时候就有两个变形金刚小玩具，“他说。该文档以一张卡通图像结束，六个变形金刚在山区地形中，互相发射激光。

在论文开头的那句话中也有一些招摇：“我们很棒。

2017年初，Polosukhin离开谷歌，创办了自己的公司。到那时，新的合作者正在加入。一位名叫Niki Parmar的印度工程师移居美国后，一直在印度的一家美国软件公司工作。她于 2015 年获得南加州大学硕士学位，并被所有大型科技公司聘用。她选择了谷歌。刚开始的时候，她加入了Uszkoreit，并致力于模型变体，以改进谷歌搜索。

另一位新成员是 Llion Jones。他在威尔士出生和长大，喜欢电脑，“因为它不正常”。在伯明翰大学，他选修了一门人工智能课程，并对神经网络产生了好奇，这被认为是一种历史好奇心。他于2009年7月获得硕士学位，在经济衰退期间找不到工作，靠救济金生活了几个月。他在当地一家公司找到了一份工作，然后以”冰雹玛丽”（hail Mary）的身份向谷歌申请。他得到了这份工作，并最终进入了谷歌研究院，他的经理是Polosukhin。有一天，Jones从一位名叫Mat Kelcey的同事那里听说了自我关注的概念，后来他加入了transformer团队。

Transformer的工作吸引了其他Google Brain研究人员，他们也在尝试改进大型语言模型。第三波浪潮包括波兰出生的理论计算机科学家Łukasz Kaiser和他的实习生Aidan Gomez。Gomez在加拿大安大略省的一个小村庄长大，他的家人每年春天都会在那里采摘枫树来制作糖浆。在多伦多大学读大三时，他”爱上”了人工智能，并加入了机器学习小组 --- --- Geoffrey Hinton的实验室。他开始联系谷歌的人，他们写过有趣的论文，提出扩展他们工作的想法。Kaiser上钩了，邀请他去实习。直到几个月后，Gomez才知道这些实习是为博士生准备的，而不是像他这样的本科生。

Kaiser 和 Gomez 很快明白，自我关注似乎是解决他们正在解决的问题的一个有希望的、更激进的解决方案。“我们深思熟虑地讨论了是否要合并这两个项目，“Gomez说。答案是肯定的。

transformer的工作人员着手建立一个自我注意力模型，将文本从一种语言翻译成另一种语言。他们使用一种名为BLEU的基准测试来衡量其性能，该基准将机器的输出与人工翻译的工作进行比较。从一开始，他们的新模型就做得很好。“我们已经从没有概念证明到拥有至少与当时 LSTM 的最佳替代方法相当的东西，“Uszkoreit 说。但与长期的短期记忆相比，“它并没有更好”。

他们一直处于高原状态，直到 2017 年的一天，Noam Shazeer 偶然听说了他们的项目。Shazeer 是一位资深的 Google 员工 --- --- 他于 2000 年加入公司 --- --- 也是一位内部传奇人物，从他在公司早期广告系统的工作开始。Shazeer 从事深度学习工作已有五年，最近对大型语言模型产生了兴趣。但这些模型远未产生他认为可能的流畅对话。

据Shazeer回忆，他正走在1965号楼的走廊上，经过Kaiser的工作空间。他发现自己在听一场热情洋溢的谈话。“我记得Ashish谈到了使用自我注意力的想法，Niki对此感到非常兴奋。我想，哇，这听起来是个好主意。这看起来像是一群有趣、聪明的人在做一些有前途的事情。Shazeer发现现有的循环神经网络”令人恼火”，并认为：“让我们去替换它们吧！

Shazeer的加入至关重要。“这些理论或直觉机制，比如自我关注，总是需要非常仔细的实施，通常由少数有经验的’魔术师’实施，甚至显示出任何生命迹象，“Uszkoreit说。Shazeer立即开始施展他的巫术。他决定编写自己版本的transformer团队代码。“我采纳了基本的想法，然后自己编造了这个东西，“他说。他偶尔会问Kaiser一些问题，但大多数情况下，他说，他”只是行动了一段时间，然后回来说，‘看，它有效’。使用团队成员后来用”魔法”、“炼金术”和”花里胡哨”等词来形容的话，他将系统提升到了一个新的水平。

“这启动了冲刺，“Gomez说。他们很有动力，他们也想赶上即将到来的截止日期 --- --- 5月19日，这是今年最大的人工智能活动 --- --- 12月的神经信息处理系统会议的论文提交日期。随着硅谷的冬天转移到春天，实验的步伐加快了。他们测试了两种型号的transformers：一种是经过12个小时的训练生产的，另一种是更强大的版本，称为Big，经过三天半的训练。他们让他们从事英语到德语的翻译工作。

基本模型的表现优于所有竞争对手，Big 获得了 BLEU 分数，决定性地打破了以前的记录，同时计算效率也更高。“我们比任何人都用更短的时间完成了这项工作，“Parmar 说。“而这仅仅是个开始，因为这个数字还在不断提高。“当Uszkoreit听到这句话时，他掏出了他躺在山地探险卡车上的一瓶旧香槟。

截止日期前的最后两周是疯狂的。虽然正式的团队中的一些人仍然在1945号楼有办公桌，但他们大多在1965号楼工作，因为它的微型厨房里有一台更好的浓缩咖啡机。“人们没有睡觉，“Gomez说，作为实习生，他生活在不断的调试狂潮中，还为论文制作了一些图表。在此类项目中，进行消融是很常见的 --- --- 把东西拿出来，看看剩下的东西是否足以完成工作。

“有各种可能的技巧和模块组合 --- --- 哪一个有帮助，哪个没有帮助。让我们把它撕掉。让我们用这个代替它，“Gomez说。“为什么模型会以这种违反直觉的方式运行？哦，这是因为我们没有记住正确地进行遮罩。它起作用了吗？好的，继续下一个。我们现在所说的transformer的所有这些组件都是这种极快节奏的迭代试验和错误的结果。Jones说，在Shazeer的实现的帮助下，消融产生了”极简主义的东西”。“Noam是个巫师。”

Vaswani回忆说，有一天晚上，当团队写这篇论文时，他摔倒在办公室的沙发上。当他盯着将沙发与房间其他部分隔开的窗帘时，他被织物上的图案所震撼，在他看来，这些图案就像突触和神经元。Gomez当时在场，Vaswani告诉他，他们正在研究的东西将超越机器翻译。“归根结底，就像人脑一样，你需要将所有这些模式 --- --- 语音、音频、视觉 --- --- 统一在一个架构下，“他说。“我有一种强烈的预感，我们正在做一些更普遍的事情。”

然而，在谷歌的高层，这项工作被视为另一个有趣的人工智能项目。我问了几位transformers的人，他们的老板有没有叫过他们来了解这个项目的最新情况。没有那么多。但”我们知道这可能是一件大事，“Uszkoreit说。“这导致我们实际上沉迷于论文结尾的一句话，在那里我们评论了未来的工作。

这句话预示了接下来可能发生的事情 --- --- 将transformer模型应用于几乎所有形式的人类表达。“我们对基于注意力的模型的未来感到兴奋，“他们写道。“我们计划将transformers扩展到涉及文本以外的输入和输出模式的问题”，并研究”图像、音频和视频”。

在截止日期前的几个晚上，Uszkoreit意识到他们需要一个冠军头衔。Jones 指出，该团队从根本上拒绝了公认的最佳实践，尤其是 LSTM，只支持一种技术：注意力（attention）。Jones回忆说，披头士乐队曾将一首歌命名为”All You Need Is Love”。为什么不把这篇论文称为”注意力是你所需要的一切”（Attention Is All You Need）呢？

披头士乐队？

“我是英国人，“Jones说。“这真的花了五秒钟的思考时间。我不认为他们会使用它。

他们继续收集实验结果，直到截止日期。“英语和法语的数字在我们提交论文前五分钟就出现了，“Parmar说。“1965号楼，我坐在微型厨房里，把最后一个号码放进去。只剩下不到两分钟的时间，他们就把论文投走了。

与几乎所有科技公司一样，谷歌迅速为这项工作申请了临时专利。原因不是为了阻止其他人使用这些想法，而是为了防御目的而建立其专利组合。（该公司的理念是”如果技术进步，谷歌将获得收益”。

当transformer工作人员收到会议同行评审员的回复时，反应是喜忧参半的。“一个是积极的，一个是非常积极的，一个是，‘这没关系，‘“Parmar说。这篇论文被接受参加一个晚间海报会议。

到了12月，这篇论文引起了轰动。他们在 12 月 6 日进行了四个小时的会议，挤满了想要了解更多信息的科学家。作者一直说到声音嘶哑。到晚上10点30分，当会议结束时，仍然有一群人。“保安不得不叫我们离开，“Uszkoreit说。也许对他来说最令人满意的时刻是计算机科学家Sepp Hochreiter站出来称赞这项工作 --- --- 考虑到Hochreiter是长短期记忆的共同发明者，这是一个相当大的赞美，而Transformers刚刚启动了长短期记忆作为AI工具包中的首选锤子。

Transformers并没有立即接管世界，甚至没有接管谷歌。Kaiser回忆说，在论文发表前后，Shazeer向谷歌高管提议，该公司放弃整个搜索索引，并用Transformer训练一个庞大的网络 --- --- 基本上是为了改变谷歌组织信息的方式。在这一点上，即使是Kaiser也认为这个想法很荒谬。现在，传统观点认为这只是时间问题。

一家名为OpenAI的创业公司扑上来的速度要快得多。这篇论文发表后不久，OpenAI的首席研究员Ilya Sutskever在谷歌工作期间就认识了Transformer团队，他建议其科学家之一Alec Radford研究这个想法。结果是第一批 GPT 产品。正如OpenAI首席执行官**山姆·奥特曼（Sam Altman）**去年告诉我的那样，“当Transformer论文问世时，我认为谷歌的任何人都没有意识到这意味着什么。

内部的情况更加复杂。“对我们来说，很明显，Transformer可以做非常神奇的事情，“Uszkoreit说。“现在，你可能会问一个问题，为什么谷歌在 2018 年没有 ChatGPT？实际上，我们可能在 2019 年，也许是 2020 年拥有 GPT-3.5 甚至 3.5。最大的问题不是，他们看到了吗？问题是，为什么我们没有对我们已经看到它的事实做任何事情？答案很棘手。

许多科技评论家指出，谷歌正在从以创新为中心的游乐场转变为以底线为中心的官僚机构。正如Gomez告诉英国《金融时报》的那样，“他们没有现代化。他们没有采用这项技术。但对于一家技术引领行业并几十年来获得巨额利润的巨头公司来说，这需要很大的勇气。谷歌确实在 2018 年开始将 transformers 集成到产品中，从其翻译工具开始。也是在那一年，它推出了一种新的基于Transformer的语言模型，称为BERT，并在第二年开始应用于搜索。

但与OpenAI的量子飞跃和Microsoft大胆地将基于Transformer的系统集成到其产品线中相比，这些底层的变化似乎有些胆怯。去年，当我问首席执行官**桑达尔·皮查伊（Sundar Pichai）**为什么他的公司不率先推出像ChatGPT这样的大型语言模型时，他认为在这种情况下，谷歌发现让其他人领导是有利的。“我并不完全清楚它是否也成功了。事实是，在人们看到它是如何运作的之后，我们可以做更多的事情，“他说。

不可否认的事实是，这篇论文的八位作者都离开了谷歌。Polosukhin的公司Near建立了一个区块链，其代币的市值约为40亿美元。Parmar 和 Vaswani 于 2021 年作为商业伙伴结成合作伙伴，创办了 Adept（估计估值 10 亿美元），现在是他们的第二家公司 Essential AI（800 万美元的融资）。Llion Jones 位于东京的 Sakana AI 估值 2 亿美元。Shazeer 于 2021 年 10 月离职，他与他人共同创立了 Character AI（估计估值为 50 亿美元）。该小组的实习生Aidan Gomez于2019年在多伦多共同创立了Cohere（估计估值为22亿美元）。Jakob Uszkoreit的生物技术公司Inceptive估值为3亿美元。所有这些公司（Near除外）都基于transformers技术。

Kaiser是唯一一个没有创立过公司的人。他加入了OpenAI，是名为Q*的新技术的发明者之一，奥特曼去年表示，这项技术将”将无知的面纱推回去，将发现的前沿向前推”。（当我在采访中试图就此向 Kaiser 提问时，OpenAI 公关人员几乎跳到桌子对面让他闭嘴。

谷歌会想念这些逃亡者吗？当然，除了其他从公司迁移到新的人工智能初创公司的人之外。（皮查伊提醒我，当我问他关于transformers离开的问题时，行业宠儿OpenAI也看到了叛逃：“人工智能领域非常非常动态，“他说。但谷歌可以吹嘘，它创造了一个支持追求非常规想法的环境。“在很多方面，谷歌都遥遥领先 --- --- 他们投资于正确的头脑，并创造了我们可以探索和挑战极限的环境，“Parmar说。“采用它需要时间并不疯狂。谷歌面临的风险远不止于此。

没有这种环境：没有transformers。作者不仅都是谷歌员工，而且他们也在同一间办公室工作。走廊上的相遇和无意中听到的午餐谈话导致了重要的时刻。该群体在文化上也是多元化的。八位作者中有六位出生在美国境外;另外两人分别是两名暂时在加利福尼亚的持有绿卡的德国人和一名第一代美国人的孩子，他们的家人逃离了迫害。

Uszkoreit在柏林的办公室发表讲话说，创新就是要有合适的条件。“它让那些对某事感到非常兴奋的人正处于他们生命中的正确时刻，“他说。“如果你拥有它，并在你做这件事时玩得开心，并且你正在解决正确的问题 --- --- 而且你很幸运 --- --- 奇迹就会发生。

Uszkoreit 和他著名的父亲之间也发生了一些神奇的事情。据他的儿子Hans Uszkoreit报道，在经历了所有这些餐桌辩论之后，他现在已经与他人共同创立了一家正在构建大型语言模型的公司。当然，使用transformers。

8 Google Employees Invented Modern AI. Here’s the Inside Story ::: ::: :::