黄仁勋对话 Transformer 八子：大模型的_im电竞官网注册

im电竞 | im电竞平台官网 | 网站导航 | 中文版 | ENGLISH

产品中心

Products

安全系统零部件

当前位置：首页 > 产品中心 > 安全系统零部件

名称：黄仁勋对话 Transformer 八子：大模型的

发布时间：2024-05-18 02:52:15 来源：IM电竞官网注册作者：im电竞平台官网

说明：

　　随着新一波 AI 浪潮席卷而来，英伟达突破 2 万亿美元市值成为最炙手可热的科技公司，今年 GTC 大会俨然成为年度最受关注的科技行业盛会。

　　四天的数百场主题分享中，英伟达创始人黄仁勋和 Transformer 八子的对谈，无疑是最受关注的场次之一。因为某种意义上，双方正是这波 AI 浪潮的奠基人。

　　谷歌大脑团队 2017 年发表了一篇名为《注意力就是你所需要的一切（Attention is all you need）》的论文，主要目的是解决自然语言处理领域，使用传统的 RNN（循环神经网络）模型不能解决并行计算，从而导致算法效率低下的问题。

　　这篇文章提出的新的处理架构就是 Transformer 模型，也是今天大模型的基石，而当时这篇文章的八位联名作者今天也被称为 Transformer 八子。几年后八子陆续离开谷歌，今天已经成为 Essential AI、Character.AI 等硅谷重要 AI 公司的创始人或技术核心。

　　八子在文章中提出了可以解决并行计算问题的新架构，并预言了随着训练规模的提升 AI 会展现出更强大的智能。但这一切需要更庞大的算力支持，而过去十年一直投入研发 GPU 和加速计算的英伟达，则为八子的构想提供了算力这个最关键的燃料。

　　于是，就有了 GPT 的诞生以及今天日新月异加速发展的 AGI 浪潮。而在这样的一个时间节点上，黄仁勋和八子这些时拓者再次对话，也就有了更多看点。

　　计算机处理器诞生于我出生的第一年（与我出生无关）。IBM System 360 定义了现代计算机的范畴，包括中央处理单元、I/O 子系统、多任务处理、硬件与软件的分离、整个系列的兼容性以及向后兼容性，以保护软件工程师的投资。这个描述到 80 年代末、90 年代初，个人电脑将计算机推向了高速发展，使计算机变成了我们所熟知的形态。每年性能的边际成本下降，每 10 年计算成本降低约 10 倍。在过去的 20 年里，PC 使计算成本降低了 10,000 倍，比历史上任何其他商品都要多。你能想象 20 年后，生活中的一切都变得更加便宜，汽车的价格从 2 万美元降至 1 美元吗，也许是 Uber。

　　但计算成本的大幅下降停止了，虽然每年仍有略微的改进，但变化的速度已经放缓。我们开始追求加速计算，这并不容易，因为需要将问题公式化，转化为并行算法，这是一个非常困难的科学领域。我们相信，如果能够加速代表 99% 运行时间的 1% 代码，那么将获得巨大的好处，可以实现一些之前认为不可能的事情，或者将需要大量金钱或能量的事情变得更加成本效益和节能。

　　在公司历史的整个过程中，我们一直在研究加速计算，不断地加速应用领域。尽管人们认为我们是一家电脑游戏公司，但我们也在追求其他领域的加速计算。我们最初在计算机图形和游戏中找到了这种情况，这推动了技术的创新和市场的发展。2012 年，我们首次意识到人工智能与 Nvidia GPU 的潜力，引发了我们对这个领域的兴趣。

　　我们坚信，如果我们能够加速代表 99% 运行时间的 1% 代码，那么在某些应用领域，我们将获得巨大的好处，实现巨大的差异。

　　我们可以将一些不可能的事情变为可能，将需要花费大量金钱的事情变得具有成本效益，或者将需要消耗大量能量的事情变得更加节能。因此，我们将这一概念称为加速计算，并在公司历史的整个持续时间内不断进行研究。

　　我们可以在一个接一个的应用领域加速发展。尽管人们认为我们是一家电脑游戏公司，但我们也在其他领域不断追求进步。我们认识到计算机图形和游戏的价值，因为它们不仅是庞大的市场，还推动了技术创新。这种罕见的情况是由从未被满足的庞大市场与技术的潜力交汇而成。我们最初在计算机图形和游戏中找到了这种情况，引发了我们对这个领域的兴趣。

　　几年后，一些惊人的事情发生了，导致了今天的局面。我将马上告诉你那件事。这一切导致了生成式人工智能的出现。现在，当你听到生成式人工智能时，当然会感到不可思议。

　　事实上，软件不仅可以识别一张猫的图片并保存猫，还可以根据「猫」这个词生成一张猫的图片。它可以根据一些条件提示，如在毛伊岛的阳光明媚的海岸上，站在冲浪板上，喝着麦芬酒，戴着滑雪帽，无论你添加什么样的提示，生成式人工智能都能够生成出来。我们已经开发出一种软件程序，能够理解像素的含义，识别像素，并从像素的含义中生成内容。这种能力具有深远的变革意义，促使了今天的局面。

　　这是新的工业的开端，我有充分的理由。在这个新的工业中，我们正在创造一些以前从未存在过的东西。就像以前的工业一样，最后一次，水进入工厂，能量被应用到水上。那个被称为发电机的装置开始运转，并创造出了我们今天所依赖的那些看不见但价值非凡的东西。

　　水进入建筑物，基本上是将其转化为能量，将其烧开，那么你会得到什么？你会得到电。这种电的魔力无处不在，它创造了我们所熟知的工业。

　　一种新的设施创造了一种新的、具有巨大价值的产品。虽然生成式人工智能是一种全新类型的软件，软件本质上也是需要被创造的。令人惊奇的计算机科学必须去塑造它。但在那之后，它就可以进行大规模生产了。一个装有我们称之为 GPU 的机器设备的建筑，本质上就是一个发电机，一个内部装有机器设备的大型建筑。

　　你给它原材料数据，你给它能量，然后这个惊人的东西就出现了。数字进去，数字出来，而出来的数字能够做出令人惊奇、难以置信的事情。

　　当然，它们可以被应用。它们可以用于医疗保健和药物设计，用于交通和降低汽车成本，以及用于制造业和工业，我们所熟知的每一个行业都将受益于这种新产品、这种新的生产物。因此，这是一个行业从未见过的全新产品。

　　它将在世界上从未见过的 AI 工厂和设施中进行生产，并且 AI 将被每个行业使用。你会怎么称呼这种情况呢？一个新的工业？这一切在此之前都不存在，但我们正在亲眼见证着未来十年的发展。你绝对不能错过接下来的这十年，会诞生令人难以置信的能力。这一切始于一些研究人员的努力。

　　首先，我要说他们实际上从未同时出现在同一个房间里。我知道在家工作这件事有点失控了。但显然，这并没有阻止创新和发明。我们将会讨论 Transformer 的重要性和意义，以及它不可思议的变革能力，对行业的影响。我们今天享受的一切都可以追溯到那一刻。我们能够从数据中学习，从庞大的数据序列中学习，以及空间数据，但是能够从大量数据中学习，找到关系和模式。创建这些庞大的模型真的是非常具有变革性的。

　　我们都同意，互相打断、互相反驳甚至站起来进行白板讨论并非不礼貌。我们需要一个白板，今天没有禁区。回到起点，工程师们，我们需要问题来激发灵感。

　　黄仁勋：你们当时面临的问题或挑战是什么，导致了这个想法的产生？Illia Polosukhin：因为那个时候，模型在处理时间方面是不够的。

　　黄仁勋：当时存在循环神经网络（RNNs）和具有注意力机制的 RNNs，但在一次读取一个词和一次读取一个词之间存在差异。

　　Jakob Uszkoreit：我们生成的训练数据比我们能够训练的最先进的架构要快得多。因此，实际上有相似的架构，只是使用了一些 n-grams 或其他特征，因为它们在训练上更快，这是规模的问题。大量的训练数据基本上总是超过了当时更先进、更强大的网络。我们意识到了这一点。因此，修复这个问题似乎是有价值的。

　　Noam Shazeer：早在 2015 年，我们就已经看到了这些缩放定律。你可以看到，让模型变得更大，它就变得更聪明。这个问题就像世界历史上最好的问题一样简单。你只需要预测下一个 token，而模型将会变得越来越聪明，能够执行数百万种不同的任务。我们的目标只是扩展它并使其更强大。

　　Ashish Vaswani：在攻读研究生期间，特别是在 Transformer 出现时，我不断被提醒两个教训。第一个是当时我在进行机器翻译方面的工作时，我意识到学习语言规则并不重要，因为梯度下降对于模型来说是一个更好的老师。第二个是我从苦涩的教训中明白，通用架构的可扩展性最终会获得成功。

　　今天的 token 是明天计算机行动的体现，它们开始模仿我们的活动，并自动化我们的工作。Transformer 自我注意，并使梯度下降变得更快。这是一种重复的主题，每次我们创建规则样本时都会体现。

　　Noam Shazeer：没错，这就是我们正在做的事情。所有的深度学习都是如此，我们正在构建一个形状类似 GPU 的 AI 模型，它的形状类似于超级计算机。

　　在这里，这就像是世界历史上最好的问题。它是如此简单。你只是在预测下一个 tokens，它将变得如此聪明，能够做出数百万种不同的事情，而你只是想要扩展它并使其变得更好。黄仁勋：现在，你们在解决什么问题？

　　Lukasz Kaiser：机器翻译。八年前，它看起来是如此困难，就像你不得不收集数据，也许会翻译，也许会有点错误。当时这是非常基础的水平。现在这些模型，你根本不需要任何数据。所以你只需学会翻译这种语言，那种语言。模型就能翻译了。

　　Llion Jones：酷，是我想出了这个标题。我们当时尝试做切除，扔掉模型的一部分，只是为了看看会变得多糟糕。令我们惊讶的是，它开始变得更好，甚至包括扔掉所有的卷积。那时我脑海中的想法是，我就是和我的脑子在一起工作。这就是标题的来源。

　　Jakob Uszkoreit：但它确实符合模型的功能，它实际上改变了它所操作的整个信号，而不是去处理逻辑。Llion Jones：我认为它成为一个如此通用的名称的原因是，在论文中，我们集中讨论了翻译，但我们绝对意识到我们实际上正在尝试创建一种非常通用的东西，它确实可以将任何东西转化为其他任何东西。我不认为我们预测到这将会有多么成功。

　　黄仁勋：当 Transformer 被用于图像时，这是一个相当令人惊讶的尝试。事实上，你们可以将图像分块并标记化每一部分。我认为这在架构上早就存在了。所以当我们构建张量到张量库时，我们发现这不仅仅是针对语言的。其中包含了图像、音频、文本的组件，以及输入和输出方面的内容。所以 Lukasz Kaiser 说他正在处理这些事情，我们现在开始看到的这些模态正在汇聚在一起，其实自始至终都是如此。

　　Aidan Gomez：这些想法在很早之前就已经存在了，这些想法一直在酝酿，花了一些时间。我们的目标是我们有所有这些学术数据集，它们从图像到文本，再从文本到图像，从音频到文本，从文本到文本。我们应该对所有内容进行训练。这个想法真正推动了模型进行扩展，以模拟网络。现在我们许多人都在做类似的事情。

　　Jakob Uszkoreit：我们可以将其称为生物软件，类似于计算机软件，它起初是一个程序，然后编译成可以在 GPU 上运行的形式。基本上，生物软件的生命始于对特定行为规范的需求，比如在细胞中生成大量特定蛋白质，然后通过深度学习将其转译成 RNA 分子。但实际上，一旦它们进入细胞，它们就会表现出这些行为。所以，这个概念不仅仅是将安全的英语翻译成计算机代码，而且涉及到药物的规范，即完全转化为实际的分子药物。

　　Jakob Uszkoreit：如果你必须对自然进行实验，你必须验证。有大量极其有价值的基因组数据可以下载，主要是因为它基本上仍然是公开的，是公共资助的。但实际上，你仍然需要数据，这些数据明确地解释了你试图模拟的现象。例如，针对某种产品，比如 mRNA 疫苗中的蛋白质表达，这确实是相当大的传输。

　　在帕洛阿尔。

im电竞

关于我们 | 联系我们 | 网站导航