
法)。我认为第一个产生影响的模型 BERT 于 2015 年问世,产生了非常大的影响。 2017年,推出了Transformer架构。五年后的 2022 年,当世界意识到人工智能的潜力时,“ChatGPT 时刻”发生了。一年后,发生了一件非常重要的事情。 ChatGPT 发布了第一个 o1 推理模型,并引入了“测试时间缩放”的概念。后备军。它不仅从一开始就训练和学习模型,而且在训练后通过强化学习训练模型学习新技能ng 阶段。现在还可以扩展测试时间。这本质上是“思考”的另一种表达方式,涉及实时思考。人工智能的每个阶段都需要大量的计算,计算规则不断扩展,大规模语言模型不断完善。 2. 开源革命:尖端模型和代理的激增 与此同时,另一个突破发生了。这个里程碑发生在2024年。代理系统开始出现。到2025年,它将无处不在,几乎遍布每个角落。推理、查找信息、调查和使用工具的能力。代理模型、未来规划和使用工具的结果模拟突然开始解决非常重要的问题。我最喜欢的代理模型之一称为 Cursor,它彻底改变了我们在 NVIDIA 内开发软件的方式。这是智能代理系统真正开始的地方。当然,还有其他类型的人工智能。我们知道大语言模式ls 不是唯一的信息类型。只要宇宙中有信息,只要有结构,您就可以使用语言模型来理解信息、理解表示并转换为 IA。 IA 是最重要的一环,它是 IA 中最重要的部分,它是 IA 自然领域的重要组成部分。当然,IA 内容包括与世界互动的 IA。如果禁运,请继续阅读有关信息,以及“IA 的信息”。在 IA 游戏的背景下,IA 与世界游戏进行交互,并且 IA 游戏包含了游戏的视角。最后,这是最重要的一步,我们将继续推进现有的模型。同时激活各种技术、创新技术和创新,为工业和世界经济带来重大意义,使 IA 无所不在。 Mientras tanto, el modelo de código abierto no despegará realmente hasta 2025. 下一步,您将开始使用 DeepSeek R1 的推理系统入门。 esto 风靡全球,现在世界各地有许多不同类型的开源模型系统。开源模型已经达到了最先进的水平,尽管它们仍然比最先进的模型落后大约六个月,但每六个月就会出现新模型,并且这些模型正在变得更加智能。这就是为什么随着初创公司、大公司、研究人员、学生以及几乎每个国家都想加入人工智能革命,我们看到开源模型下载量呈爆炸式增长。智能、数字智能会如何将某人抛在后面?我的意思是,开源模型在去年确实彻底改变了人工智能,整个行业都将因此而重塑。事实上,我们已经有了预感。您可能听说过,几年前我们开始构建和运营我们自己的超级人工智能计算机三、DGX。
云。很多人问:“你想进入云计算行业吗?”答案是否定的。我们正在构建这些 DGX 超级计算机供我们自己使用。因此,数十亿美元被投资于超级计算来开发开源模型。由于我们正在许多不同领域(包括蛋白质和数字生物学)研究尖端人工智能模型,因此我们开始吸引世界各个领域的关注。
蛋白质),合成并产生蛋白质。 OpenFold 3,了解蛋白质的结构。埃沃
2.了解并产生各种蛋白质。以及开源细胞表征模型的开端。 Earth-2 AI,一种理解物理定律的人工智能。 ForecastNet 的努力。我们在科迪夫的工作彻底改变了人们预报天气的方式。 Nemotron 目前正在那里进行创新工作。第一个混合变压器 SSM 模型速度快得令人难以置信,因此您可以想很久(但不要太多)来找到最聪明的答案。 Nemotron 3 的其他版本可能会在不久的将来发布。 Cosmos 是一个基本的、前沿的开放世界模型,用于理解世界如何运作。 Groot 是一个具有关节控制、机动性和运动功能的人形机器人系统。这些模型和技术现在正在被整合,并且在每种情况下都向世界开放。今天我还想谈谈 Alpamayo,我们在自动驾驶汽车方面的工作。我们不仅开源我们的模型,还开源用于训练模型的数据。只有这样你才能真正信任模型生成过程。我们开源所有模型并支持基于它们的派生模型的开发。有一切称为 NeMo 库的一组库:NeMo 物理库、Clara
NeMo 库、BioNeMo 库。每个都是一个AI生命周期管理系统,可以处理数据、生成数据、训练模型、构建模型、评估模型、设置模型护栏,甚至部署模型。每个图书馆都非常复杂并且全部开放所以来源。因此,NVIDIA 除了这个平台之外,还是最先进的 AI 模型构建器,而且他们正在以非常特殊的方式构建它。这就是为什么我们以完全开放的方式构建它,以便每个公司、每个行业、每个国家都可以参与这场人工智能革命。这些模型不仅具有前沿功能、开源,而且在各种排名中都占据显着位置。有一些重要的模型可以用于理解多模式文档(例如 PDF 文件)。世界上最有价值的内容或者存储在 PDF 中,但需要人工智能来发现它、解释它并帮助你阅读它。因此,我们的 PDF 恢复器和解析器是世界一流的。我们的语音识别模型确实是世界一流的。我们的搜索模型本质上是AI时代的现代搜索引擎,语义搜索,AI搜索和数据库。而且它也是世界一流的。这就是为什么它经常在列表中名列前茅。这一切都是为了创建人工智能代理。这确实是一个令人兴奋的汀发展区。当 ChatGPT 第一次出现时,人们认为它产生的结果很有趣,但他们也被吓坏了。产生幻觉的原因是你能记住所有的过去,但不能记住所有的未来和现在。因此,它必须“基于”研究。在回答任何问题之前,有必要进行基础研究。能够推理是否需要研究、是否需要工具以及如何将问题分解为更多步骤。 ChatGPT 可以将这些步骤组合成序列,以完成您以前从未做过或未接受过培训的事情。这就是推理的魔力。我们遇到以前从未见过的情况,我们能够将它们分解为我们过去经历过的情况、知识和规则,并知道如何处理。因此,AI模型具有非常强大的推理能力。代理的推送处理功能为所有这些不同的应用程序打开了大门。正如我没有必要在第一天就知道一切,不再需要训练一个人工智能模型在第一天就知道一切。我们必须能够在任何情况下逻辑思考如何解决问题。如今,大规模语言模型正在实现根本性飞跃。使用强化学习、思维链、搜索、规划和强化学习等各种技术的能力提供了这一关键功能,并且现已完全开源。但真正值得注意的是,还有另一项进展。我第一次看到它是在 Perplexity(一家人工智能搜索公司)。这是我第一次发现自己同时使用多个模型。我认为这完全是天才之举。在推理链的任何一个环节,AI都可以调用世界上最好的AI来解决它想要解决的问题。这就是为什么人工智能本质上是多模式的,包括音频、图像、文本、视频、3D 图形和蛋白质。这是一个“多模型”,这意味着您应该能够使用完成任务的最佳模型。这些人工智能模型位于不同的位置,这使得它们本质上是“多云”。这也是一个“混合云rida”。如果你是建设一个大型企业或者像机器人这样的设备,它可能在边缘,可能在无线基站,可能在企业,可能在医院等等,需要实时处理数据。这意味着未来的应用将基于AI,所以这将是未来应用的基本框架。这个基本框架,这个基本结构可以让我们完成我所描述的具有多模型能力的Agent AI,目前正在很大程度上推动几家人工智能初创公司的发展。通过我们的开源模型和工具,您现在可以轻松定制自己的人工智能并教授自己的技能,这正是我们在开发 Nemotron 和 NeMo 等开源模型时的目标,只需在您的前面添加一个智能路由管理器即可。AI会根据你的指令自动选择最合适的模型来解决问题。这个架构提供了什么?您购买的人工智能可以完全根据您的需求进行定制,并且可以向您教授公司特定的技能。这对公司来说可能是一个优势,因为他们也拥有相应的数据和经验来训练人工智能。同时,您将处于技术前沿并始终拥有最新功能。简而言之,人工智能是高度个性化的、开箱即用的,并且始终处于领先地位。为此,我们创建了最简单的示例框架,称为“AI Route Blueprint”。它已被集成到全球许多公司的SaaS平台中,并取得了非常积极的成果。这不是很神奇吗?使用语言模型。使用您自己的、预先训练的、最先进的语言模型,并将其与自定义语言模型相结合,创建代理和推理框架来访问工具、文件和工具。n 可以连接其他代理。这基本上是人工智能应用程序或现代应用程序的基本架构,我们创建这些应用程序的能力非常快。请记住,即使应用程序中的信息是用户以前从未见过的,或者以与用户想象的完全不同的结构呈现,应用程序也会尽力对数据和信息进行推理,并找出解决问题的方法。这就是人工智能。这个基本框架现在正在形成,我刚才提到的一切意味着我们很幸运能够与一些世界领先的企业平台公司合作。例如,Palantir的整个AI和数据处理平台都是由NVIDIA集成和加速的。我们还拥有全球领先的员工和客户服务平台ServiceNow,以及全球领先的云数据平台Snowflake。 CodeRabbit 在 NVIDIA 得到广泛使用。 CrowdStrike 开发人工智能来检测和发现人工智能威胁。 NetApp 数据该平台由 NVIDIA 语义 AI 和用于客户服务的代理系统提供支持。但最重要的是,这不仅仅是一种开发应用程序的方式,而是平台的用户界面。因此,无论是 Palantir、ServiceNow、Snowflake 还是我们合作的许多其他公司,代理系统就是接口。它不再是向 Excel 表格中输入信息,也许它不仅仅是一个命令行。所有这些多模式信息交换现在都成为可能。简化与平台交互的方式,就像与人交互一样。因此,代理系统正在彻底改变企业人工智能。 3. IALou 物理学的颠覆:教导机器理解现实世界并与现实世界互动。下一步是物理人工智能。这是我多年来一直在谈论的一个领域。事实上,我们为此已经努力了八年。问题是如何转换计算机上与用户交互的代理将屏幕和扬声器改造为可以与世界互动的代理。这意味着了解世界如何运作的常识,例如物体持久性(当你把目光移开时,它会回来,它仍然在那里)、因果关系(当你推它时,它会倒下)。他们了解摩擦力、重力和惯性,他们知道如果一辆大卡车需要很长时间才能停在路上,球就会继续滚动。这些想法对于孩子来说是常识,但对于人工智能来说却完全陌生。因此,我们需要创建允许人工智能学习物理世界常识、学习规律,当然还有从数据中学习的系统。而且数据已经足够了,你却很稀缺,我们需要有能力评估人工智能是否有效。这意味着您必须在您的环境中模拟它。如果人工智能没有能力模拟物理世界对其行为的反馈,它如何知道它所采取的行动是否符合预期?这个基本系统需要三台计算机。其中之一是英伟达制造的著名计算机,用于训练人工智能模型。第二个是用于推断模型的计算机。推理模型本质上是在汽车、机器人、工厂或任何外围设备中运行的机器人计算机。然而,它需要一台专为模拟而设计的单独计算机。模拟几乎是我们在 NVIDIA 所做的一切工作的核心,因为那是我们最舒服的地方。模拟无疑是我们所做的所有物理人工智能工作的基础。因此,我们拥有三台计算机以及在这些计算机上运行并使其发挥作用的多个技术堆栈和库。 Omniverse 是一个数字孪生,一个物理模拟的世界。宇宙是我们的基本模型,而不是语言的基本模型。它是世界的基本模型,与语言一致。你可以问:“球怎么了?”他会告诉你球会滚到街上。当然也有机器人模型,其中两个叫Groot,另一个叫Alpamayo。对于物理人工智能,我们要做的最重要的事情之一就是创建数据来训练人工智能。这些数据从哪里来?因为与语言不同,我们创建被认为是“真实”的文本数据包,并且人工智能可以从中学习。我们如何教导人工智能物理世界“真实的样子”?有大量视频可供使用,但不足以捕捉我们所需的交互的多样性和类型。因此,一些最聪明的人聚集在一起,将信息资源转化为数据。使用基于物理定律和现实世界情况的合成数据生成技术,我们现在可以有选择地、智能地生成可用于训练人工智能的数据。例如,可以利用基于 Cosmos 的模型来生成基于物理的沉浸式视频,其中包含人工智能可以学习的声音。我知道这太棒了。 Cosmos是全球领先的基础款,也是世界的基础款。它已被下载数百万次并在世界各地使用,为物理人工智能新时代的世界。我们自己使用它,并用它来创建用于场景生成和评估的自动驾驶车辆系统。通过计算机模拟,我们可以有效地行驶数十亿甚至数万亿公里。今天,我们宣布推出 Alpamayo,这是世界上第一辆能够思考和推理的自动驾驶人工智能汽车。 Alpamayo 从头到尾都经过训练,从摄像头进入到驾驶员退出。训练数据包括您自己驾驶的大量里程、人类驾驶演示以及 Cosmos 生成的大量里程。此外,还有数十万个经过仔细标记的示例,因此您可以教如何驾驶汽车。Masu。这就是 Alpamayo 的独特之处。除了操作方向盘、刹车和油门之外,它还接收来自传感器的信息并确定将要采取的行动。它告诉您您执行了哪些操作、为什么执行这些操作,当然还有您的历史记录。一切都是直接c使用人类训练数据和 Cosmos 生成的数据的广泛组合进行耦合和专门训练。结果令人惊讶。汽车不仅能按预期行驶,而且还能非常自然地行驶,因为它直接从 demo. human 中学习。但在每个场景中,当你遇到一个场景时,他都会推理,告诉你他要做什么,并解释他为什么这样做。这之所以如此重要,是因为驾驶的“长尾”。不可能简单地收集每个国家、每个情况、每个公民可能遇到的每个场景的所有内容。但是,如果将每个场景分解为一系列较小的场景,它可能会非常常见且易于理解。因此,这些长尾场景属于汽车知道如何处理的相当常见的情况,因此汽车只需要对其进行推理即可。我们八年前开始开发自动驾驶汽车。原因是我们很早就知道深度学习和人工智能将彻底重塑所有计算技术。如果我们想了解如何引导我们自己和我们的行业进入这个新的未来,我们必须掌握构建所有技术。 4. 计算飞跃:Rubin 平台和全栈芯片的终极重塑 正如我之前所说,人工智能是一个“五层蛋糕”。最底层是土、电和贝壳。在机器人领域,最底层的是汽车本身。下一个级别是 GPU、网络芯片和 CPU 等芯片。其之上是基础设施层。在物理人工智能的具体情况下,基础设施是 Omniverse 和 Cosmos。它上面是模型层。上图所示的模型就属于这一层。该模型称为 Alpamayo。目前,Alpamayo 已正式开源。我们设想有一天道路上的 10 亿辆汽车将实现自动驾驶。您可以选择租用别人运营的自动驾驶出租车、自带车辆驾驶、或自行驾驶。但所有汽车都将拥有自主权我们的驾驶能力。所有汽车都将由人工智能驱动。因此,在这种情况下,模型层是 Alpamayo,应用层之上是 Mercedes-Benz Cars。总体而言,该技术堆栈是NVIDIA首次尝试创建完整的技术堆栈。我们一直在这方面努力。我们非常高兴英伟达的第一批自动驾驶汽车将在第一季度在美国道路上行驶,然后在第二季度在欧洲行驶,并可能在第三和第四季度在亚洲行驶。好消息是,它会在 Alpamayo 的后续版本中继续更新。我毫不怀疑这将成为最大的机器人产业之一。它为我们提供了大量有关如何帮助世界其他国家构建机器人系统的信息。通过自己构建整个基础设施,我们了解了机器人系统需要什么样的芯片。在这种特殊情况下,使用了最新一代的双 Thor 处理器。这些处理器是专门为机器人系统设计的具有最高级别的安全功能。梅赛德斯-奔驰 CLA 被 NCAP 评为全球最安全的汽车。据我所知,这是唯一一个每行代码、芯片和系统都经过安全认证的系统。模型的整个系统都是以此为基础,传感器多样且冗余,就像自动驾驶汽车技术一样。 Alpamayo 的技术堆栈具有端到端能力,并且具有令人难以置信的功能。但没有人知道它是否完全安全,除非你无限期地驾驶它。因此,我们使用不同的软件技术堆栈,即完整的自动驾驶技术堆栈,来设置障碍。整个技术堆栈被设计为完全可追溯。我们花了大约五年,实际上是六到七年的时间,构建了第二个技术堆栈。这两堆茶软件技术相互镜像。然后,他们利用 Alpamayo 进行政策评估和安全。にfoルバックすると判断した场合は、古典的な自动运输転技术suタkkに戻ります。这是唯一的一辆车同时运行两种自动驾驶技术的世界。所有安全系统都需要多样性和冗余性。我们的愿景是有一天所有汽车和卡车都将实现自动驾驶。我们一直在为这个未来而努力。整个技术堆栈是垂直集成的。当然,就梅赛德斯-奔驰而言,我们共同构建所有技术,只要我们在那里,我们就会推出汽车、运营技术、维护技术。 stack.sutakkku整体を构筑しますが、テクノロジー我们构建L4级和自动驾驶出租车的生态系统正在扩大并变得无处不在。我绝对相信这对我们来说已经是一项大业务,因为客户将其用于培训、训练数据处理和培训模型。在某些情况下,一些公司使用它来生成合成数据。基本上,有些公司只是生产计算机和汽车芯片,有些公司在全栈上协同工作,有些公司则在部分环节上协同工作。整个系统现已开放。钍这将是第一个大规模的主流物理人工智能市场。从非自动驾驶汽车到自动驾驶汽车的转折点从现在开始,并可能在未来十年内发生。我非常确定世界上大多数汽车都将是自动驾驶或高度自动驾驶的。然而,我们刚刚描述的基本技术(使用三台计算机来生成和模拟合成数据)适用于任何形式的机器人系统。它可能只是一个关节或机械臂,它可能是一个移动机器人,或者它可能是一个完全人形机器人。所以我的下一次旅行将由机器人完成。这些机器人有不同的尺寸。这些机器人配备了小型 Jetson 计算机,并在 Omniverse 中接受过训练。名为艾萨克的机器人模拟器
西姆和艾萨克
我们有很多制造机器人的朋友。
机器人,AG
Bot、LG、Caterpillar(他们拥有有史以来最大的机器人)、Saab
机器人、Agility、波士顿动力、Franca、Universal
例如,Cadence将CUDA-X集成到所有模拟器和求解器中。他们使用 Nvidia 物理 AI执行各种物理装置和工厂模拟。人工智能的物理原理内置于这些系统中。因此,无论是电子设计自动化、系统设计自动化、未来机器人系统,基本上创建它的相同技术都将彻底改变这些设计技术堆栈。在芯片设计领域,Synopsys和Cadence绝对是必不可少的。 Synopsys 在逻辑设计和 IP 领域处于领先地位,Cadence 在物理设计、定位器和布线、仿真和验证方面处于领先地位。 Cadence 在模拟和验证方面做得非常出色。两家公司都从事系统设计和仿真领域。因此,未来,我们计划在 Cadence 和 Synopsys 中设计芯片,并在这些工具中模拟一切。西门子也在做同样的事情。我们将CUDA-X物理AI、代理AI、NeMo和Nemotron深度融入西门子的世界。原因如下:首先,我们设计芯片。未来,一切都将由NVIDIA加速。今天我们有代理软件没有软件工程师帮助我们设计,就像我们有代理软件工程师帮助我们编码一样。我们的代理芯片设计师和系统设计师将与我们合作。接下来,我们需要能够建造机器人。你必须建造一个工厂来生产它,并设计一条生产线来组装它。而这些制造工厂本质上将成为巨型机器人。因此,机器人将在计算机上设计、在计算机上制造、在计算机上测试和评估。到目前为止,我们创造的技术已经达到了成熟和强大的水平,这反过来将有助于彻底改变我们所在的行业。纵观全球模型格局,毫无疑问 OpenAI 是当今领先的代币生成器。 OpenAI 目前生成的代币比任何其他模型都多得多。第二大群体可能是开源模型。有如此多的公司、如此多的研究人员、如此多不同类型的学科和方法,我认为随着时间的推移,开源模型将会成为最大的群体。 Rubin架构与这个过程密不可分。该平台的诞生是为了应对我们面临的根本挑战:人工智能所需的计算量正在迅速增加,对 Nvidia GPU 的需求也在迅速增加。 est 的增长是因为模型每年增长 10 倍或一个数量级。不用说,o1模型的推出是人工智能的一个转折点。推理不再是单一的答案,而是一个思考过程。在训练后阶段,引入强化学习和大量计算来教会AI思考。现在使用强化学习,而不是监督调整(也称为模仿学习或监督训练)。强化学习本质上是教计算机如何通过尝试自身的不同迭代来执行任务。因此,用于扩展训练前、训练后和测试时间的计算量急剧增加。现在,每次你运行 i推断,可能会生成两个令牌而不是一个。可以看到AI正在“思考”。想得越多,你想得越多,答案通常就越好。因此,测试期间的扩展使每年生成的代币数量增加了 5 倍。与此同时,人工智能领域的竞争持续加剧。每个人都在努力达到新的水平并开辟新天地。每当我们到达一个新的领域时,上一代人工智能的代币生成成本就开始减少约 10 倍。这个每年 10 倍的减少实际上讲述了一个不同的故事。这说明竞争非常激烈,每个人都在努力更上一层楼,而且有些人确实成功了。所以这一切本质上都是一个计算问题。你计算得越快,你就能越快达到下一个水平或前沿。由于所有这些事情同时发生,我们决定需要了解最新情况并推进现状每年都会形成技术.ormatic。 GB200 已于一年半前发货。目前我们正在批量生产GB300。如果 Rubin 想要在今年及时推出,就需要现在就开始生产。所以我今天可以说的是,Rubin 现在已经全面投入生产。我们还推出了基于Rubin架构的新一代计算集群DGX。
SuperPOD 拥有 1,152 个 GPU,分布在 16 个机架上,每个机架有 72 个 Rubins
图形处理器。我们设计了六种不同的芯片。首先,我们有一个内部原则,即每个新一代平台的芯片更换不应超过一两个。但问题就在这里。我们知道摩尔定律本质上正在放缓。因此,每年可用的晶体管数量无法跟上该模型每年 10 倍的增长率,无法跟上每年生产的代币数量 5 倍的增长,也无法跟上代币成本的明显下降。如果业界愿意继续往前走,就不可能再保持这个速度了。除非我们采用极端激进的协同设计,本质上同时创新每一个芯片和每一项技术。为此,我们决定重新设计这一代平台上的所有芯片。首先是 Vera CPU。在功耗有限的世界中,它的性能是前几代产品的两倍,每瓦性能是世界上任何其他尖端 CPU 的两倍。它的数据速度非常高,可以驱动超级计算机。 Grace 是一款出色的 CPU,但 Vera 在单线程性能、内存容量和其他方面都提供了巨大的改进。这是一个巨大的飞跃。将 Vera CPU 连接到 Rubin
图形处理器!这是一个巨大的芯片,拥有 88 个 CPU 核心,旨在支持多线程。然而,Vera e的多线程功能旨在最大限度地提高 176 个线程中每个线程的性能,因此本质上就像拥有 176 个核心但只有 88 个物理核心一样。这些科es 是使用一种称为空间多线程的技术设计的,这为它们提供了令人难以置信的性能。接下来是 Rubin GPU。它的浮点性能是Blackwell的5倍,但晶体管数量却只有1.6倍。这在一定程度上反映了半导体物理学的当前水平。如果没有协同设计,整个系统中的所有芯片都不会被设计出来。我们如何通过各个层面的终极协同设计来达到这种性能水平?第三,我们创造的伟大发明叫做NVFP4 Tensor Core。我们芯片的变压器引擎不仅仅是我们放入数据路径中的 4 位浮点数。它是一个完整的处理单元,知道如何动态地、自适应地调整精度和结构来处理变压器的不同层,在精度可能丢失的情况下实现高性能,并在必要时返回到尽可能高的精度。这种动态可调性在软件中是不可能的,因为它运行得太快了。AST。因此,它必须在处理器内自适应地运行。这就是 NVFP4 的目的。关于NVFP4我发表了一篇文章。所达到的性能和精度保持水平简直令人难以置信。这是一项创新举措。如果业界期望这种格式和结构将来成为行业标准,我一点也不会感到惊讶。这完全是革命性的。这就是为什么我们只需将晶体管数量增加 1.6 倍就能实现如此大的性能飞跃。第四,我们彻底改变了整个 HGX 底盘。该节点原来有43根电缆,现在有0根。原来有6根水管,现在有0根。以前需要2个小时才能组装,现在需要5分钟,并且是100%水冷。第五,将它们连接到上层机架交换机并处理东西向流量的网卡称为 Spectrum-X NIC。这绝对是世界上最好的网卡。 Mellanox 算法、芯片设计、所有互连等等l 在其之上运行的软件堆栈 RDMA 绝对是无与伦比的,并且是世界上最好的。它还具有可编程 RDMA 和数据路径加速器功能,允许 AI Labs 等合作伙伴创建自己的算法来确定数据如何在系统中移动。六、ConnectX-9和Vera
CPU 是共同设计的。众所周知,ConnectX-8 和 Spectrum-X 彻底改变了人工智能的以太网技术。 AI 以太网流量更加密集,需要更低的延迟,并且会出现传统以太网从未出现过的即时流量峰值。所以我们可以说 Spectrum-X,AI 以太网。我们两年前推出了 Spectrum-X。如今,NVIDIA 是世界上最大的网络公司。它非常成功,并被广泛应用于各种安装中,并席卷了整个人工智能领域。特别是如果您拥有价值数百亿美元的 200 兆瓦数据中心或千兆瓦数据中心。 Gawatt数据中心造价约500亿美元狮子美元。如果网络性能再提高 10%(Spectrum-X 的性能提升 25% 并不罕见),那么仅仅 10% 的提升就价值 50 亿美元。这意味着网络费用完全免费。所以每个人都使用 Spectrum-X 来完成所有事情。第七,我们发明了处理数据的新方法。该处理器称为 BlueField-4,它允许您管理非常大的数据中心,将不同的部分分开,以便不同的用户可以使用不同的部分,并确保所有资源在必要时都可以虚拟化。通过这种方式,您可以下载用于南北流量的大部分虚拟化、安全和网络软件。因此,BlueField-4 是所有计算节点上的标准配置。第八个是 NVLink-6 交换机。每个机架交换机都有四个芯片,每个芯片都具有有史以来最快的 SerDes。世界的速度刚刚达到 200 Gb/s,而这是一台 400 Gb/s 交换机。这如此重要的原因是它允许每个 GPU 与同一位置的所有其他 GPU 进行通信。同一时间。该交换机位于机架的背板上,数据传输速度是整个全球互联网的两倍。全球互联网遍历带宽约为每秒 100 TB,而该互联网的带宽为每秒 240 TB,允许每个 GPU 与所有其他 GPU 同时运行。它后面是 NVLink 主干网,基本上是两英里长的铜缆。铜是我们所知的最好的导体。这些是屏蔽铜电缆、结构铜电缆,最常用于计算机系统。我们的 SerDes 以 400 Gb/s 的速度将这些铜缆从机架顶部延伸到机架底部。有 5,000 根铜缆,总长 3,200 米,并且可以使用 NVLink 主干网。这项创新极大地开放了我们的 HGX 系统,因此我们决定创建一个行业标准系统,以便我们的整个生态系统、整个供应链可以围绕这些组件进行标准化。大约有80,000构成这些 HGX 系统的组件。如果每年都必须更换,那将是巨大的浪费。所有主要的计算机制造商,从富士康、广达和纬创资通到惠普、戴尔和联想,都知道如何构建这些系统。这就是为什么与之前的 Vera 相比,它的性能显着提高,尽管它消耗的能源是之前的两倍。
鲁宾的能量消耗是有恩的。
它是 Blackwell 的两倍,但您仍然可以将 Vera Rubin 放入这个框架中。这本身就是一个奇迹。进入系统的气流大致相同。此外,进水温度同样为45℃。在 45 摄氏度时,数据中心不需要冷却。这台超级计算机基本上使用热水来冷却自身,效率非常高。新机箱的晶体管数量增加了 1.7 倍,峰值推理性能提高了 5 倍,峰值训练性能提高了 3.5 倍。它们通过顶部的 Spectrum-X 连接。这是世界上第一个芯片采用台积电新工艺制造。我们共同创新的这个新工艺被称为 CoWoS,ProIntegrated Silicon Photonics Process 技术。这使您能够: 允许您将硅光子学直接集成到芯片中。这里有 512 个端口,每个端口都是 200 Gb/s。这是一款新型 AI 以太网交换机,Spectrum-X 以太网交换机。几年前,我们推出了 Spectrum-X,彻底改变了网络连接方式。以太网是一种非常方便的管理工具,它是以太网技术的重要组成部分,也是以太网数据中心的重要组成部分。我们当时使用的另一种技术是一种称为 InfiniBand 的技术,它用于超级计算机。 InfiniBand 的延迟非常低,它的软件和管理能力一般都可以使用以太网。因此我们决定首次进入以太网交换机市场。 Spectrum-X 推出后取得了巨大成功,使我们成为最大的网络世界上最大的运营公司。 5.生态闭路:从基础设施到工业采用的全栈设计但是,正如我们前面提到的,人工智能重塑了所有计算技术的每一层。同样,随着人工智能开始在世界各地的企业中部署,存储也将被彻底改造。 AI不使用SQL,它使用语义信息。当你使用AI时,你会创建一种临时知识,临时内存,称为KV缓存(键值缓存)。但本质上,KV 缓存是 AI 的工作内存。 AI的工作记忆存储在HBM内存中。对于每个生成的令牌,GPU 读取整个模型和工作内存,生成一个令牌,并将其存储回 KV 缓存中。下次执行相同操作时,它将再次读取所有内存,将其传递给 GPU,并生成另一个令牌。它一直持续着。显然,当你与人工智能长时间交谈时,这种记忆或上下文记忆会急剧增加。没有必要说模型本身在不断增长,与人工智能交互的轮数也在增加。我们希望这个人工智能陪伴我们一生,并记住我们与它的每一次对话。我们请您研究所有链接…当然,共享超级计算机的用户数量也会不断增长。因此,最初适合 HBM 的上下文记忆不再足够大。去年我们创立了格雷斯。
布莱克威尔的快速情境记忆。因此,我们将 Grace 直接连接到 Hopper 和 Blackwell 以扩展上下文记忆。但是,这还不够。那么接下来的解决方案当然是连接。然而,如果大量人工智能同时运行,该网络将不够快。所以答案是显而易见的。需要采取不同的方法。这就是为什么我们引入 BlueField-4 来在机架中提供非常快速的 KV 缓存上下文内存存储。这是一种全新的存储系统类别。业界对此非常兴奋这对于目前生成大量代币的几乎每个人来说都是一个痛点。 AI Labs是一家云服务提供商,实际上是通过移动KV缓存来产生网络流量的。因此,我们创建了一个新平台、一个新处理器来运行所有 Dynamo。
KV 缓存/上下文管理系统及其与机架其余部分如此接近是完全革命性的。每个机架后面都有四个 BlueField-4。每个 BlueField-4 背后都有 150 TB 的上下文内存。每个 GPU 都会额外添加 16 TB 内存,因为内存会在每个 GPU 上摊销。现在,在这个节点内,每个 GPU 最初拥有大约 1 TB 的内存。此备份存储放置在相同的东西向流量之上,以在整个计算节点网络结构中实现完全相同的数据速率(每秒 200 GB),从而产生额外的 16 TB 内存。维拉·鲁宾有一些令人难以置信的一面。我上面提到的第一点是能源效率整个系统的效率比上一代提高了一倍。它的功耗是上一代的两倍,功耗却是上一代的两倍,但计算能力却是上一代的数倍。进入系统的液体温度仍为45摄氏度。这可以节省全球数据中心约 6% 的用电量。这是一个大问题。第二个伟大的事情是整个系统支持机密计算。这意味着所有数据都在传输,即静态和计算加密,所有 PCIe、所有 NVLink、所有 HBM…现在所有内容都已加密,从 CPU 到内存。a,从 CPU 到 GPU,从 GPU 到 GPU。因此,机密计算是安全的。这让公司高枕无忧,即使其他人实施他们的模型,也没有人会看到它们。这个特殊的系统不仅非常节能,而且还有另一个惊喜。就其本质而言,人工智能工作负载可能会迅速激增。电流量a此计算层中使用的功率(称为“总下降”)同时迅速增加,通常高达 25%。现在,通过平滑整个系统的电源,您不再需要过度配置 25% 的容量,而且当您这样做时,这 25% 的电源也不再需要被浪费或闲置。现在,您可以使用整个功率预算,而无需过度配置。当然,最后还有演技。让我们看看它是如何工作的。这些图表是任何构建超级计算机的人都会喜欢的图表。带有人工智能的计算机。这需要……对每个芯片、每个系统进行彻底的重新设计,并重写整个软件堆栈以使其成为可能。我们真正做的事情围绕三个中心环节。首先是训练速度。训练 AI 模型的速度越快,将下一代尖端模型推向市场的速度就越快。这直接决定了技术领先地位、上市时间和定价能力。例如,绿色部分代表一个100亿参数的模型(我们称之为DeepSeek++),需要在 1000 亿个代币上进行训练。对于相同的训练周期(例如一个月),Rubin 平台只需要四分之一的系统数量即可完成。同时,您将能够进行以下锻炼: 更大、更先进的模型可以练习您。第二是数据中心效率。数据中心是人工智能“工厂”,需要巨额投资。千兆瓦数据中心可能需要 500 亿美元的投资,而电力是一个严重的制约因素。计算架构的每瓦性能越高,相同电量可以产生更多的计算能力,这直接转化为数据中心的产量和收入。与上一代相比,Blackwell 平台的能源效率提高了约 10 倍,Rubin 将利用这一点进一步将能源效率提高近 10 倍。第三是推理成本。这是生产每个代币的实际成本。Rubin平台将这一成本降低至原始成本的十分之一左右。借此,我们将带领整个行业迈向新的前沿,实现更快的训练、更高的能源效率和更好的基础设施经济性,从而支持人工智能在更大规模、更高水平上的持续发展。正如您所看到的,今天的 NVIDIA 不仅仅是一家芯片公司。我们构建完整的人工智能系统,从芯片、系统和基础设施到模型和应用程序。我们的使命是构建完整的技术堆栈,以便这里的每个人都可以为世界创建令人惊叹的人工智能应用程序。感谢您访问我们。祝您在 CES 上一切顺利!
欢迎访问暗黑吃瓜官网,参与吃瓜爆料每日大赛,获取最新爆料和精彩内容!