图片来源:视觉中国
蓝鲸新闻1月7日讯(记者 朱俊熹)当地时间1月7日,为期4天的“科技春晚”CES 2025拉开帷幕。在一众演讲嘉宾中,打头阵的是芯片巨头英伟达的创始人兼CEO黄仁勋。他身着材质亮眼、浮夸的皮衣登台,笑称这毕竟是在拉斯维加斯,还询问观众是否喜欢他的皮夹克,现场气氛热烈。
美股开盘后,英伟达股价再创新高,报153.05美元/股。公司市值达3.74万亿美元,超越苹果登顶全球市值最高的公司。而这只是英伟达过去几年辉煌业绩的一个切面,凭借其高性能GPU芯片,英伟达已成为AI浪潮的最大受益者。其增长趋势在新的一年未见放缓,微软等巨头新财年预计将继续投入800亿美元在AI数据中心的建设上。
在CES主题演讲中,黄仁勋带来了备受期待的GeForce RTX 50系列GPU。该系列消费级GPU主要面向游戏玩家、创作者和开发者,采用了与其数据中心AI处理器相同的Blackwell架构。英伟达称,Blackwell融合了AI驱动的神经渲染和光线追踪,在游戏中带来电影级的材质与灯光。
RTX 50系列售价从549美元到1999美元不等。其中高配置版5090、5080 GPU将于1月30日上市,低配置版5070 Ti、5070 GPU将于2月开始发售。
黄仁勋还将另一项重磅产品留到了演讲的最后——全球最小的AI超级计算机。据官方现场演示,该款Project DIGITS计算机仅手掌大小,在使用时可放置在桌面上。它面向全球AI研究人员、数据科学家和学生,由标准电源插座供电,但可提供千万亿次的AI计算性能,用于原型设计、微调和运行大型AI模型。
“它基于我们一直在开发的一款秘密芯片,叫做GB 10,这是我们生产的最小的Grace Blackwell芯片。”黄仁勋介绍称。Project DIGITS超级计算机将于5月上市,起售价为3000美元。
图片来源:英伟达截图
此外,黄仁勋还公布了一系列新的产品与进展,涵盖AI产业上下游。例如基于Llama的Llama Nemotron系列AI模型,主要用于帮助开发者创建和部署AI代理(智能体)。以及包括世界基础模型在内的Cosmos平台,能够生成海量逼真的、基于物理的合成数据,用来训练和评估机器人、自动驾驶汽车等物理AI系统。
黄仁勋每一次亮相都会大谈AI信仰、对未来演变的预见,此次CES也不例外。他提到“AI PC正在来到你家中”、“自动驾驶将可能成为第一个价值数万亿美元的机器人产业”、“机器人的ChatGPT时刻即将到来”。而这其中绕不开对英伟达芯片等产品的需求,其基建正在深入汽车、机器人、工业等多个领域。
以下是黄仁勋演讲内容节选,在保证原意下经蓝鲸新闻删减调整。
黄仁勋:
欢迎来到CES!你们来到拉斯维加斯兴奋吗?
你们喜欢我的夹克吗?我想和Gary Shapiro(消费者技术协会首席执行官兼副主席)的风格相反。毕竟,我在拉斯维加斯。如果这行不通,如果你们都反对,那就习惯吧。我真心觉得你们得接受这个事实。再过一个小时左右,你们就会喜欢上它了。
回顾非凡的AI旅程
这是一段非凡的旅程,跨越了不平凡的一年,始于1993年。通过NV1,我们的目标是创造一种能做普通计算机做不到的事情的机器。NV1让在个人电脑中拥有游戏主机成为了可能。我们的编程架构叫UDA,后来才加上了字母C,但UDA代表的是统一设备架构。第一个使用UDA的开发者,以及首个在UDA平台上运行的应用程序,便是世嘉的《VR战士》。
六年后的1999年,我们发明了可编程GPU,开启了20多年的惊人进步。这款革命性的处理器,被称为GPU,成就了现代计算机图形学的基础。如今30年后,世嘉的《VR战士》已经达到了电影级的水准。而即将发布的新虚拟项目,更是让人期待不已,简直令人难以置信。
1999年之后的六年,我们发明了CUDA,它使我们能够以一组丰富的算法来解释和利用GPU的可编程性,进而实现其潜力。CUDA最初很难解释,并且花了相当长的时间去发展,实际上,我们花费了大约六年的时间。直到2012年,Alex Krizhevsky、Ilya Sutskever和Geoffrey Hinton发现了CUDA,并利用它进行AlexNet的训练。从那时起,AI的历史就已发生了根本性的转变。
自那时以来,人工智能的发展速度飞快。凭借感知AI,我们能够理解图像、文字和声音;随着生成式AI的发展,我们能够生成图像、文字和声音。而现在,代理AI不仅能感知、推理、规划,还能行动。接下来,我们将进入下一个阶段,其中一些我们今晚将讨论的内容,便是物理AI。
接着在2018年,发生了一些不可思议的事情。谷歌发布了Transformer,这一技术让AI领域真正迎来了飞跃。正如大家所知,Transformer彻底改变了人工智能的格局,甚至改变了计算的格局。我们意识到,AI不仅仅是一个新的应用领域和商业机会,更重要的是,Transformer推动的机器学习将彻底重塑计算的方式。
如今,计算在各个层面都发生了革命性变化,从手动编写的CPU指令,到如今人类使用的软件工具。我们现在拥有可以创建和优化神经网络的机器学习,这些网络运行在GPU上,并推动人工智能的进步。技术栈中的每一层都经历了翻天覆地的变化,短短12年内,我们见证了不可思议的转型。
如今,我们几乎可以理解任何形式的信息。你肯定见过文本、图像和声音等内容,但不仅仅限于这些,我们还能够理解氨基酸和物理现象。我们可以解读这些信息,翻译它们并生成新的内容。应用的可能性几乎是无限的。
实际上,几乎所有AI应用都可以通过这三个基本问题来推测:它学习时输入的模态是什么?它将信息转化成了什么模态?它正在生成什么模态的信息?只要你问这三个基本问题,几乎每一个应用的核心都能被揭示。
因此,每当你看到一个又一个以AI为驱动和核心的应用时,始终不变的概念便是:机器学习改变了每个应用的构建方式,改变了计算的方式,甚至超越了GPU本身的可能性。在许多方面,所有这些与AI相关的技术,都由GeForce构建而成。GeForce让AI走向大众,而今天,AI正回归GeForce。
图片来源:英伟达截图
算力需求依然迫切,Blackwell全面投产
整个行业都在追赶并竞相扩大AI的规模。Scaling Law是一个经过几代研究人员与业界验证的经验法则。它表明,随着训练数据量的增加、模型规模的扩大,以及计算能力的提升,AI模型的有效性与能力也将不断增强。因此,规模定律的有效性是持续存在的。
更为惊人的是,互联网每年生成的数据量大约是上一年数据的两倍。我预测,在未来几年,全球人类所生成的数据总量将会超过人类历史上所有数据的总和。我们依旧在生成海量数据,且这些数据变得更加多模态,包括视频、图像和声音等。这些数据无疑为AI提供了丰富的训练基础和核心素材。
然而,除了Scaling Law之外,还出现了两条新的规模定律,它们各自有着直观的意义。
第二条Scaling Law被称为后训练Scaling Law。这条定律依托于强化学习和人工反馈等技术手段。基本上,AI会根据人类的查询生成答案,而人类则给予反馈,从而促进AI在特定领域的能力提升。它们可以在特定领域进行微调,使其更擅长解数学题、推理等方面。这个过程就像是学生在学校学习后,导师或教练给你反馈,帮助你改进自己。
此外,还拥有强化学习的AI反馈,以及合成数据生成。这些类似于自我练习时,你知道某个问题的答案,会继续尝试直到答对。AI可能需要解决一个复杂且可验证的难题,诸如证明某个定理或解决几何问题。通过强化学习,它将学会如何更好地改进自己。尽管这一过程计算量庞大,但最终能够产生极为出色的模型。
第三条Scaling Law则与所谓的“测试时间scaling”相关。测试时间scaling指的是在AI应用时,它能够智能地分配资源,而不仅仅是改进其参数。AI能够决定使用多少计算量来生成它想要的答案。
推理就是这种思维方式的一部分。与直接推理或一次性回答不同,AI可能会进行长时间思考,将问题分解为多个步骤,生成不同的思路并加以评估。当前,测试时间scaling已被证明是极其有效的。
随着这些技术的逐步发展,我们能够看到从ChatGPT o1,再到o3以及Gemini Pro等一系列AI系统的进化。这些系统正在经历从预训练到后训练,再到测试时间scaling的不断发展。
因此,所需的计算能力显然是巨大的。我们不仅希望社会具备扩展计算能力的能力,更期待能够通过这一扩展,创造出更多创新且更强大的智能系统。毕竟,智能是我们最宝贵的资产,它可以帮助我们解决许多复杂而具有挑战性的问题。
正因如此,Scaling的不断增长催生了对英伟达计算技术的巨大需求。这股需求推动了Blackwell这款革命性芯片的广泛应用。Blackwell已经全面投入生产,其表现令人赞叹。
首先,几乎所有云服务提供商都已经在部署相关系统。我们目前已有约15家计算机制造商提供系统,这些系统涵盖了大约200种不同的SKU和配置,包括液冷、风冷、x86架构、Nvidia Grace CPU、NVL36、NVL72等多种类型。这样的多样性使我们能够满足全球几乎所有数据中心的需求。如今,这些系统正在全球45个工厂中进行生产,充分体现了AI的普及程度,以及整个行业在这一全新计算模型下的快速进步。推动这一进程的核心动力就是:我们迫切需要更多的计算能力。
图片来源:英伟达截图
当前这一代Blackwell芯片,在计算能力方面比上一代提高了四倍每瓦的性能和三倍每美元的性能。这意味着在同样的计算成本下,我们能训练更大的模型,或者以更低的成本训练同样规模的模型。
而最为关键的是,这些系统正在生成的tokens,正是我们在使用ChatGPT、Gemini,甚至未来使用智能手机时所依赖的。这些应用几乎都在消耗这些AI tokens,而这些tokens的生成正是由Blackwell等系统提供的。每个数据中心都有电力的制约。因此,如果Blackwell每瓦的性能比上一代提升四倍,那么这些系统能够带来的商业收入和数据中心的处理能力也将成倍增长。这使得如今的AI计算设施,不仅是数据中心的一部分,实际上已经成为了全新的“工厂”。
因此,我们需要大量的计算资源,以训练更大、更复杂的模型。未来的推理方式将不再局限于简单的“一次性推理”,AI将开始与自身进行对话、思考、反思和内在处理。这样的转变将大大提升AI的推理能力和智能水平。
正如你可以预见的那样,AI能够处理的tokens数量将成指数增长。因此,我们亟需大幅提升tokens的生成速度,同时显著降低计算成本,确保服务质量始终处于高水平,客户成本得以控制,AI系统也能够持续扩展。这正是我们开发NVLink系统的核心原因之一。
AI代理兴起,创造数百万美元的市场机会
在企业领域中,正在发生的最重要的事情之一就是AI代理的兴起。AI代理由多个模型组成,分工明确。
例如,一部分模型负责与客户或用户进行互动,另一部分则负责信息检索,从存储中提取数据。像RAG这样的语义AI系统可能会访问互联网、研究PDF文件、使用计算器,甚至利用生成性AI生成图表等内容。AI代理通过逐步迭代的方式处理问题,将复杂的问题分解成更小的任务,并由不同的模型分别进行处理。
为了帮助行业构建AI代理,我们的市场策略并不直接面向企业客户,而是与IT生态系统中的软件开发者合作,通过整合我们的技术来创造新的能力。就像我们曾经与CUDA库合作一样,我们现在希望在AI库领域实现同样的目标。过去,计算模型中有API来处理计算机图形学、线性代数、流体动力学等任务,而未来,基于这些加速库,可能会出现专门的AI加速库。
为帮助生态系统构建具备自主能力的AI,我们创建了几项关键技术:
NVIDIA NIM:这是一个AI微服务,已经打包并准备就绪,能处理所有复杂的软件任务。它将模型打包、优化,并放入容器中,用户可以将其带到任何地方。我们目前已有适用于视觉、语言理解、语音、动画、数字生物学的模型,并且即将发布一些关于物理AI的新兴模型。
NVIDIA NeMo:本质上是一个数字员工的入职和培训系统,旨在让AI代理成为数字劳动力,与员工一同工作并代为处理任务。就像员工入职培训一样,我们为这些AI代理提供了不同的库,帮助它们根据公司特定的语言、流程和工作方式进行培训。您可以向AI代理提供工作样本,它们会试图生成类似的结果,您再进行反馈并持续优化。同时,您还可以设置一些限制和权限,确保代理的行为符合规范。
整个流程——即数字员工的管理和发展过程——被称为NeMo。从某种意义上讲,未来每个公司的IT部门将转变为AI代理的“HR部门”,负责管理、培训、入职以及提升这些数字员工。
目前,IT部门主要负责管理和维护各种来自IT行业的软件系统。但未来,随着AI技术的普及,IT部门将承担更多的职责,包括管理、培养、入职以及提升大批数字代理,并将这些代理部署到公司各个部门使用。
未来,每一位软件工程师都有可能配备一个AI助手。全球有3000万软件工程师,未来每个工程师都将借助AI助手进行编程。如果没有AI的辅助,生产力和代码质量将大幅下降。而在全球的10亿知识工作者中,AI代理很可能成为下一个爆发的行业,并且可能会创造出数百万美元的市场机会。
创建世界模型,未来工厂将拥有数字孪生体
当你为大型语言模型提供上下文和提示时,模型则一次生成一个token以产生输出。这是其工作原理。假设不是一个问题提示,而是一个行动请求呢?比如“过去把那个箱子拿过来。”在这种情况下,生成的就不是文本的token,而是行动的token。
我刚刚描述的,是未来机器人技术的一个非常合理的方向,而这项技术已经迫在眉睫。但我们需要做的是,创建一个有效的世界模型,而不是像GPT那样仅仅是语言模型。这个世界模型必须理解世界的语言,还必须理解物理动态,比如重力、摩擦力和惯性。它必须理解几何和空间关系,必须理解因果关系。
如果你把物体掉到地上,或者推动物体让它倾倒时,模型应该能够理解物体的恒常性。如果你把一个球从厨房台面上滚过,它掉到另一边,并没有进入另一个量子宇宙,而是依然处于那个空间里。
这些类型的直觉理解是当今大多数模型所无法做到的。因此,我们希望创造一个全新的世界。我们需要一个世界基础模型。今天,我们宣布一项重要的进展——Nvidia Cosmos,一个专注于理解物理世界的世界基础模型。
Nvidia Cosmos是全球首个世界基础模型,经过2000万小时视频的训练。这些视频专注于物理动态内容,例如自然现象、行走的人、移动的手、操控物体,以及快速的摄像机运动。它的真正目标是让AI理解物理世界,而不仅仅是生成创意内容。通过这个物理AI,我们能够进行许多下游应用。
我们可以生成合成数据来训练其他模型,也能为机器人模型奠定基础。它可以生成多个物理上可行的未来场景,基本上就像《奇异博士》中的场景一样,因为这个模型理解物理世界,生成的图像也是物理一致的。这个模型还能够自动生成字幕,将视频内容转化为字幕,从而为大语言模型和多模态语言模型的训练提供数据。利用这个技术,我们能够用基础模型来训练机器人及大型语言模型。
这就是Nvidia Cosmos。该平台包括一个自回归模型,支持实时应用;一个扩散模型,生成高质量图像;一个强大的分词器,学习现实世界的词汇;以及一个数据管道,便于你将这些技术应用到你自己的数据中。我们已经加速了整个过程。因此,这也是全球首个加速的数据处理管道,也是AI加速的管道,所有这些都包含在Cosmos平台中。今天,我们宣布Cosmos已经开源,并可以通过GitHub获取。
我们希望,Cosmos的开放能够像Llama 3对企业AI的贡献一样,为机器人技术和工业AI领域做出重大贡献。
真正的魔力出现在你将Cosmos与Omniverse连接时。根本原因在于,Omniverse是一个基于物理的模拟系统,它并不只是模拟物理现实,而是基于算法物理和原理物理的系统。它是一个模拟器。当你将其与Cosmos结合时,Omniverse为Cosmos提供了一个坚实、真实的基础,这使得Cosmos能够输出基于真理的内容。这正是将大型语言模型与检索增强生成系统结合的思路。你希望将AI生成的内容与真实世界的基础连接起来。因此,这两者的结合提供了一个物理模拟的、多维度的生成器,应用场景令人激动。
显而易见,对于机器人技术和工业应用而言,Cosmos加Omniverse代表了构建机器人系统所需的第三台计算机。每个机器人公司最终都必须构建三维计算机——一种用于训练AI的计算机,我们称之为DGX计算机;一种用于部署AI的计算机,我们称之为AGX,它可以安装在汽车、机器人或AMR(自动移动机器人)中,或者部署在体育场等地方,这些计算机在边缘运行并具备自主性。但为了连接这两者,你需要一个数字孪生体。所有这些就是你所看到的模拟。数字孪生体是已训练的AI模型进行实践、精炼的地方,用于生成合成数据、强化学习反馈等。
这三台计算机将协同工作,这正是英伟达针对工业界的战略。未来,所有的一切都将在模拟中完成。每个工厂都会有一个数字孪生体,与实际工厂完全一致。实际上,你可以使用Omniverse与Cosmos生成大量的未来场景,然后由AI决定哪些场景最适合各种KPI。这将成为程序的约束条件,并能够部署到现实工厂中。
机器人的“ChatGPT时刻”即将到来
通用机器人技术的“ChatGPT时刻”即将到来。实际上,所有我刚才提到的使能技术将在未来几年内推动通用机器人领域发生迅速且令人震惊的突破。
图片来源:英伟达截图
通用机器人技术之所以如此关键,是因为,尽管许多机器人依赖履带或轮子并且需要特定的环境来适应,但有三类机器人我们可以制造出来,它们不需要在绿色田野环境中运行,也不需要特别为现有环境做适配。
这三类机器人分别是:第一,代理机器人和代理AI,它们作为信息工作者,只需要能够适应我们办公室中的计算机即可;第二,自驾车,因为我们已经花费了超过100年的时间来建设道路和城市;第三,人形机器人。如果我们能够解决这三项技术,它们将成为全球最庞大的技术产业。因此,我们坚信机器人时代离我们已经不远。
关键的挑战在于如何训练这些机器人。尤其在人形机器人领域,模仿信息的收集过程相当复杂。以汽车为例,训练相对简单,因为我们每天都在开车。然而对于人形机器人来说,收集人类行为的示范信息就变得非常繁琐。
因此,我们需要找到一种巧妙的方法,利用人工智能和Omniverse,将数百个示范、成千上万的人类示范转化为数百万个合成动作。通过这些合成动作,AI可以学习如何执行任务。Nvidia Isaac Group,是我们为机器人行业提供的技术平台基础设施,旨在加速通用机器人技术的发展。
让我再说一遍,我们正在生产三款新的Blackwell。令人振奋的是,全球首个物理AI基础模型,一个强大的AI基础性模型已经问世,能够激活全球各行各业,尤其是机器人产业。与此同时,还在三款机器人正在开发,分别是智能代理AI、人形机器人和自动驾驶汽车。过去的一年真是不可思议,我要感谢大家的合作,感谢你们的到来。
祝大家CES愉快,新年快乐,谢谢!