黄仁勋:DeepSeek优先跑在华为芯片可不是小事!更难瓶颈在水管工!Mythos用的算力很普通,中国完全可以获得
作者:互联网
2026-04-18
编辑 | 云昭
“AI是一个五层蛋糕!”
“输入是电子,输出是 token,中间就是英伟达。”
“你为什么要让 AI 产业中的某一层失去整个市场,只为了让另一层受益?”
每次老黄分享,α含量都超标,料也很足!而这次,是看到的冲突性最猛烈的一次播客访谈了。
几个小时前,英伟达创始人黄仁勋在 Dwarkesh Patel 播客里回应了很多对敏感度超标但又十分重要的质疑。
比如,Anthropic 为什么后来选在采购谷歌的 TPU、AWS 的 Trainium,而不是 GPU?对中国卖芯片,如何保证美国的长期竞争?
再比如,英伟达的护城河究竟是什么?是对供应链的控制,还是CUDA生态对头部 AI 实验室的统治力?内部是如何分配GPU订单的?
隔着屏幕都能感受到那种“难以调和”的张力度!
整场对话中,黄仁勋回应了TPU竞争、能源瓶颈、中美芯片博弈的尖锐议题,同时也通过一个“五层蛋糕”模型,拆解了英伟达视角下:从“电子”到“Token”转化背后的商业本质。
首先,黄仁勋坦承早期判断失误,未能预见基础模型实验室需要百亿美元级别的资金支持,但的确钱也不够,导致 Anthropic 最初投向了 Google 和 Amazon 的怀抱。他明确表示,“类似的错误(在 OpenAI 身上)不会再犯”。
其次,老黄也澄清道:GPU 分配并非价高者得,而是基于订单、产能与数据中心准备度的“工业式排产”。并辟谣了一些不实的报道:马斯克、拉里·佩奇跟他聚会吃饭是有的,但丝毫不涉及 GPU 订单。
而对于主持人的好奇:“Nvidia 为什么自己不做云,成为 hyperscaler“,黄仁勋表示这并非能力问题,而是刻意选择“只做必须做的部分”,“多余的一点不做”,通过扶持 CoreWeave 等新型 AI 云形成繁荣的生态。
最为剑拔弩张的部分,也是最敏感的部分:中美对于AI安全的博弈。
他首次较明确表达:中国已有充足算力与芯片基础,限制出口无法阻止其发展。他表示,“算力封锁能压制中国 AI”的观点根本站不住脚。中国已经在能源、工程能力和人才上已具备完整体系,算力差距无法从根本上阻断发展。
而且他爆料到,Mythos 用的算力很普通,中国完全可以获得。这里他特别提到了华为在芯片领域的优势。
“华为刚刚经历了公司历史上最好的一个年度。他们出货了数以百万计的芯片。这个规模远远超过 Anthropic 所拥有的算力规模。”
黄仁勋认为,用算力压制中国,放弃中国市场,反而会倒逼中国研究出更聪明的算法,成为主流的AI栈。“让DeepSeek跑在华为芯片上可不是小事!”
其次,他提出一个核心判断:AI 竞争不只是模型或芯片,而是“五层结构”,从能源、硬件到应用,每一层都必须同时胜出。
而且,老黄对主持人“AI=核武器”的类比持强烈反对态度,认为这种叙事会抑制人才流入和产业发展。
此外,老黄给出了不少反行业直觉的观点。他认为算法进步(如 MoE、attention)对 AI 的推动甚至超过硬件,这直接削弱了“算力决定一切”的简单叙事。
再比如,提及现在芯片产能提升方面,老黄给出了一个冷门的答案:瓶颈在于“水管工”、“电工”。
另外,对于现在美国软件公司估值“缩水”的现象,业界普遍认为“AI 让软件变廉价”,但黄仁勋认为 Agent 的出现会让工具的使用频率指数级增长。
“目前限制软件公司的是工程师数量,未来 Agent 将以前所未有的方式通过现有工具探索设计空间。”
最后,老黄还爆料了一个内部观察到的信号:Nvidia 正在推动“推理分层定价”,高响应速度 token 将成为新的利润来源。
由此可以看出, AI 商业模式已经开始进入精细化分层的时代了。
英伟达不会被“商品化”,输入是电子,输出是 token,中间就是英伟达
主持人:我们看到一批软件公司的估值在下跌,因为大家预期 AI 会让软件变得商品化。有一种比较直观、甚至有点天真的理解是这样的:Nvidia 把 GDS2 文件交给 台积电,后者制造逻辑芯片和交换芯片,再把它们和 SK海力士、美光科技、三星电子 生产的 HBM 一起封装,然后送到t湾的 ODM 厂商组装成整机机架。从这个角度看,英伟达本质上是在做软件,而制造是别人完成的。如果软件被商品化了,那英伟达会不会也被商品化?
黄仁勋:归根结底,总要有一个过程,把电子变成 token,并且让这些 token 随时间变得更有价值,这件事很难被彻底商品化。而这是一段非常惊人的旅程。生成一个 token,就像让一个分子比另一个分子更有价值,让一个 token 比另一个 token 更有价值。这里面涉及的艺术、工程、科学和发明的复杂程度,我们现在正亲眼见证。这整个转化过程、制造过程,以及背后的科学,都远没有被完全理解,这条路也远没有走完。我不认为它会被商品化。
我们当然会让它变得更高效,但你刚才描述问题的方式,其实正是我对公司的心智模型:输入是电子,输出是 token,中间就是英伟达。我们的工作,是在“尽可能多做必要的事”和“尽可能少做不必要的事”之间找到平衡,从而以极高的能力完成这种转化。所谓“尽可能少做”,就是凡是我不需要亲自做的,就与合作伙伴一起完成,把它纳入我们的生态系统。
如果你看今天的英伟达,我们可能拥有最大的合作伙伴生态系统之一,既覆盖上游供应链,也覆盖下游,包括所有计算机厂商、应用开发者以及模型开发者。你可以把 AI 看成一个五层蛋糕,我们在这五层上都有生态布局。我们的策略是尽量少做,但我们必须做的那一部分,实际上极其困难。我不认为那部分会被商品化。另外,我也不认为企业软件公司会被商品化。

回应软件公司估值下跌:未来Agent反而会让软件公司爆发
黄仁勋:今天大多数软件公司本质上是工具制造商,有些是流程固化系统,但很多还是工具,比如 Excel 是工具,PowerPoint 是工具,Cadence Design Systems 和 Synopsys 也是工具公司。我看到的趋势其实正好相反:agent 的数量会指数级增长,工具的使用者也会指数级增长。这些工具的实例数量很可能会爆发式增长,比如 Synopsys Design Compiler 的实例数量会大幅增加,同时使用 floor planner、版图工具、设计规则检查工具的 agent 数量也会暴涨。
今天的限制在于工程师数量,未来工程师会被大量 agent 支持,我们将以前所未有的方式探索设计空间,而且依然会使用今天的这些工具。我认为工具的使用反而会让软件公司迎来爆发。之所以现在还没发生,是因为 agent 还不够擅长使用这些工具。未来要么这些公司自己构建 agent,要么 agent 会进化到足够好,能够熟练使用这些工具,我认为两者都会发生。
为什么上游供应链都喜欢找英伟达,黄仁勋:下游需求足够强,而且我有能力消化供给
主持人:在你们最近的财报中,提到与晶圆厂、内存厂和封装厂的采购承诺接近1000亿美元。SemiAnalysis 报道说这个数字可能达到2500亿美元。一种解读是,英伟达的护城河在于你们锁定了未来多年稀缺的关键组件。别人也许能设计出加速I器,但能不能拿到内存?能不能拿到逻辑芯片?这是否才是英伟达未来几年的真正护城河?
黄仁勋:这是我们能够做到、而别人难以做到的事情之一。我们在上游做了巨大的投入,有些是显性的,比如你提到的采购承诺;有些是隐性的,比如很多上游投资其实是供应链伙伴自己做出的,因为我会对这些公司的 CEO 说:这个行业未来会有多大,我为什么这么判断,我是如何推演的,以及我看到了什么。通过这种信息传递、愿景激励和认知对齐的过程,上游各个行业的 CEO 愿意投入。
为什么他们愿意为我投入,而不是为别人?因为他们知道,我有能力消化他们的供给,并通过下游卖出去。英伟达的下游需求规模巨大,这让他们愿意在上游进行投资。如果你看 GTC,大家会惊叹它的规模和参与者,那是一个完整的 360 度生态,整个 AI 世界都在这里汇聚。他们之所以聚在一起,是因为彼此需要看见对方。我把他们聚在一起,让下游看到上游,让上游看到下游,同时让所有人看到 AI 的进展。更重要的是,他们能见到原生 AI 公司和各种初创企业,亲眼看到我所描述的一切正在发生。我花了大量时间去不断向供应链、合作伙伴和生态系统传递这个机会。
有些人会说,“Jensen,你的 keynote 一直在发布新东西。”但其中有一部分听起来甚至有点像“教学”,甚至略显枯燥。这其实是我有意为之——我要确保整个供应链,从上游到下游,都理解即将发生什么、为什么会发生、什么时候发生、规模有多大,并且能够像我一样系统性地推理这些问题。
关于你说的护城河,我们确实是在为未来构建能力。如果未来几年是万亿美元规模,我们的供应链是能够支撑的。没有这样的覆盖能力和业务速度,就像现I金流一样,供应链也有流动性和周转。如果业务周转不够快,没有人会为某种架构建立供应链。我们之所以能维持这种规模,是因为下游需求足够强,而且他们能看到、听到这一切正在到来,这让我们能够以这样的规模去运作。
主持人:我还是想更具体地理解,上游是否能跟上。过去几年你们的收入每年都在翻倍,提供给全球的算力 FLOPS 甚至超过三倍增长。在这样的规模下还能翻倍,这很惊人。
黄仁勋:没错。
黄仁勋:“水管工、电工,反而是很难解决的瓶颈”芯片产能两三年就能解决
主持人:但从逻辑芯片来看,你们已经是 台积电 N3 制程最大的客户之一,在 N2 上也是主要客户之一。今年 AI 可能占 N3 的60%,明年甚至达到86%。当你已经是大头的时候,还怎么继续翻倍?这种增长是否会因为上游限制而放缓?有没有办法突破?我们要怎么做到每年多建一倍的晶圆厂?
黄仁勋:在某种程度上,当下的即时需求,确实已经超过了全球上下游的供给能力。在某些时刻,我们确实会被“水管工”的数量限制,这种情况是真实发生的。顺便说一句,也许该把他们邀请到明年的 GTC。这其实是个好问题。
一个健康的产业,本来就应该是“即时需求大于总供给”,反过来就不太妙。如果某个环节差距过大,整个行业就会一拥而上去解决它。比如你会发现,现在大家已经很少再讨论 CoWoS 了,原因是过去两年我们对它进行了疯狂的投入,连续翻倍、再翻倍,现在基本已经处在比较好的状态。
台积电已经意识到,CoWoS 的产能必须跟上逻辑芯片和内存的需求,他们正在以和逻辑制程相同的节奏扩展 CoWoS 和未来的先进封装技术。这非常关键,因为很长一段时间里,CoWoS 和 HBM 内存都被当作“特种技术”,但现在不一样了,它们已经成为主流计算技术的一部分。如今我们对供应链的影响力也更大了。在 AI 革命初期,我现在讲的这些话,五年前就已经在讲了,有些人当时就相信并投入,比如 Sanjay Mehrotra 和 美光科技 的团队。我至今还记得那次会议,当时我非常清楚地讲了会发生什么、为什么会发生,以及今天的这些预测。他们选择了加码投入。我们在 LPDDR 和 HBM 上深度合作,他们也进行了大量投资,这对他们来说回报巨大。也有一些公司晚一点才跟上,但现在大家都进来了。每一个瓶颈都会被高度关注,而我们现在已经在提前几年预判瓶颈。比如过去几年我们在 Lumentum、Coherent Corp. 以及硅光子生态上的投资,实际上重塑了供应链。
我们围绕台积电构建了一整套供应链体系,与他们在 COUPE 上合作,发明了大量新技术,并将这些专利授权给整个供应链,让体系保持开放。我们通过发明新技术、新流程、新测试设备(比如双面探测),投资公司并帮助它们扩大产能,来提前准备供应链。可以看到,我们是在主动塑造整个生态,让供应链能够支撑未来的规模。
主持人:听起来有些瓶颈更容易解决,有些更难。
黄仁勋:我刚才其实已经提到最难的那个了。
主持人:哪个?
黄仁勋:水管工,还有电工。这也是我对一些“末日论者”观点的担忧,他们在谈论“工作终结”“就业消失”。如果我们劝年轻人不要去做软件工程师,那未来真的会缺软件工程师。十年前也发生过类似的事,有人说“千万别当放射科医生”,说这是最先消失的职业。现在的结果是什么?我们正缺放射科医生。
回到刚才的问题,有些东西可以扩展,有些不行。比如如何每年把逻辑芯片产量翻倍?最终,内存和逻辑芯片的瓶颈在 EUV 光刻机。那怎么实现每年 EUV 数量翻倍?其实这些都不是无法扩展的难题,大多数问题在两三年内就能解决,关键是要有明确的需求信号。一旦你能造出一台,就能造十台;能造十台,就能造一百万台。这些东西本身并不难复制。
问题在于你要把视野延伸到供应链的多深层。你会不会去找 ASML 说:“三年后,如果英伟达要实现两万亿美元营收,我们需要更多 EUV 设备?”有些环节需要我直接推动,有些是间接推动。如果我能说服台积电,那 ASML 自然也会被说服。关键是识别那些真正的“卡点”。一旦台积电相信了,几年内就会有足够的 EUV 设备。我的判断是,没有哪个瓶颈会持续超过两三年。同时,我们还在把计算效率提升 10 倍、20 倍,从 Hopper 到 Blackwell,甚至达到 30 到 50 倍。因为 CUDA 足够灵活,我们还能持续创造新的算法和技术,在扩展产能的同时提升效率。这些都不让我担心。
真正让我担心的,是我们下游之外的因素,比如能源正策。如果能源供应受限,产业就无法发展。没有能源,就无法建立新的制造业体系。我们希望美国再工业化,把芯片制造、计算机制造、封装带回本土,同时建设电动车、机器人和 AI 工厂,但这些都离不开能源,而能源体系建设需要更长时间。相比之下,增加芯片产能是两三年的问题,提升 CoWoS 产能也是两三年的问题。
主持人:有意思,我有时会听到完全相反的说法,但我自己没有足够的技术背景来判断。
黄仁勋:你现在问的是专家。
谷歌TPU和英伟达GPU,黄仁勋:完全不同
主持人:确实。我想聊聊竞争对手。如果看 TPU,目前全球前三的大模型里,有两个:Claude 和 Gemini,都是用 TPU 训练的。这对英伟达意味着什么?
黄仁勋:我们做的是完全不同的东西。英伟达构建的是“加速计算”,而不是单一的张量处理单元。加速计算可以用于各种场景:分子动力学、量子色动力学、数据处理、数据框架、结构化数据、非结构化数据,也包括流体力学和粒子物理。当然,我们也用它来做 AI。加速计算的应用范围要广泛得多。
虽然今天大家都在讨论 AI,它确实很重要,但计算本身远不止于此。英伟达实际上重新定义了计算方式,从通用计算转向加速计算。我们的市场覆盖范围远远超过任何 TPU 或 ASIC。
如果看我们的定位,我们是唯一一家能够加速各种类型应用的公司,拥有庞大的生态系统,各类框架和算法都运行在英伟达之上。我们的系统是为“被他人操作”而设计的,任何运营者都可以直接购买和使用。但很多自研系统必须由自己来操作,因为它们从一开始就没有为通用性设计。
正因为任何人都能操作我们的系统,我们存在于所有云平台中,包括 Google、Amazon、Microsoft Azure 和 Oracle Cloud Infrastructure。如果你想把它作为租赁服务来运营,你就需要一个横跨多个行业的大规模客户生态来承接算力需求;如果你是自用,我们也可以帮你运营,比如我们为马斯克的 xAI 所做的那样。
因为我们能够支持任何行业、任何公司的运营需求,你可以用它在 礼来公司 建立一个用于科研和药物发现的超级计算机,我们可以帮助他们运行这个系统,并覆盖整个药物研发和生命科学的计算需求。
有大量应用场景是 TPU 无法覆盖的。英伟达通过 CUDA 也能很好地支持张量计算,但它同时覆盖了数据处理、计算和 AI 的完整生命周期。我们的市场空间更大,触达范围也更广。
因为我们现在支持几乎所有应用,你可以在任何地方部署英伟达系统,并且确信一定会有客户使用它。这是完全不同的。
英伟达GPU的核心优势:算法层面的创新,不只依赖摩尔定律
主持人:但问题在于,从“AI 本身”的角度看,什么才是最优解?我虽然不做底层细节,但我和一些 AI 研究者聊过,他们的说法是:TPU 本质上是一个很大的 systolic array,非常适合做矩阵乘法,而 GPU 更灵活,在分支多、内存访问不规则的情况下表现更好。但 AI 的本质似乎就是一遍又一遍地做可预测的矩阵乘法。既然如此,就不需要为 warp 调度器、线程切换、内存银彳这些东西浪费芯片面积。TPU 正好针对当前计算需求的主体,也就是这些矩阵计算,做了极致优化。你怎么看这种说法?
黄仁勋:矩阵乘法确实是 AI 的重要组成部分,但绝不是全部。如果你想设计一种新的 attention 机制,或者用不同方式做拆分,甚至发明一种全新的架构,比如混合 SSM,你就需要一个通用可编程的架构。如果你想把 diffusion 和自回归方法融合起来,也同样需要通用可编程性。我们的系统几乎什么都能跑,这就是优势所在。它让新算法的发明变得更容易,因为这是一个可编程系统。而推动 AI 快速进步的核心,其实正是新算法的不断涌现。
像 TPU 这样的架构,同样会受到摩尔定律的限制,每年大约提升25%。但如果你想实现 10 倍、100 倍的飞跃,就必须每年从根本上改变算法和计算方式。这正是英伟达的核心优势。
我们之所以能让 Blackwell 相比 Hopper 提升 50 倍效率(当初我说 35 倍时都没人相信)是因为我们在算法层面做了创新,而不是只依赖摩尔定律。比如 MoE 模型,通过并行化、解耦、分布式计算实现效率跃迁。如果没有 CUDA 去深入到底层、写新的 kernel,这些几乎不可能实现。这背后是两个能力的结合:一是架构的可编程性,二是英伟达极致的“协同设计”能力。我们甚至可以把部分计算下沉到互联层,比如 NVLink,或者网络层,比如 Spectrum-X。我们可以同时在处理器、系统、互联、库和算法多个层面做优化。如果没有 CUDA,我甚至不知道该从哪里开始。
CUDA的三点优势
主持人:来聊一聊英伟达的客户结构。你们60%的收入来自五大超大规模云厂商。在过去的时代,比如做科研的教授,他们必须用 CUDA,因为他们需要跑 PyTorch 和各种优化。但这些 hyperscaler 有能力自己写 kernel,甚至为了那最后5%的性能必须自己写。
比如 Anthropic 和 Google 很多时候都在用自己的加速I器,TPU 或 Trainium。即使是用 GPU 的 OpenAI,也在用 Triton 写自己的 kernel,甚至往下走到 CUDA C++,绕过 cuBLAS 和 NCCL,构建自己的软件栈,并且可以编译到其他加速I器上。如果你的大客户都可以、也确实在替代 CUDA,那 CUDA 在“前沿 AI”中的作用到底有多关键?
黄仁勋:CUDA 是一个非常丰富的生态系统。如果你要在任何计算平台上开发,从 CUDA 开始是非常聪明的选择。因为生态足够完善,我们支持所有主流框架。如果你要写自定义 kernel,比如 Triton,我们其实也做了大量贡献,它的后端包含大量英伟达技术。我们乐于帮助所有框架变得更好。现在有很多框架,比如 Triton、vLLM、SGLang,还有一批新的强化学习框架,比如 verl 和 NeMo RL。
随着后训练和强化学习的发展,这个领域正在爆发。如果你要基于某种架构开发,选择 CUDA 是最合理的,因为你可以信任这个生态。当系统出问题时,更大概率是你的代码,而不是底层复杂的基础设施。别忘了,这些系统涉及的代码规模是巨大的。你当然希望问题出在自己这里,而不是计算机本身。虽然我们也有 bug,但整个系统已经被充分打磨,你可以在这个基础上构建。这是第一点:生态的丰富性、可编程性和能力。
第二点,如果你是开发者,你最需要的是“装机量”。你希望你写的软件能运行在大量计算机上,而不是只服务自己。作为框架开发者,你是在为整个集群甚至整个行业写软件。CUDA 的生态就是英伟达最重要的资产。现在全球已经有数亿块 GPU,所有云平台都有,从 A10、A100、H100、H200,到 L 系列、P 系列,形态非常多样。如果你是做机器人,你也希望 CUDA 能跑在机器人本体上。我们几乎无处不在。这意味着一旦你开发了软件或模型,它可以在任何地方运行,这一点价值极高。
最后,我们存在于所有云平台,这一点也极其独特。如果你是 AI 公司或开发者,你未必一开始就知道要用哪家云,但无论在哪里运行,英伟达都在那里,甚至你也可以本地部署。生态的丰富性、装机规模以及部署灵活性,共同让 CUDA 变得不可替代。
大客户都可以自己写Kernel,会不会影响英伟达收入,黄仁勋提飞轮逻辑:没有人比我们自己更专业
主持人:这确实很有说服力。我好奇的是,这些优势对你们的核心客户来说,到底有多重要。能够自己构建软件栈的那类客户,其实占了你们收入的大头。尤其是在一个 AI 越来越擅长“可验证闭环任务”的世界里,可以对这些任务做强化学习优化。比如如何写一个 attention 或 MLP 的 kernel,让它在大规模系统中效率最高,这是一个非常容易验证反馈的过程。
那么这些 hyperscaler 是否都可以为自己写这些定制 kernel?当然,英伟达在性价比上依然很强,他们可能仍然会优先选择你们。但问题在于,这是否最终会变成一个纯粹的“参数比拼”,谁能在单位成本下提供更高的 FLOPS 和内存带宽?而历史上,英伟达在硬件和软件上一直拥有超过70%的利润率,很大程度上来自 CUDA 的护城河。如果大多数客户都有能力自建替代方案,这样的利润率还能维持吗?
黄仁勋:我们投入到这些 AI 实验室的工程师数量是非常惊人的,他们与客户一起工作,优化整个软件栈。原因很简单,没有人比我们更了解自己的架构。而且这些架构并不像 CPU 那样通用。CPU 更像一辆凯迪拉克,平稳舒适,不会特别快,但谁都能轻松驾驶。而英伟达的 GPU 和加速I器更像 F1 赛车,大多数人可以开到每小时一百英里,但要把性能推到极限,需要非常高的专业能力。我们自己也大量使用 AI 来生成这些 kernel。我很确定,在未来相当长一段时间里,客户仍然需要我们。
我们的专业能力,往往可以帮 AI 实验室在现有栈上再获得2倍性能提升,这是很常见的情况。有时在我们优化完某个 kernel 或整个系统之后,模型性能可以提升3倍、2倍,甚至50%。这个提升非常巨大,尤其是当你考虑到他们拥有的大规模 GPU 集群——无论是 Hopper 还是 Blackwell——当性能翻倍,收入也会直接翻倍。这是可以直接转化为收入的。英伟达的计算栈,在“总拥有成本(TCO)”上的性能表现是全球最优的,没有例外。没有任何一家公司能向我证明,在性能/TCO 上有更好的平台。现有的一些基准测试也是如此,比如 Dylan 的 InferenceMAX 就摆在那里,但没有一家——无论是 TPU 还是 Trainium——愿意出来对比。
我非常欢迎他们用 InferenceMAX 展示自己的推理成本优势,但这件事非常难,所以没人愿意参与。再比如 MLPerf,我也很欢迎 Trainium 来证明他们常说的40%优势。我也很想看到 TPU 展示成本优势,但在我看来,这在逻辑上根本站不住脚。
所以我们成功的原因很简单:我们的 TCO 优势非常明显。
其次,你说我们60%的收入来自五大客户,但这些业务大多数其实是“外部客户”的需求。比如在 Amazon Web Services 上运行的英伟达算力,大部分是服务外部客户,而不是 AWS 自己使用。在 Microsoft Azure 上,我们的客户全部是外部客户;在 Oracle Cloud Infrastructure 上也是一样。他们选择我们,是因为我们的覆盖面非常广,可以为他们带来全球最优质的客户,而这些客户本身就是构建在英伟达之上的。
这背后的飞轮是:装机规模、架构的可编程性、生态系统的丰富程度,以及全球大量 AI 公司。
如果你是一家 AI 初创公司,你会选什么架构?你会选最普及的、装机量最大的、生态最丰富的那一个,而这些我们都是第一。这就是飞轮的逻辑。
再加上几个因素:第一,我们的“单位成本性能”极高,意味着最低的 token 成本;第二,我们的“单位功耗性能”也是全球最高。如果一个合作伙伴建一个1GW的数据中心,它就必须产生最多的 token 和收入,我们在“每瓦 token 数”上是全球最优。最后,如果你的目标是出租算力,我们拥有全球最多的客户。这就是为什么这个飞轮能持续运转。
“如果没有Anthropic,TPU和Trainium的增长从哪里来?”
主持人:好,我先把问题问完,然后我们再一起讨论。如果关于价格、性能、能效这些判断都成立,那为什么像 Anthropic 这样的公司,最近还宣布与 博通 和 Google 达成多吉瓦级的 TPU 合作?甚至他们的大部分算力都在用这些方案。对 Google 来说,TPU 本来就是主要算力来源。如果看这些头部 AI 公司,他们的算力结构似乎在发生变化,曾经几乎全是英伟达,现在不再是这样。如果纸面上的优势都成立,为什么他们还会选择其他加速I器?
黄仁勋:Anthropic 是一个非常特殊的个例,不代表趋势。如果没有 Anthropic,TPU 的增长从哪里来?基本都是它带动的。同样,如果没有 Anthropic,Trainium 的增长从哪里来?也是它。我认为这一点其实是行业共识。并不存在一个广泛的 ASIC 机会窗口,本质上只有一个 Anthropic。但 OpenAI 也在和 AMD 合作,还在开发自己的 Titan 加速I器。
主持人:是的,但大家也都知道,他们绝大部分算力还是英伟达。
黄仁勋:我们未来仍然会有大量合作。我并不介意别人尝试其他方案。相反,如果他们不尝试,怎么知道我们的方案有多好?有时候需要对比一下才更清楚。我们必须持续“赢得”现在的位置。
行业里一直都有各种宏大的宣称,但你也看到有多少 ASIC 项目被取消了。设计 ASIC 并不意味着成功,你仍然要做出比英伟达更好的东西,而这并不容易,甚至可以说不太现实。很多人总觉得英伟达一定遗漏了什么,但考虑到我们的规模和迭代速度,我们是唯一一家每年都在实现巨大跨越的公司。我理解他们的逻辑是:“不需要比英伟达更好,只要别差超过70%就行”,因为他们认为你们有70%的利润空间。
别忘了,即便是 ASIC,利润率也很高。英伟达大约70%,但 ASIC 也有65%,你真正省下的并不多。
黄仁勋坦承:Anthropic在早期投资阶,自己段判断失误了
主持人:你的意思是像博通这样的公司?确实,总得有人转前。从我看到的情况来看,ASIC 的利润率其实也非常高,他们自己也这么认为,而且对此非常自豪。所以问题还是回到:为什么会出现现在这种局面?
黄仁勋:很早之前,我们其实没有能力去做这件事。当时我没有真正意识到,像 OpenAI 和 Anthropic 这样的基础模型实验室,构建起来有多困难,以及它们需要供应商本身提供多么巨大的资金支持。那时候我们无法为 Anthropic 提供数十亿美元的投资,让它使用我们的算力,但 Google 和 Amazon Web Services 可以。他们在早期投入了巨额资金,换取 Anthropic 使用他们的算力资源。我们当时没有这个能力。
我认为我的一个失误是,没有意识到他们其实没有其他选择,风险投资机构不可能投入50亿到100亿美元去赌一个 AI 实验室最终能成为 Anthropic。所以这是我的判断失误。但即便当时意识到了,我们也未必有能力去做。不过同样的错误我不会再犯。我很高兴投资 OpenAI,也很乐意帮助他们扩展规模,我认为这是非常必要的。后来当 Anthropic 找到我们时,我也很高兴成为投资方,帮助他们成长。只是当初我们确实做不到。如果可以重来一次,如果当年的英伟达有今天这样的规模,我会非常愿意更早参与。
主持人:这点其实很有意思。很多年来,英伟达一直是 AI 行业中最转前的公司之一,而现在你们开始把这些钱投出去。有报道称你们向 OpenAI 投了约300亿美元,向 Anthropic 投了100亿美元。随着这些公司的估值持续上涨,如果回到几年前,当时它们的估值只有现在的十分之一甚至更低,而你们已经有大量现I金,其实存在另一种可能:要么英伟达自己成为一家基础模型公司,要么更早以更低估值达成这些投资。那为什么没有更早这么做?
黄仁勋:我们是在有能力的时候第一时间做的,如果可以更早,我也会更早去做。但在 Anthropic 当时需要我们的时候,我们确实没有这个能力,也没有这样的认知。
主持人:是资金的问题吗?
黄仁勋:一方面是投资规模太大。当时我们从未在公司外做过如此大规模的投资,也没有意识到有这个必要。我一直以为他们可以像其他公司一样从风投那里融资。但他们要做的事情,风投是无法支撑的。
OpenAI 的路径也是一样。我现在明白这一点了,当时并没有意识到。这也是他们聪明的地方,他们很早就看清了这一点,并采取了相应的策略。我很高兴他们这么做了。即便这让 Anthropic 当初不得不去找其他合作方,我仍然认为这是好事。Anthropic 的存在对整个世界都是有价值的。
为什么英伟达不自己做云?黄仁勋:“做必要的全部,多余的一点不做”
主持人:你们现在依然在持续赚很多钱,而且每个季度都在增长。即便如此,回头看也难免会有一些遗憾。所以问题还是回到现在:既然你们有这么多现I金,英伟达接下来应该怎么用?现在有一个中间层生态在兴起,把资本开支转化为运营开支,让这些 AI 实验室可以租用算力。芯片本身很贵,但随着模型能力提升,它们在生命周期内能创造更多价值。既然英伟达有能力承担这些前期投入,比如你们为 CoreWeave 提供了最高63亿美元的担保,还投资了20亿美元,那为什么不自己做云?为什么不成为 hyperscaler,直接把算力租出去?
黄仁勋:这是公司的一个核心理念,而且我认为是正确的:我们应该做“必要的全部,但不必要的一点不做”。
换句话说,在构建计算平台这件事上,如果我们不做,就真的没有人会去做。如果我们不承担这些风险——比如打造 NVLink、构建完整的软件栈、建立生态系统,甚至在 CUDA 上投入20年、长期亏损——这些事情都不会发生。如果我们不开发 CUDA-X 这些面向特定领域的库,比如光线追踪、图像生成、早期 AI 模型、数据处理、结构化和向量数据处理等,这些也不会有人来做。我对此非常确定。我们甚至开发了计算光刻库 cuLitho,如果不是我们,也不会有人做。
所以,如果没有这些投入,加速计算不会发展到今天这个程度。这些事情是我们必须做的,也是我们应该全力以赴去做的。但云计算不同,世界上已经有很多云厂商。如果我们不做,也一定会有人来做。所以按照“做必要的全部、但尽量少做”的原则,我们不会亲自下场做云。
但如果我们不支持像 CoreWeave 这样的公司,这些新型 AI 云(neocloud)也不会出现。如果我们不支持 Nscale,他们不会发展到今天;如果我们不支持 Nebius,情况也是一样。我们选择投资生态,是因为希望整个生态繁荣发展。我们希望 AI 能连接尽可能多的行业、国家,让整个世界都建立在 AI 之上,并且建立在美国技术栈之上,这就是我们的愿景。还有一点,你提到现在有很多优秀的基础模型公司,我们的策略是尽可能投资所有人。我们不去押注单一赢家,这是我们的原则,也是业务上的必然选择。
“不刻意押注单一赢家”的逻辑
主持人:为什么刻意不去选择赢家?
黄仁勋:第一,这不是我们的职责。第二,当年英伟达刚成立的时候,市场上有60家做3D图形的公司,最后只剩下我们一家。
如果你当年面对那60家图形公司,试图判断谁能活下来,英伟达大概率会被排在“最不可能成功”的名单前列。这发生在你出生之前,当时英伟达的图形架构是完全错误的,不是“有点问题”,而是从根子上就错了。我们做出来的架构,开发者几乎不可能支持,从一开始就看起来不可能成功。我们是基于一套合理的第一性原理去推演的,但最终得到的是错误的答案。按当时的情况,所有人都会把我们排除在外。但结果你也看到了,我们活下来了。所以我始终保持足够的谦逊,不去“选赢家”。要么让他们自己发展,要么就支持所有人。
主持人:有一点我没太理解。你一方面说不会因为这些是 neocloud 就刻意扶持它们,另一方面又说如果没有英伟达,这些公司就不会存在,这两点怎么同时成立?
黄仁勋:首先,是他们自己想要存在,他们带着商业计划、能力和热情来找我们。他们本身必须具备一定能力。如果在启动阶段需要资金支持,我们会提供帮助。但一旦他们的飞轮开始运转……你刚才的问题是,我们是否想做“融资业务”?答案是否定的。这个世界上已经有专门做融资的人,我们更愿意与他们合作,而不是自己成为资金提供方。我们的目标是专注于我们擅长的事情,让商业模式尽可能简单,同时支持整个生态。当像 OpenAI 这样的公司,在上市前需要300亿美元级别的资金,而我们又深信它的价值——它已经是一家非常卓越的公司,未来会更强,世界需要它存在——那我们就会支持它、帮助它扩张。这类投资我们会做,因为它们“需要我们做”。但我们的原则始终是:做必要的,不做多余的。
主持人:这听起来很合理。
英伟达如何与客户商讨GPU订单?
主持人:回到一个更现实的问题。过去这些年我们一直处在 GPU 短缺的状态,而且随着模型能力提升,这种短缺还在加剧。英伟达在分配这些稀缺资源时,并不是简单价高者得,而是会考虑生态,比如给 CoreWeave、Crusoe、Lambda Labs 这些 neocloud 分配一部分。这对英伟达来说为什么是好事?或者说,这种“分散市场”的说法是否成立?
黄仁勋:不,这个前提就是错的。我们对这些事情是非常谨慎的。首先,如果你没有下采购订单(PO),再多讨论都没有意义。在收到订单之前,我们能做什么?所以第一件事是,我们和所有客户一起努力做需求预测,因为这些设备和数据中心建设都需要很长时间。我们通过预测来对齐供需,这是第一步。
第二,我们尽可能和更多客户一起做预测,但最终你还是要下订单。如果你没有下单,那我也没办法。从某个时点开始,就是“先进先出”。另外,如果你的数据中心还没准备好,或者某些关键组件还不到位,导致你无法部署系统,我们可能会先服务其他客户。这本质上是为了最大化我们工厂的吞吐能力。除此之外,优先级就是简单的先进先出——你必须下单。
假的!马斯克没吃饭求GPU!
黄仁勋:有些传言,比如说拉里·佩奇和马斯克跟我吃饭时“求 GPU”,其实并不存在。我们确实一起吃过饭,也很愉快,但从来没有人“求 GPU”。他们只需要下订单。一旦下单,我们会尽最大努力提供产能。我们的逻辑很简单。
主持人:听起来像是一个排队系统,根据你什么时候下单、数据中心是否准备好来决定交付时间。但似乎并不是价高者得?
黄仁勋:我们从不这么做。
主持人:为什么不?
黄仁勋:因为那是很糟糕的商业行为。我们定一个价格,客户决定买不买。有些芯片公司会在需求高时涨价,但我们不会。你可以信任我们。我更希望成为一个可靠的存在,成为整个行业的基石。你不需要反复猜测价格——报价是多少,就是多少。即便需求暴涨,也不会改变。反过来,这也是为什么我们和台积电 的关系这么稳固。
主持人:对,你们合作差不多30年了。
黄仁勋:是的,而且我们之间甚至没有正式的法律合同。这其中有一种“默契的公平”。有时候我占便宜,有时候他们占便宜,但整体关系非常牢固。我完全信任他们,也完全依赖他们。同样,客户也可以信任英伟达:今年你会看到 Vera Rubin,明年会有 Vera Rubin Ultra,再下一年是 Feynman,再之后还有新的架构。每一年,你都可以依赖我们。你很难找到另一支 ASIC 团队,可以让你把整个业务押上去,相信他们每年都会交付,而且 token 成本每年都能下降一个数量级,像时钟一样稳定。
给英伟达下一个1000亿美元的AI工厂订单完全没问题
主持人: 我刚才提到了台积电。在历史上,没有其他晶圆厂能让你说出这样的话。
黄仁勋: 但你今天可以这样评价英伟达。你可以每一年都依赖我们。如果你想买价值10亿美元的AI工厂算力,没问题;如果你只想买1亿美元,也没问题;1,000万美元可以,一整柜可以,一张显卡也可以。甚至你想下一个1,000亿美元的AI工厂订单,也没有问题。
今天全世界只有我们一家公司能做到这一点。我对台积电也可以这么说——买一个,买10亿,都可以,只需要走正常的规划流程,做成熟企业该做的事情。英伟达能成为全球AI产业的基础,这个位置是几十年投入、承诺和坚持换来的。公司的稳定性和一致性非常重要。
Mythos 用的算力很普通,中国完全可以获得呼吁中美科研交流,不应该打压中国AI
主持人: 我想聊聊中国。这个问题我自己其实也没有定论,但我喜欢从反面挑战嘉宾。之前我问支持出口管制的 Dario Amodei,为什么不能让中美各自拥有“天才数据中心”。现在你立场相反,我换个问法。比如 Anthropic 刚发布的 Mythos Preview,他们甚至不公开,因为它有很强的网络攻击能力,可以发现大量漏洞。那如果中国公司和正府也能用这些AI芯片训练类似模型,并大规模运行,这会不会威胁美国安全?
黄仁勋: 首先,Mythos 用的算力其实很普通,而且这种算力在中国是完全可以获得的。你得先承认,中国是有芯片的。他们生产全球大约60%的主流芯片,甚至更多,这是个非常庞大的产业。他们也有世界顶级的计算机科学家,很多AI实验室里的研究员本来就是中国人,占全球大约一半。
再考虑他们拥有的资源:充足的能源、足够的芯片、大量AI人才。如果你担心他们,最好的方式是什么?把他们当敌人、打压他们,这不一定是最优解。他们确实是竞争对手,我们当然希望美国赢,但保持对话、保持科研交流,反而更安全。现在最大的问题是这种交流几乎不存在。两边的AI研究人员应该交流,也应该讨论哪些事情不该用AI做。
黄仁勋: 至于用AI找软件漏洞,这本来就是AI该做的事情。软件里本来就有大量漏洞,包括AI系统本身。AI能帮我们更高效,这是好事。一个被低估的点是:围绕AI安全,其实已经有一个非常丰富的生态——网络安全、隐私、安全机制等等。有很多AI初创公司在做一件事:让一个强大的AI,被成千上万个AI守护。未来一定是这样,一个AI不可能在没人监管的情况下运行。这也意味着,我们需要一个开放的生态:开源、开放模型、开放技术栈,让全球研究者都能参与构建“安全的AI”。而这些开源贡献里,很大一部分来自中国。我们不应该去压制它。
关于中国,我们当然希望美国拥有尽可能多的算力。目前美国的瓶颈其实是能源,这需要解决。同时,我们也希望全球开发者都基于美国技术栈开发AI,把创新带回美国生态。如果最终形成两个体系,一个开源但运行在非美国技术栈上,一个封闭运行在美国体系上,那对美国来说是很糟糕的结果。
半导体行业都知道,中国在主流芯片方面是垄断性地位
主持人: 我整理一下担忧。中国现在因为制程限制(比如7nm,没有EUV),算力大概只有美国的十分之一。所以美国公司能更早达到像 Mythos 这样的能力,并提前部署、修补漏洞。如果中国后来才追上,风险会更可控。而且推理阶段的算力规模也很关键,一个黑客有一百万个AI实例和一千个完全不同。所以问题是,是不是应该让美国始终保持算力优势,从而先一步应对这些风险?
黄仁勋: 我们当然始终拥有更多算力。但如果你要让你刚才那个结论成立,就必须把事情推到极端——他们必须完全没有算力。
黄仁勋:如果他们有一部分算力,问题就变成他们需要多少?中国现有的算力规模其实非常庞大。你说的是一个全球第二大计算市场的国家。如果他们想把算力集中起来,他们完全有足够的资源。
主持人: 但这真的成立吗?很多分析认为,比如 SMIC 在制程节点上是落后的。
黄仁勋:我来告诉你。首先,他们拥有惊人的能源规模,对吧?AI本质是一个并行计算问题。既然如此,为什么他们不能用4倍、10倍的芯片数量来弥补?他们有大量能源,还有很多空置但已经供电的数据中心。基础设施非常充足。如果他们愿意,可以把更多芯片拼接在一起,即便是7nm工艺。他们的芯片制造能力在全球也是顶级的。整个半导体行业都知道,他们在主流芯片上几乎是垄断地位,而且是产能过剩。所以,说中国拿不到AI芯片,这完全是站不住脚的。
AI是一个五层蛋糕:能源多可以弥补芯片不足
黄仁勋:当然,如果你问我,美国如果是唯一拥有算力的国家,会不会更领先?但那根本不是现实场景。他们已经有足够的算力,而且已经超过你担心的那个“门槛”。你忽略了一点:AI是一个“五层蛋糕”,最底层是能源。能源多可以弥补芯片不足,芯片多也可以弥补能源不足。
举个例子,美国现在真正稀缺的是能源,这也是为什么英伟达必须不断做架构创新,通过极致协同设计,让每一瓦的吞吐达到极限。但如果你的能源是充足甚至接近免费的,那你根本不在意“每瓦性能”,你可以用更多、甚至更旧的芯片来堆。
比如7nm,其实就接近 NVIDIA Hopper 这一代的能力。现在很多模型本来就是在Hopper上训练出来的。所以7nm完全够用。中国的优势在于能源充足。
中国能造出足够多芯片吗?黄仁勋:当然。华为就是例子,如果DeepSeek优先跑在华为平台上,不是小事
主持人: 但他们能制造足够多芯片吗?
黄仁勋:能。证据是什么?华为刚刚经历了公司历史上最好的一个年度。他们出货了多少芯片?很多,数以百万计。这个规模远远超过 Anthropic 所拥有的算力规模。
主持人: 但训练和推理的瓶颈往往是带宽。如果是HBM2,对比你们最新一代,带宽可能差一个数量级。
黄仁勋:华为本来就是一家网络公司。而且这不意味着一定需要EUV才能做最先进的内存,这个说法并不成立。你可以像我们用 NVL72 那样,把系统规模做大。他们已经展示了硅光技术,把大量算力连接成一个超级计算机。所以你的前提本身就有问题。现实是,他们的AI发展进展顺利。而且,算力受限反而会逼出更聪明的算法。
记住,我刚说过,摩尔定律每年大约提升25%。但通过算法,我们可以实现10倍的提升。真正的杠杆在计算机科学。比如 Mixture of Experts,比如各种注意力机制,都是在减少计算量。AI的进步,很大一部分来自算法,而不仅仅是硬件。
那你再想一个问题:如果进步主要来自算法,而他们拥有庞大的AI研究人员队伍,这难道不是他们的核心优势?我们已经看到了,DeepSeek 的突破不是小事。如果有一天DeepSeek优先在华为平台上运行,那对我们来说是非常不利的。
主持人: 为什么?现在像DeepSeek这样的模型是开源的,可以在任何硬件上运行。
黄仁勋:如果未来它被专门优化到某一种架构上呢?那就会形成不对称优势。你刚才描述的是一种“好消息”:模型在美国技术栈上运行最好。但我给你一个真正的坏消息——如果未来全球的AI模型都在非美国硬件上运行得更好,那才是真正的问题。
主持人: 但我没有看到这种差距大到无法迁移。
黄仁勋:我就是证据。一个为英伟达优化的模型,你拿去别的平台跑,效果就是不一样。英伟达的成功本身就说明了这一点:模型在我们的技术栈上表现最好,这是事实。
主持人: 但像 Anthropic 这样的模型也运行在GPU、Trainium、TPU上。
黄仁勋:那是因为他们做了大量迁移工作。但你去看看全球南方国家、中东地区。如果“开箱即用”的模型在别人的技术栈上跑得更好,那对美国来说绝对不是好事。
华为芯片,完全可以做到平替
主持人: 但如果不向他们提供算力,他们真的能完全替代吗?
黄仁勋:这完全是误解。他们的芯片产业规模巨大。你可以去对比算力、带宽、内存,比如 Huawei Ascend 910C 和 NVIDIA H200,可能是二分之一或三分之一,但他们可以用更多数量来弥补。
主持人: 你的意思是他们可以用规模来弥补性能差距?
黄仁勋:对,他们有能源、有制造能力,而且会持续扩张。当然,未来几年确实关键。
美国不该放弃中国市场
主持人: 就是这几年,AI模型能力会爆发,比如网络攻击能力。如果接下来几年是关键期,那我们就必须确保,全球所有的 AI 模型都构建在美国技术栈之上。
黄仁勋:如果它们是基于美国技术栈构建的,这又如何阻止它们在具备更强能力时,发起类似 Mythos 的网络攻击?这件事本来就没有绝对的保证。
主持人:但如果你先拥有这种能力,我们至少可以提前做准备。
黄仁勋:你为什么要让 AI 产业中的某一层失去整个市场,只为了让另一层受益?AI 是一个“五层蛋糕”,每一层都必须成功。最关键的一层其实是应用层。你为什么如此执着于某一个模型、某一家公司?
主持人:因为这些模型带来了非常强的攻击能力,而运行它们需要算力。
黄仁勋:我觉得你在用一种过于绝对化的方式思考问题。美国的算力规模是全球其他地区的 100 倍。我们在打造最先进的技术,并优先提供给美国的 AI 实验室。如果他们资金不够,我们甚至会投资他们。这一点我们在全力以赴。
我们有 Vera Rubin GPU architecture 提供给美国。先进技术优先在美国部署,这一点没有问题。但问题是,为什么不制定更平衡的正策,让 Nvidia 在全球赢,而不是主动放弃全球市场?
芯片产业是美国科技体系的一部分,是 AI 生态的一部分,也是领导力的一部分。你的逻辑,实际上是在让美国放弃全球市场。
关键在于持续创新
主持人:那问题的核心是:现在卖芯片,如何帮助长期竞争?
黄仁勋:Tesla 曾经长期向中国销售先进电动车,iPhone 也在中国销售。这并没有形成锁定,中国仍然发展出了自己的产业。
但 Nvidia 的情况不同。我们最核心的资产是开发者生态。全球 50% 的 AI 开发者在中国,美国不应该放弃这一点。
主持人:但美国开发者也很多,这并不妨碍他们使用其他加速I器。
黄仁勋:关键在于持续创新。你也看到了,我们的市场份额是在增长的。
黄仁勋:像 x86 架构之所以能存在这么久,是有原因的;ARM architecture 之所以粘性这么强,也是有原因的。这类生态一旦建立,就很难被替代,需要巨大的时间和精力,大多数人并不愿意去做这种替换。
所以我们的职责,是持续培育这个生态,不断推进技术,让我们在市场中具备竞争力。基于你刚才的前提去主动放弃市场,我无法认同,这没有道理。那种失败主义的前提,对我来说毫无意义。
主持人:但他们还是在买你的芯片。
黄仁勋:因为我们的芯片更好,这是事实。你能不能承认一个事实:像 Huawei 这样的公司刚刚经历了历史上最好的一年?很多芯片公司在上市。
主持人:可以,但你们在中国市场的份额已经下降了。
黄仁勋:中国占全球科技产业大约 40%。让美国企业放弃这个市场,是对国家、对国家安全、对技术领导力的伤害,而且只是为了成全某一家公司,这没有逻辑。
主持人:我有点困惑。你一方面说你们能赢,因为你们更强;另一方面又说即使没有你们,他们也会发展。这两件事怎么同时成立?
黄仁勋:很简单。如果没有更好的选择,人们就会用唯一的选择。这有什么不合逻辑的?他们想要 Nvidia,是因为更好。
主持人:更好意味着更多算力,更多算力意味着更强模型。
黄仁勋:“更好”不只是算力,还包括更容易编程、更强的生态。不管是哪种“更好”,关键是:我们也从中受益。
我们获得美国技术领导力的收益,获得开发者在美国技术栈上工作的收益。当这些模型扩散到全球,美国技术栈也随之扩散,并持续演进。这是正向循环。
这是美国技术领导力的重要组成部分。你现在主张的这些正策,曾经已经让美国在通信产业上失去全球主导地位,甚至影响到自身基础设施的掌控。这种思路过于狭隘,而且带来了明显的反作用。
一场“绝对假设”下的讨论:黄仁勋谈放弃中国市场的真正风险
主持人:那我们回到一个更清晰的问题:收益和风险的权衡。风险在于,算力是训练强大模型的核心输入,而强模型具备攻击能力。如果中国更早获得这些能力,并大规模部署,可能带来严重后果。
美国之所以能先达到 Mythos 级别,是因为算力更强。这本身就是 Nvidia 带来的优势。如果这些算力流向中国,这就是潜在成本。你是否承认这一点?
黄仁勋:我也可以告诉你另一种“成本”:我们让 AI 技术栈中最关键的一层——芯片层——放弃全球第二大市场。
结果是什么?他们会形成规模,建立自己的生态,未来的 AI 模型将围绕他们的技术栈优化。当 AI 向全球扩散时,他们的标准、他们的技术栈,反而会变成主流,甚至优于美国。这才是真正的风险。
主持人:但我相信 Nvidia 的工程能力,比如 CUDA 和内核优化,可以应对这些变化。
黄仁勋:AI 远不只是内核优化。
主持人:但你们还有蒸馏、模型适配等手段。
黄仁勋:我们当然会尽全力。但你忽略了一点:中国是全球最大的开源软件贡献者,也是开源模型最大的贡献者。而今天,这一切是构建在 Nvidia、也就是美国技术栈之上的。这是事实。
图片
将AI描述成核武器是错误的,会形成误导
黄仁勋:如果我们把 AI 描述成“核武器”,让整个社会恐惧它,那是在伤害自己。如果因为恐惧 AI 而没人愿意做软件工程师、没人愿意学放射学,那同样是在伤害自己。工作和任务是两回事。放射科医生的工作是照顾病人,而不是单纯读片。
当讨论建立在极端假设上时,人们会被误导。现实不是 0 或 1。我们当然希望美国领先,也必须在每一层都领先。但几年后,当美国希望把技术推广到印度、中东、非洲、东南亚时,如果因为今天的正策而失去了全球第二大市场,那将是一个巨大的错误。
黄仁勋:我们不应该主动放弃市场。如果输了,那是竞争的结果;但主动放弃,是不合理的。没有人主张“完全开放”。我们需要的是平衡:既保证美国拥有最先进、最多的技术,同时也要在全球竞争并取胜。这需要的是判断力,而不是极端立场。
中国芯片产业正在加速,不会停留在7nm
主持人:那关键在于,中国未来的芯片是否能在全球竞争中胜出。
黄仁勋:看事实就行了。Blackwell 相比 Hopper,并不是因为制程提升 50 倍,而是因为架构、计算机科学、系统设计的进步。摩尔定律早已放缓,真正的杠杆在软件和架构。
黄仁勋:AI 的进步,来自整个计算栈,而不仅仅是底层硬件。这也是 CUDA 成功的原因——它提供了一个灵活的生态,让各种新架构(比如 MoE、扩散模型)都能快速实现。如果我们被迫退出中国市场,不仅是正策错误,还会带来反作用:加速他们的芯片产业,推动他们的生态完全转向本土。这已经在发生。
而且他们不会停留在 7nm。他们会继续进步。制程差距并不是决定性因素,架构、网络、能源同样关键。这不是一个可以简单归纳的问题。
主持人:那延伸一个问题:既然先进制程产能有限,是否会回头利用旧制程来扩产 AI 芯片?
黄仁勋:没有必要。每一代的提升不只是晶体管,还有封装、系统设计、数值优化等大量工程。如果真的有一天产能完全无法扩展,我当然会回到 7nm。但现实是,我们更倾向于持续向前推进,而不是倒退。
在CUDA中引入Groq:现在的token市场分层了
主持人:有人问过我一个问题:为什么 Nvidia 不同时推进多条完全不同架构的芯片路线?比如做一个像 Cerebras 那样的晶圆级方案,或者类似 Dojo 的超大封装,甚至做一个不依赖 CUDA 的体系。你们有资源、有工程能力完全可以并行推进,那为什么要把赌注押在一条路上?
黄仁勋:我们当然可以这么做,只是没有更好的理由去这么做。我们在模拟器里已经把这些方案都验证过了,结果是可证明地更差,所以我们不会做。我们现在做的,就是我们认为最值得做的那些项目。如果未来工作负载真的发生根本性变化,我说的不是算法变化,而是整个市场形态的变化,那我们可能会引入新的加速I器。
比如最近我们引入了 Groq,并且会把它整合进 CUDA 生态。这么做的原因是,token 的价值已经变得非常高,因此不同 token 可以有不同定价。几年前 token 几乎是免费的,现在不一样了,不同客户对响应有不同要求。像我们的软件工程师,如果更快的响应能显著提升生产力,我愿意为此付费。这个市场是最近才出现的。
所以现在同一个模型,可以根据响应时间被分成不同的细分市场。这也是我们决定拓展帕累托前沿的原因——做一类响应更快但吞吐更低的推理产品。过去大家都认为吞吐越高越好,但现在可能存在一种高 ASP(单价)的 token,即便整体吞吐下降,收益依然更高。
主持人:也就是说推理市场会分层。
黄仁勋:对,这是一个很有意思的方向。不过从架构角度讲,如果我有更多资源,我还是会继续加码 Nvidia 自己的架构。
即便没有AI,英伟达依旧会做加速计算,因为收益的还有很多领域
主持人:最后一个问题。如果深度学习这波浪潮从未发生,Nvidia 今天会在做什么?除了游戏之外。
黄仁勋:还是一样:加速计算。这一直是我们在做的事情。我们从一开始的判断是:通用计算确实很有用,但对于很多计算任务来说并不高效。所以我们把 GPU 架构和 CUDA 结合到 CPU 上,把一部分工作负载卸载到 GPU 上执行,从而实现 100 倍、200 倍的加速。
这种能力可以应用在很多领域:工程、科学、物理、数据处理、计算机图形、图像生成等等。即使没有 AI,Nvidia 也会是一家非常大的公司。原因很简单,通用计算的扩展已经接近极限,而进一步提升性能,需要依赖领域特定的加速。
我们最早从计算机图形入手,但其实还有很多领域,比如粒子物理、流体模拟、结构化数据处理等等,这些都能从 CUDA 中受益。我们的使命一直是把加速计算带到全世界,推动那些通用计算做不到的应用突破。
早期的应用包括分子动力学、能源勘探中的地震处理、图像处理等等。在这些领域里,通用计算效率太低。
如果没有 AI,我当然会很遗憾。但正是因为我们在计算上的积累,让深度学习得以被“民主化”。任何研究者、科学家、学生,只要有一台 PC 或一块 GeForce 显卡,就可以做出很了不起的研究。
这个初衷从未改变。如果你看 GTC,大量内容其实和 AI 无关,比如计算光刻、量子化学、数据处理等等。这些都同样重要。AI 很火,但世界上还有很多同样关键的工作并不依赖 AI,而且计算也不只有张量这一种方式。我们希望帮助所有人。
主持人:Jensen,非常感谢。
黄仁勋:谢谢,我也很享受这次对话。
主持人:我也是。
参考链接:https://www.you@tube.com/watch?v=Hrbq66XqtCo
本文转载自51CTO技术栈,作者:云昭
相关标签:
相关推荐
专题
+ 收藏
+ 收藏
+ 收藏
+ 收藏
+ 收藏
+ 收藏
最新数据
相关文章
阿里云大模型服务平台百炼新人免费额度如何申请?申请与使用免费额度教程及常见问题解答
办公 AI 工具 OpenClaw 部署 Windows 系统一站式教程
Qwen3.6 正式发布!阿里云百炼同步开启“AI大模型节省计划”超值优惠
【新手零难度操作 】OpenClaw 2.6.4 安装误区规避与快速使用指南(包含最新版安装包)
OpenClaw 2.6.4 可视化部署 打造个人 AI 数字员工(包含最新版安装包)
【小白友好!】OpenClaw 2.6.4 本地 AI 智能体快速搭建教程(内有安装包)
零基础部署 OpenClaw v2.6.2,Windows 系统完整教程
【适合新手的】零基础部署 OpenClaw 自动化工具教程
开发者们的第一台自主进化的“爱马仕”来了
极简部署 OpenClaw 2.6.2 本地 AI 智能体快速启用(含最新版安装包)
AI精选
