AI算力扩容的新瓶颈竟是铜缆，英伟达押注光互连的深层逻辑

作者: admin 分类: AI技术 4 次浏览发布时间: 2026-04-07 08:06

引言：从NVL72机柜的5000根铜缆说起

如果打开 Nvidia NVL72 机柜的后盖，你最先注意到的，可能不是那 72 颗 GPU，而是那超过 5,000 根同轴铜缆编织成的密网。这些铜缆总长超过 3.2 公里，是整台机柜 1.36 吨自重的主要来源。这个2024年GTC上展示的庞然大物，将铜缆在AI算力系统中的物理存在感展现得淋漓尽致。然而，仅仅两年后，2026年3月的GTC上，英伟达CEO黄仁勋宣布要用光互连把GPU系统从72颗扩展到576颗乃至1,152颗，并在一个月内向三家光学公司投了60亿美元。而在两年前，他还说光互连太耗电。

这背后引出一个核心问题：为什么英伟达在2024年还推崇铜缆（低成本、零功耗、高可靠性），却在2026年转向光互连？这反映了AI算力扩张的什么根本矛盾？本文将拆解铜缆的技术约束、光互连的突破逻辑、竞争格局变化，以及这一转变对行业的影响。

铜缆的黄金时代与物理极限：为什么它曾是首选，又为何成为瓶颈？

从第一性原理看，铜缆的技术本质是无源传输，依赖电信号在导体中的传播。其优势在于：
– 成本低：材料便宜。
– 功耗近乎零：无有源组件。
– 可靠性高：无激光器老化等问题，故障率低。

2024年GTC上，英伟达网络高级副总裁Gilad Shainer向媒体表示：“铜是最好的连接方式，如果你能用的话。它非常便宜，功耗为零，没有任何有源组件。”黄仁勋在同年GTC主题演讲中算过一笔账：如果NVL72用可插拔光模块替代铜缆，每颗Blackwell GPU需要配18个800 Gbps光模块，加速器端9个，交换机端9个，整套系统要多消耗约20,000瓦。对一台已经吃掉120千瓦的机柜来说，再加20千瓦不太切实。

然而，铜缆的约束条件在NVL72上已触及物理极限。在机柜正中央是9块NVSwitch托盘，被上下各9块计算托盘夹在中间。之所以这样排列，是因为铜缆信号在1.8 TB/s的带宽下跑不了几英尺就开始衰减，NVSwitch必须离每颗GPU尽可能近，居中是距离最短的布局。这迫使GPU规模扩展被限制在72颗左右，形成了硬上限。

量化来看，铜缆的优势与约束对比如下：

特性	铜缆	约束条件
成本	低（材料便宜）	–
功耗	近乎零（无有源组件）	–
可靠性	高（无激光器老化）	–
传输距离	–	1.8 TB/s带宽下仅几英尺
GPU扩展上限	–	约72颗（NVL72案例）

铜缆曾是首选，因为它以低成本、零功耗和高可靠性满足了当时AI算力的需求，但距离衰减这一物理特性最终成为扩展瓶颈。

光互连的突破：英伟达如何从“太耗电”转向60亿美元投资？

光互连的技术本质是使用光信号在光纤中传输，打破了铜缆的距离和带宽约束，支持更长距离（可达公里级）和更高带宽（如800 Gbps模块）。但传统可插拔光模块存在两大问题：
– 功耗高：如NVL72估算的20,000瓦额外功耗。
– 可靠性问题：在接近百万条链路的大规模AI集群里，可插拔的光模块每天可能出现数十次链路中断。

2024年英伟达因此否定了光互连方案。但到2026年，关键约束被突破。2026年GTC上，英伟达推出铜光混合的Vera Rubin NVL576和Rosa Feynman NVL1152系统，结合CPO（共封装光学）技术，将光学元件更紧密集成到芯片中，减少功耗和延迟，从而将GPU系统从72颗扩展到576颗乃至1,152颗。

产品核心参数对比如下：

产品	连接技术	GPU数量	推出时间
NVL72	铜缆	72颗	2024年GTC
NVL576	铜光混合+CPO	576颗	2026年GTC
NVL1152	铜光混合+CPO	1,152颗	2026年GTC

目标市场规模和增速方面，AI算力市场快速增长，光互连作为关键组件增速可能更高。2026年3月，英伟达向Coherent、Lumentum和Marvell投资60亿美元，锁定光学供应链，支持CPO技术部署，应对UALink竞争，旨在实现更大规模AI计算集群。

技术路线的关键约束是功耗和可靠性，而CPO技术通过紧密集成部分突破了这些约束，使光互连从“太耗电”变为“可以用”。

竞争格局与创新扩散：光互连如何重塑行业生态？

用波特五力分析竞争格局变化：
– 替代品威胁：铜缆作为传统方案面临光互连的替代，但混合方案可能成为过渡。
– 新进入者威胁：英伟达投资60亿美元加强垂直整合，应对UALink等竞品（如AMD、英特尔在高速互连领域的竞争）。

竞品的市场份额和定价对比：
– 英伟达在AI加速器市场占主导，份额超80%。
– 光互连领域有博通、思科等玩家。
– 定价方面，光模块成本高于铜缆，但CPO技术可能降低长期总拥有成本（TCO）。

创新扩散路径：从尝鲜者（早期AI超算用户）到主流市场需要以下条件：
1. 技术成熟度：CPO部署需稳定。
2. 成本下降：规模效应降低光模块成本。
3. 生态系统支持：供应链投资如60亿美元锁定光学组件。
4. 行业标准：如UALink的竞争推动互连协议发展。

英伟达的投资可能加速光学供应链整合，推动CPO技术普及，影响数据中心设计和能耗管理。

趋势研判与启示：AI算力扩张的未来路径与行业影响

基于素材，趋势研判可考虑三个情景：
1. 乐观情景：CPO技术快速成熟，光互连成为大规模AI集群标配，GPU规模突破千颗，驱动AI模型训练效率大幅提升。
2. 中性情景：铜光混合方案平稳过渡，铜缆在短距离场景保留，光互连逐步渗透，但供应链挑战延缓部署速度。
3. 悲观情景：CPO制造复杂性高，可靠性问题未完全解决，光互连推广受阻，AI算力扩展仍受铜缆限制。

领先指标可关注：
– CPO技术部署进度和故障率数据。
– 光学组件公司的产能和订单增长。
– AI算力集群中GPU数量的实际扩展情况。

行业影响：
– 英伟达的投资可能加速光学供应链整合，推动CPO技术普及。
– 对AI算力市场，突破物理极限支持更大模型训练（如千亿参数以上），驱动创新。
– 数据中心能耗管理可能优化，减少如20,000瓦额外功耗的潜在负担。

启示：
– 企业需关注光互连技术演进，评估TCO和可扩展性。
– 投资者可追踪光学组件公司和CPO进展。
– 这一转变凸显了AI基础设施中“连接”作为新瓶颈的重要性，未来可能催生更多跨领域创新，如硅光子技术与计算芯片的融合。

作为从业者，我观察到技术瓶颈往往出现在最意想不到的地方——这次是看似普通的铜缆。从数据库领域看，类似地，存储或网络延迟常成为系统性能的隐形杀手。解决之道不在于单一技术优化，而在于架构层面的突破，正如英伟达从铜缆转向光互连所展示的。未来，AI算力的竞争将愈发依赖于底层互连技术的创新，而不仅仅是GPU本身的算力提升。

关键数据与事实来源参考

如果打开 Nvidia NVL72 机柜的后盖，你最先注意到的，可能不是那 72 颗 GPU，而是那超过 5,000 根同轴铜缆编织成的密网。这些铜缆总长超过 3.2 公里，是整台机柜 1.36 吨自重的主要来源。
而在机柜正中央是 9 块 NVSwitch 托盘，被上下各 9 块计算托盘夹在中间。之所以这样排列，是因为铜缆信号在 1.8 TB/s 的带宽下跑不了几英尺就开始衰减，NVSwitch 必须离每颗 GPU 尽可能近，居中是距离最短的布局。
2026 年 3 月的 GTC 上，黄仁勋宣布要用光互连把 GPU 系统从 72 颗扩展到 576 颗乃至 1,152 颗，并在一个月内向三家光学公司投了 60 亿美元。
而在两年前，他还说光互连太耗电。
2024 年 GTC，Nvidia 第一次展示 NVL72 机柜（代号 Oberon）时，铜缆是理所当然的选择。Nvidia 网络高级副总裁 Gilad Shainer 向媒体表示：“铜是最好的连接方式，如果你能用的话。它非常便宜，功耗为零，没有任何有源组件。”
黄仁勋在同年 GTC 主题演讲中算过一笔账：如果 NVL72 用 pluggable optics（可插拔光模块）替代铜缆，每颗 Blackwell GPU 需要配 18 个 800 Gbps 光模块，加速器端 9 个，交换机端 9 个，整套系统要多消耗约 20,000 瓦。对一台已经吃掉 120 千瓦的机柜来说，再加 20 千瓦不太切实。
铜缆还有一个不常被提及的优势：可靠性。在接近百万条链路的大规模 AI 集群里，可插拔的光模块每天可能出现数十次链路中断。铜缆是无源器件，没有激光器会老化，也没有信号处理芯片会发热，故障率低得多。
2026年GTC上，英伟达推出铜光混合的Vera Rubin NVL576和Rosa Feynman NVL1152系统。
2026年3月，英伟达向Coherent、Lumentum和Marvell投资60亿美元，锁定光学供应链。
英伟达在AI加速器市场占主导（份额超80%）。
光互连领域有博通、思科等玩家。
光模块成本高于铜缆。

AI算力 CPO技术光互连英伟达投资铜缆瓶颈

杨建荣的学习笔记

AI算力扩容的新瓶颈竟是铜缆，英伟达押注光互连的深层逻辑

引言：从NVL72机柜的5000根铜缆说起

铜缆的黄金时代与物理极限：为什么它曾是首选，又为何成为瓶颈？

光互连的突破：英伟达如何从“太耗电”转向60亿美元投资？

竞争格局与创新扩散：光互连如何重塑行业生态？

趋势研判与启示：AI算力扩张的未来路径与行业影响

关键数据与事实来源参考

发表回复取消回复

AI算力扩容的新瓶颈竟是铜缆，英伟达押注光互连的深层逻辑

引言：从NVL72机柜的5000根铜缆说起

铜缆的黄金时代与物理极限：为什么它曾是首选，又为何成为瓶颈？

光互连的突破：英伟达如何从“太耗电”转向60亿美元投资？

竞争格局与创新扩散：光互连如何重塑行业生态？

趋势研判与启示：AI算力扩张的未来路径与行业影响

关键数据与事实来源参考

发表回复 取消回复

发表回复取消回复