英伟达GPU供应紧张，不该背的锅坚决不背

来源：网络整理浏览：0 2023-09-05 19:07:52

台积电：我。

来源 | 远川科技评论（ID：kechuanych）

作者 | 何鲁恒编辑| 李墨天

英伟达最新季度财报发布后，不仅AMD沉默、英特尔流泪，做过长期心理建设的分析师也没有想到，真实情况如此出乎意料。

更可怕的是，英伟达营收同比飙升854%，很大程度上是因为“只能卖这么多”，而不是“已经卖了这么多”。大量“初创公司拿H100抵押贷款”的小文章背后，反映出H100 GPU供应紧张的事实。

如果缺货持续到今年年底，英伟达的表现可能会更加令人震惊。

H100的缺货让人想起几年前，当时加密货币暴涨导致GPU缺货，英伟达被游戏玩家骂得血肉模糊。不过当年显卡的缺货很大程度上是因为不合理的溢价，而H100的缺货则是因为产能有限，高价买不到。

换句话说，英伟达赚的钱还是少了。

在财报发布当天的电话会议上，“产能”自然成为出现频率最高的词。对此，英伟达的措辞严谨，不该背的锅坚决不背：

“就市场份额而言，这不是我们单独能够实现的，它需要跨越许多不同的供应商。”

事实上，NVIDIA所指的“许多不同的供应商”只包括两个：

SK海力士和台积电。

01

HBM：韩国游戏

如果只看面积比例，H100芯片只有大约50%属于Nvidia。

在芯片横截面中，H100 芯片占据核心位置，每侧各有 3 个 HBM 堆栈。组合面积相当于 H100 芯片。

这六颗表现平庸的内存芯片是H100供应短缺的罪魁祸首之一。

HBM（High Bandwidth Memory）字面翻译为高带宽内存，它承担了GPU中的部分内存。

与传统DDR内存不同，HBM本质上是在垂直方向堆叠多个DRAM内存，不仅增加了内存容量，还控制了内存的功耗和芯片面积，减少了封装内部占用的空间。

“堆叠式内存”最初针对的是对芯片面积和热量非常敏感的智能手机市场。但问题是，由于生产成本过高，智能手机最终选择了性价比更高的LPDDR路线，让堆叠内存没有了技术。已保留，但找不到着陆场景。

直到2015年，市场份额不断流失的AMD希望借助4K游戏的普及抢走Nvidia的退路。

当年发布的AMD Fiji系列GPU中，AMD采用了与SK海力士联合开发的堆栈内存，并将其命名为HBM（高带宽内存）。

AMD的假设是4K游戏需要更大的数据吞吐效率，HBM显存高带宽的优势就能体现出来。当时，AMD的Radeon R9 Fury X显卡在纸面性能上确实超越了Nvidia的新开普勒架构产品。

但问题在于HBM带来的带宽提升显然难以抵消其自身高昂的成本，因此并未得到普及。

直到2016年，AlphaGo横扫国际象棋冠军李世石，深度学习出现，让HBM记忆有了发挥的空间。

深度学习的核心是通过海量数据训练模型，确定函数中的参数，并将实际数据带入决策过程，得到最终的解决方案。

理论上，数据量越大，得到的函数参数越可靠。这使得AI训练对数据吞吐量和数据传输延迟产生了近乎病态的追求，而这也正是HBM内存要解决的问题。

2017年，AlphaGo再次大战柯洁，芯片换成了谷歌研发的TPU。在芯片设计方面，从第二代开始的每一代TPU都采用HBM设计。 NVIDIA面向数据中心和深度学习的全新GPU Tesla P100配备了第二代HBM内存（HBM2）。

由于高性能计算市场上几乎所有GPU芯片都搭载了HBM内存，存储巨头之间围绕HBM的竞争也正在迅速展开。

目前，全球能够量产HBM的内存巨头只有3家：SK海力士、三星电子和美光。

SK海力士是HBM的发明者之一，也是目前唯一量产HBM3E（第三代HBM）的厂商；三星电子以HBM2（第二代HBM）进入市场，是第一家使用HBM的Nvidia GPU供应商；美光最落后，2018年才从HMC转向HBM路线，2020年中期才开始量产HBM2。

其中，SK海力士垄断了50%的HBM市场份额，其独家供应给NVIDIA的HBM3E牢牢挡住了H100的出货量：

H100 PCIe 和 SXM 版本均采用 5 个 HBM 堆栈，H100S SXM 版本可以达到 6 个，NVIDIA 推广的 H100 NVL 版本甚至达到了 12 个。根据研究院拆解，单个 16GB HBM 堆栈的成本高达240美元。那么仅H100 NVL存储芯片的成本就接近3000美元。

成本仍然是一个小问题。考虑到与H100直接竞争的Google TPU v5和AMD MI300即将量产，而后两者也将采用HBM3E，陈能就更捉襟见肘了。

面对激增的需求，据称SK海力士制定了产能翻倍的小目标，并着手扩大生产线。三星和美光也在为 HBM3E 做准备。然而，在半导体行业，生产线的扩张从来都不是一蹴而就的。

按照9-12个月周期的乐观估计，HBM3E产能至少要到明年第二季度才能得到补充。

另外，即使解决了HBM的产能，H100能供应多少也要看台积电的脸色。

02

CoWoS：台积电的宝剑

分析师罗伯特·卡斯特拉诺不久前做了一个计算。 H100采用台积电4N工艺（5nm）生产。 4N工艺的12英寸晶圆价格为13,400美元。理论上可以切割86颗H100芯片。

如果不考虑产量，台积电每生产一台 H100 就能获得 155 美元的收入[6]。

但事实上，每台H100为台积电带来超过1000美元的收入。原因是H100采用了台积电的CoWoS封装技术，封装带来的收入高达723美元[6]。

手机英伟达独占游戏_手机英伟达处理器_英伟达手机

每台H100从台积电第18厂的N4/N5生产线出来，都会被运往位于同一园区的台积电先进封装测试厂2，完成H100制造中最特殊、最关键的一步——CoWoS。

要了解CoWoS封装的重要性，我们还是要从H100的芯片设计开始。

在消费级GPU产品中，存储芯片一般封装在GPU核心外围，信号通过PCB板之间的电路进行传输。

比如下图中Nvidia生产的RTX4090芯片，GPU核心和GDDR显存是分开封装的，并放在一块PCB板上，使它们彼此独立。

GPU和CPU都遵循冯·诺依曼架构，其核心在于“存储与计算分离”——即芯片处理数据时，需要从外部存储器中取出数据，然后传输到外部存储器中。计算完成后记忆。一旦出现，就会造成计算的延迟。同时，数据传输的“数量”也会受到限制。

GPU和内存的关系可以类比上海的浦东和浦西。两地之间的物资（数据）运输依赖南浦大桥。南浦大桥的承载能力决定了物资运输的效率。这个承载能力就是显存带宽，它决定了数据传输的速度，也间接影响了GPU的计算速度。

从 1980 年到 2000 年，GPU 和内存之间的“速度不匹配”以每年 50% 的速度增长。也就是说，即使修建了龙耀路隧道和上中路隧道，也无法满足浦东至浦西之间物资运输的增长。这导致带宽成为高性能计算场景中日益明显的瓶颈。

CPU/GPU性能与内存性能之间的差距正在拉大

2015年，AMD在使用HBM内存的同时，还采用了数据传输的创新解决方案：浦东和浦西相结合。

简单来说，2015款斐济架构显卡将HBM内存和GPU核心“缝合”在一起，将几个小芯片变成了一个整体的大芯片。这样，数据吞吐效率就提高了一倍。

不过，正如上文所说，由于成本和技术问题，AMD的斐济架构并没有让市场买账。然而，深度学习的爆发以及AI训练中不计成本追求数据吞吐效率，让“芯片拼接”有了发挥的空间。

另外，AMD的想法虽然不错，但也带来了新的问题——无论HBM有多少优势，都必须与“缝芯片”的先进封装技术配合，两者紧密依赖。

如果HBM内存还能和三个公司相比，那么“缝制芯片”所用的先进封装似乎只有台积电能做到。

CoWoS是台积电先进封装业务的起点，而Nvidia是第一家采用该技术的芯片公司。

CoWoS是CoW和oS的组合：CoW代表Chip on Wafer，指的是裸芯片组装在晶圆上的过程，oS代表on Substrate，指的是封装在基板上的过程。

传统的封装一般只有OS链接。代工厂完成晶圆制造后，通常会交给第三方封测厂。但先进封装中加入的CoW环节是封测厂无法解决的。

以完整的H100芯片为例，多个HBM堆栈分布在H100芯片周围，并通过CoW技术拼接在一起。但这不仅仅是拼接，还包括芯片和堆栈之间的通信。

台积电的CoW区别于其他先进封装的亮点在于，将裸片和堆叠放置在硅中介层（本质上是晶圆）上，并在中介层中制作互连通道，以实现裸片和堆叠之间的通信。

与Intel的EMIB类似，不同的是，互连是通过硅桥实现的。然而，带宽远小于硅中介层。考虑到带宽与数据传输速率密切相关，CoWoS成为H100的唯一选择。

这是H100产能被卡住的又一手牌。

尽管CoWoS的效果逆天，但每片4000-6000美元的天价还是让很多人望而却步，其中就包括财大气粗的苹果。因此，台积电准备的产能相当有限。

然而AI浪潮突然爆发，供需平衡瞬间被打破。

早在6月份就有传言称，英伟达今年对CoWoS晶圆的需求量已达到4.5万片晶圆，而台积电年初的预估为3万片晶圆。再加上其他客户的需求，产能缺口超过20%。

为了弥补差距，台积电的战力不小。

6月，台积电第六家先进封装测试工厂在南科正式开业。仅洁净室就比其他封装和测试工厂加起来还要大。它还承诺逐季度增加CoWoS产能。为此，它将部分操作系统外包给第三方。封装测试工厂。

但正如HBM扩产并不容易一样，台积电扩产也需要时间。目前，一些包装设备和部件的交货时间为3至6个月。年底前能开出多少新产能仍是未知数。

03

不存在的B计划

面对H100的结构性短缺，英伟达也并非完全没有B计划。

在财报发布后的电话会议上，英伟达透露CoWoS产能已经获得其他供应商的认证。虽然他们没有说是谁，但考虑到先进封装的技术门槛，除了台积电之外，就只有英特尔有先天缺陷的EMIB，以及三星研发已久、等待客户的I-Cube ，勉强能把火扑灭。

然而，核心技术的更替就像临阵换将。随着AMD MI300即将量产出货，AI芯片的竞争愈演愈烈。恐怕黄仁勋本人也在担心能否与英特尔、三星的技术完全融合。

比黄仁勋更着急的可能是买不到H100的云服务商和AI初创企业。毕竟，如果游戏玩家抢不到显卡，游戏帧数就会减少20帧；如果一家大公司抢不到H100，很可能会损失数十亿的营收和数百亿的估值。

需要H100的公司主要有三类：云服务提供商，如微软、亚马逊； Anthropic 和 OpenAI 等初创公司；以及特斯拉等大型科技公司。特斯拉新版FSD解决方案使用了10,000个H100块。用于训练的 GPU 集群。

这还不包括Citadel等金融公司，以及无法购买H800特别版的中国企业。

根据GPU Utils[7]的计算，保守估计H100目前的供给缺口达到43万。

尽管理论上有 H100 的替代方案，但在实际情况下它们都不可行。

比如H100的前身产品A100，价格只有H100的1/3左右。但问题是H100的性能比A100强很多，导致H100的单位成本计算能力比A100更高。考虑到科技公司开始购买数百或数千本，购买 A100 就更糟糕了。

AMD是另一种选择，纸面性能与H100相差不远。但由于NVIDIA CUDA生态系统的壁垒，使用AMD的GPU很可能会让开发周期变长，而使用H100的竞争对手很可能因为这个时间差而与自己产生差距，甚至投入数亿美元首都。没有回报。

由于种种原因，一颗整体材料成本3000美元的芯片，英伟达直接加了一个零售品，大家都争相购买。这或许是黄仁勋本人没有想到的。

在HBM和CoWoS的产能提升之前，购买H100的方式可能只有一种：

等那些买了一堆H100的初创公司靠吹牛、融资倒闭，然后拿走他们的二手GPU。

上一篇：罗永浩：AR是下一代计算平台的华米OV
下一篇：清福神柏鉴有百灵番，哪一个用处大？

英伟达GPU供应紧张，不该背的锅坚决不背

相关游戏

相关文章

云顶之弈3飓风能分裂攻击几个？飓风BUG爆料

魔兽世界怀旧服DKPROLL团是什么？

暴走英雄坛无名残页有什么用？

魔兽世界怀旧服盗贼狗牙和龙牙哪个做副手好？

云顶之弈海克斯炸弹怎么生效 9.16海克斯羁绊触发机制

魔兽世界怀旧服牧师BWL需求装备有哪些？

资讯排行

dnf最新回归活动,重燃冒险之火，邀你共创辉煌！

x战警2下载,正义与邪恶的激烈对决

拳皇mugen下载手机版,全新体验！拳皇Muge手机版下载，重燃格斗激情！

开心水果连连看2下载免费,开心水果连连看2免费下载，畅享无限乐趣！

光晕4:航向黎明号,航向黎明号-一场星际的奇幻冒险

国产精品哔哩哔哩,潮流文化的聚集地

电脑联机游戏,让你体验更刺激的虚拟世界！

花都奇缘,一段尘封已久的浪漫传说

波斯王子3怎么设置中文,探寻神秘古国的语言魅力

火影忍者究极冲击中文版下载，重燃你的青春热血！

最新推荐

英伟达GPU供应紧张，不该背的锅坚决不背

相关游戏

相关文章

云顶之弈3飓风能分裂攻击几个？ 飓风BUG爆料

魔兽世界怀旧服DKPROLL团是什么？

暴走英雄坛无名残页有什么用？

魔兽世界怀旧服盗贼狗牙和龙牙哪个做副手好？

云顶之弈海克斯炸弹怎么生效 9.16海克斯羁绊触发机制

魔兽世界怀旧服牧师BWL需求装备有哪些？

资讯排行

dnf最新回归活动,重燃冒险之火，邀你共创辉煌！

x战警2下载,正义与邪恶的激烈对决

拳皇mugen下载手机版,全新体验！拳皇Muge手机版下载，重燃格斗激情！

开心水果连连看2下载免费,开心水果连连看2免费下载，畅享无限乐趣！

光晕4:航向黎明号,航向黎明号-一场星际的奇幻冒险

国产精品哔哩哔哩,潮流文化的聚集地

电脑联机游戏,让你体验更刺激的虚拟世界！

花都奇缘,一段尘封已久的浪漫传说

波斯王子3怎么设置中文,探寻神秘古国的语言魅力

火影忍者究极冲击中文版下载，重燃你的青春热血！

最新推荐

云顶之弈3飓风能分裂攻击几个？飓风BUG爆料