您的位置: 游戏资讯 > 游戏问答

英伟达GPU供应紧张,不该背的锅坚决不背

来源:网络整理 浏览:0 2023-09-05 19:07:52

台积电:我。

来源 | 远川科技评论(ID:kechuanych)

作者 | 何鲁恒编辑| 李墨天

英伟达最新季度财报发布后,不仅AMD沉默、英特尔流泪,做过长期心理建设的分析师也没有想到,真实情况如此出乎意料。

更可怕的是,英伟达营收同比飙升854%,很大程度上是因为“只能卖这么多”,而不是“已经卖了这么多”。 大量“初创公司拿H100抵押贷款”的小文章背后,反映出H100 GPU供应紧张的事实。

如果缺货持续到今年年底,英伟达的表现可能会更加令人震惊。

H100的缺货让人想起几年前,当时加密货币暴涨导致GPU缺货,英伟达被游戏玩家骂得血肉模糊。 不过当年显卡的缺货很大程度上是因为不合理的溢价,而H100的缺货则是因为产能有限,高价买不到。

换句话说,英伟达赚的钱还是少了。

在财报发布当天的电话会议上,“产能”自然成为出现频率最高的词。 对此,英伟达的措辞严谨,不该背的锅坚决不背:

“就市场份额而言,这不是我们单独能够实现的,它需要跨越许多不同的供应商。”

事实上,NVIDIA所指的“许多不同的供应商”只包括两个:

SK海力士和台积电。

01

HBM:韩国游戏

如果只看面积比例,H100芯片只有大约50%属于Nvidia。

在芯片横截面中,H100 芯片占据核心位置,每侧各有 3 个 HBM 堆栈。 组合面积相当于 H100 芯片。

这六颗表现平庸的内存芯片是H100供应短缺的罪魁祸首之一。

HBM(High Bandwidth Memory)字面翻译为高带宽内存,它承担了GPU中的部分内存。

与传统DDR内存不同,HBM本质上是在垂直方向堆叠多个DRAM内存,不仅增加了内存容量,还控制了内存的功耗和芯片面积,减少了封装内部占用的空间。

“堆叠式内存”最初针对的是对芯片面积和热量非常敏感的智能手机市场。 但问题是,由于生产成本过高,智能手机最终选择了性价比更高的LPDDR路线,让堆叠内存没有了技术。 已保留,但找不到着陆场景。

直到2015年,市场份额不断流失的AMD希望借助4K游戏的普及抢走Nvidia的退路。

当年发布的AMD Fiji系列GPU中,AMD采用了与SK海力士联合开发的堆栈内存,并将其命名为HBM(高带宽内存)。

AMD的假设是4K游戏需要更大的数据吞吐效率,HBM显存高带宽的优势就能体现出来。 当时,AMD的Radeon R9 Fury X显卡在纸面性能上确实超越了Nvidia的新开普勒架构产品。

但问题在于HBM带来的带宽提升显然难以抵消其自身高昂的成本,因此并未得到普及。

直到2016年,AlphaGo横扫国际象棋冠军李世石,深度学习出现,让HBM记忆有了发挥的空间。

深度学习的核心是通过海量数据训练模型,确定函数中的参数,并将实际数据带入决策过程,得到最终的解决方案。

理论上,数据量越大,得到的函数参数越可靠。 这使得AI训练对数据吞吐量和数据传输延迟产生了近乎病态的追求,而这也正是HBM内存要解决的问题。

2017年,AlphaGo再次大战柯洁,芯片换成了谷歌研发的TPU。 在芯片设计方面,从第二代开始的每一代TPU都采用HBM设计。 NVIDIA面向数据中心和深度学习的全新GPU Tesla P100配备了第二代HBM内存(HBM2)。

由于高性能计算市场上几乎所有GPU芯片都搭载了HBM内存,存储巨头之间围绕HBM的竞争也正在迅速展开。

目前,全球能够量产HBM的内存巨头只有3家:SK海力士、三星电子和美光。

SK海力士是HBM的发明者之一,也是目前唯一量产HBM3E(第三代HBM)的厂商; 三星电子以HBM2(第二代HBM)进入市场,是第一家使用HBM的Nvidia GPU供应商; 美光最落后,2018年才从HMC转向HBM路线,2020年中期才开始量产HBM2。

其中,SK海力士垄断了50%的HBM市场份额,其独家供应给NVIDIA的HBM3E牢牢挡住了H100的出货量:

H100 PCIe 和 SXM 版本均采用 5 个 HBM 堆栈,H100S SXM 版本可以达到 6 个,NVIDIA 推广的 H100 NVL 版本甚至达到了 12 个。根据研究院拆解,单个 16GB HBM 堆栈的成本高达240美元。 那么仅H100 NVL存储芯片的成本就接近3000美元。

成本仍然是一个小问题。 考虑到与H100直接竞争的Google TPU v5和AMD MI300即将量产,而后两者也将采用HBM3E,陈能就更捉襟见肘了。

面对激增的需求,据称SK海力士制定了产能翻倍的小目标,并着手扩大生产线。 三星和美光也在为 HBM3E 做准备。 然而,在半导体行业,生产线的扩张从来都不是一蹴而就的。

按照9-12个月周期的乐观估计,HBM3E产能至少要到明年第二季度才能得到补充。

另外,即使解决了HBM的产能,H100能供应多少也要看台积电的脸色。

02

CoWoS:台积电的宝剑

分析师罗伯特·卡斯特拉诺不久前做了一个计算。 H100采用台积电4N工艺(5nm)生产。 4N工艺的12英寸晶圆价格为13,400美元。 理论上可以切割86颗H100芯片。

如果不考虑产量,台积电每生产一台 H100 就能获得 155 美元的收入[6]。

但事实上,每台H100为台积电带来超过1000美元的收入。 原因是H100采用了台积电的CoWoS封装技术,封装带来的收入高达723美元[6]。

手机英伟达独占游戏_手机英伟达处理器_英伟达手机

每台H100从台积电第18厂的N4/N5生产线出来,都会被运往位于同一园区的台积电先进封装测试厂2,完成H100制造中最特殊、最关键的一步——CoWoS。

要了解CoWoS封装的重要性,我们还是要从H100的芯片设计开始。

在消费级GPU产品中,存储芯片一般封装在GPU核心外围,信号通过PCB板之间的电路进行传输。

比如下图中Nvidia生产的RTX4090芯片,GPU核心和GDDR显存是分开封装的,并放在一块PCB板上,使它们彼此独立。

GPU和CPU都遵循冯·诺依曼架构,其核心在于“存储与计算分离”——即芯片处理数据时,需要从外部存储器中取出数据,然后传输到外部存储器中。计算完成后记忆。 一旦出现,就会造成计算的延迟。 同时,数据传输的“数量”也会受到限制。

GPU和内存的关系可以类比上海的浦东和浦西。 两地之间的物资(数据)运输依赖南浦大桥。 南浦大桥的承载能力决定了物资运输的效率。 这个承载能力就是显存带宽,它决定了数据传输的速度,也间接影响了GPU的计算速度。

从 1980 年到 2000 年,GPU 和内存之间的“速度不匹配”以每年 50% 的速度增长。 也就是说,即使修建了龙耀路隧道和上中路隧道,也无法满足浦东至浦西之间物资运输的增长。 这导致带宽成为高性能计算场景中日益明显的瓶颈。

CPU/GPU性能与内存性能之间的差距正在拉大

2015年,AMD在使用HBM内存的同时,还采用了数据传输的创新解决方案:浦东和浦西相结合。

简单来说,2015款斐济架构显卡将HBM内存和GPU核心“缝合”在一起,将几个小芯片变成了一个整体的大芯片。 这样,数据吞吐效率就提高了一倍。

不过,正如上文所说,由于成本和技术问题,AMD的斐济架构并没有让市场买账。 然而,深度学习的爆发以及AI训练中不计成本追求数据吞吐效率,让“芯片拼接”有了发挥的空间。

另外,AMD的想法虽然不错,但也带来了新的问题——无论HBM有多少优势,都必须与“缝芯片”的先进封装技术配合,两者紧密依赖。

如果HBM内存还能和三个公司相比,那么“缝制芯片”所用的先进封装似乎只有台积电能做到。

CoWoS是台积电先进封装业务的起点,而Nvidia是第一家采用该技术的芯片公司。

CoWoS是CoW和oS的组合:CoW代表Chip on Wafer,指的是裸芯片组装在晶圆上的过程,oS代表on Substrate,指的是封装在基板上的过程。

传统的封装一般只有OS链接。 代工厂完成晶圆制造后,通常会交给第三方封测厂。 但先进封装中加入的CoW环节是封测厂无法解决的。

以完整的H100芯片为例,多个HBM堆栈分布在H100芯片周围,并通过CoW技术拼接在一起。 但这不仅仅是拼接,还包括芯片和堆栈之间的通信。

台积电的CoW区别于其他先进封装的亮点在于,将裸片和堆叠放置在硅中介层(本质上是晶圆)上,并在中介层中制作互连通道,以实现裸片和堆叠之间的通信。

与Intel的EMIB类似,不同的是,互连是通过硅桥实现的。 然而,带宽远小于硅中介层。 考虑到带宽与数据传输速率密切相关,CoWoS成为H100的唯一选择。

这是H100产能被卡住的又一手牌。

尽管CoWoS的效果逆天,但每片4000-6000美元的天价还是让很多人望而却步,其中就包括财大气粗的苹果。 因此,台积电准备的产能相当有限。

然而AI浪潮突然爆发,供需平衡瞬间被打破。

早在6月份就有传言称,英伟达今年对CoWoS晶圆的需求量已达到4.5万片晶圆,而台积电年初的预估为3万片晶圆。 再加上其他客户的需求,产能缺口超过20%。

为了弥补差距,台积电的战力不小。

6月,台积电第六家先进封装测试工厂在南科正式开业。 仅洁净室就比其他封装和测试工厂加起来还要大。 它还承诺逐季度增加CoWoS产能。 为此,它将部分操作系统外包给第三方。 封装测试工厂。

但正如HBM扩产并不容易一样,台积电扩产也需要时间。 目前,一些包装设备和部件的交货时间为3至6个月。 年底前能开出多少新产能仍是未知数。

03

不存在的B计划

面对H100的结构性短缺,英伟达也并非完全没有B计划。

在财报发布后的电话会议上,英伟达透露CoWoS产能已经获得其他供应商的认证。 虽然他们没有说是谁,但考虑到先进封装的技术门槛,除了台积电之外,就只有英特尔有先天缺陷的EMIB,以及三星研发已久、等待客户的I-Cube ,勉强能把火扑灭。

然而,核心技术的更替就像临阵换将。 随着AMD MI300即将量产出货,AI芯片的竞争愈演愈烈。 恐怕黄仁勋本人也在担心能否与英特尔、三星的技术完全融合。

比黄仁勋更着急的可能是买不到H100的云服务商和AI初创企业。 毕竟,如果游戏玩家抢不到显卡,游戏帧数就会减少20帧; 如果一家大公司抢不到H100,很可能会损失数十亿的营收和数百亿的估值。

需要H100的公司主要有三类:云服务提供商,如微软、亚马逊; Anthropic 和 OpenAI 等初创公司; 以及特斯拉等大型科技公司。 特斯拉新版FSD解决方案使用了10,000个H100块。 用于训练的 GPU 集群。

这还不包括Citadel等金融公司,以及无法购买H800特别版的中国企业。

根据GPU Utils[7]的计算,保守估计H100目前的供给缺口达到43万。

尽管理论上有 H100 的替代方案,但在实际情况下它们都不可行。

比如H100的前身产品A100,价格只有H100的1/3左右。 但问题是H100的性能比A100强很多,导致H100的单位成本计算能力比A100更高。 考虑到科技公司开始购买数百或数千本,购买 A100 就更糟糕了。

AMD是另一种选择,纸面性能与H100相差不远。 但由于NVIDIA CUDA生态系统的壁垒,使用AMD的GPU很可能会让开发周期变长,而使用H100的竞争对手很可能因为这个时间差而与自己产生差距,甚至投入数亿美元首都。 没有回报。

由于种种原因,一颗整体材料成本3000美元的芯片,英伟达直接加了一个零售品,大家都争相购买。 这或许是黄仁勋本人没有想到的。

在HBM和CoWoS的产能提升之前,购买H100的方式可能只有一种:

等那些买了一堆H100的初创公司靠吹牛、融资倒闭,然后拿走他们的二手GPU。