该系统集成 384 颗昇腾 910C 芯片,通过多对多拓扑结构实现算力聚合,完整的 CloudMatrix 系统现在可以提供 300 PFLOP 的密集 BF16 计算,几乎是 GB200 NVL72 的两倍。
内存子系统配置上,如下表所示,其总容量为竞品的3.6倍,带宽达到2.1倍,可以说在特定负载场景下,CloudMatrix 384展现出优于Nvidia GB200 NVL72的线性扩展能力。
从上表的对比可以看出,华为 CloudMatrix 384 系统也有不足之处,它的功耗是 GB200 NVL72 的 4.1 倍,每FLOP功耗是后者的 2.5 倍,每 TB/s 内存带宽功耗是后者的 1.9 倍,每 TB HBM 内存容量功耗也比后者高出 1.2 倍。
虽然华为CloudMatrix 384有高达4.1倍于竞品的高功耗不足,但好在我们在过去十年新增发电量相当于美国电网总容量,当前能源结构中煤炭占比56%、可再生能源28%、核能6%,可以为高密度算力集群提供了电力保障。
数据来源于Deepseek分析
不过,在这里我们要清楚,虽然昇腾910C芯片虽在中国完成设计与封装测试,但在关键供应链环节仍依赖境外资源。
比如说,无论是三星的 HBM(高带宽存储器)、台积电的晶圆,还是来自美国、荷兰和日本的设备,仍依赖境外供应链。尽管我们的中芯国际(SMIC)已经掌握了 7 nm制程技术,但绝大多数昇腾 910B 和 910C 芯片仍是采用台积电的 7 nm工艺制造的。
据了解,MG政府、TechInsights等机构通过对昇腾 910B 和 910C 芯片剖解,发现都使用了台积电的芯片。当前台积电 7nm 工艺承担了 80% 以上的晶圆生产,中芯国际 7nm 产线作为辅助供应源,当前月产能为5万片晶圆。
另外,华为通过关联企业Sophgo(算能科技)采购约5亿美元的7nm晶圆,从而绕过了MG对其使用台积电芯片的制裁。台积电2024-2025年规划的7nm产能中,分配给昇腾芯片的约29万片晶圆,可生产约105万颗910C,而中芯国际通过非官方渠道持续获取海外设备与光刻胶等材料,若良率提升至75%,年产能可支撑50万颗910C生产。而材料端的关键制约在于化学机械抛光(CMP)耗材85%依赖进口,成为产能爬坡的主要障碍。
在高带宽存储器 HBM 方面, 华为 CloudMatrix 384 存储部分则采用三星HBM2E堆栈,通过通过CoAsia的再封装方案(临时粘接胶+激光剥离技术)实现HBM拆解从而规避出口管制,华为现有储备约1300 万个 HBM 堆栈,可支持160万颗910C芯片封装需求(有说325万颗?)。
备注:现行HBM出口管制主要针对独立封装模块,而集成HBM的芯片在符合特定算力阈值条件下仍可通过合规渠道出口。三星在大中华区独家代理商CoAsia Electronics通过技术性集成封装方案突破限制:将HBM2E存储堆栈与SPIL代工的低成本16nm逻辑芯片进行物理绑定,利用"芯片-存储异构封装"形式,使最终产品归类为受管制程度较低的ASIC器件。该方案通过调整封装结构中HBM与逻辑单元的面积占比(典型比例为1:4),在满足FLOPS管控标准的前提下实现HBM的有效输送。
为突破制程限制,华为采用chiplet设计降低单芯片复杂度,通过2.5D封装整合不同工艺模块。chiplet多芯片互联架构是基于华为自研的分布式管理软件,可以支持动态容错与资源调度。网络层兼容国产1.6Tbps光模块,预留的光电混合接口为未来带宽升级提供扩展空间。
总的来说,华为的 CloudMatrix 384 系统:
晶圆制造:台积电占比80%
HBM供应:三星占比95%
设备来源:美/荷/日设备占比超90%"