这一思路与冯·诺依曼1945年提出的存储层次结构一脉相承:将较小、较快的高速存储器放置在计算电路附近,而将较大、较慢的存储介质置于远端,从而构建兼具性能与规模的计算系统。
Scale Up指的是最接近 GPU 或 XPU 的互连网络。在早期 GPU 架构中,Scale Up是一种背靠背接口,使其表现为一个更大的单元。随着技术演进,如今已发展为可连接数十甚至数百个处理器的网络互连。其核心要求是:从软件视角看,Scale Up系统必须呈现为单台计算机。因此,互连网络必须具备极高可靠性,并引入尽可能低的延迟。由于Scale Up域规模较小,设备可紧密部署。受限于这些设计约束(也正因此),当前大多数Scale Up采用铜缆方案,可提供足够的带宽和性能,速度高达 100 Gbps,并在不久的将来过渡到 200 Gbps。
从 AI 计算机架内的单个计算托盘(<10个XPU)的开始,无源铜互连技术凭借其极低功耗与总体成本优势,支撑着计算单元与交换机的物理连接。但当系统扩展至托盘边缘时,这种传统互连方案遭遇物理极限。
当扩展至机架级(<100 个 XPU),铜缆将机架内的服务器互联。这种方案同样高效节能且成本低廉,虽传输距离有限,但足以支持 100 Gbps 链路。然而随着数据速率提升至 200 Gbps,铜缆的物理极限使其无法覆盖整个机架。
构建更大规模的Scale Up域可为 AI 云设计带来显著性能提升。将数百甚至数千个Scale Up单元用于单一计算任务显然更具优势,但这种规模要求扩展集群突破单机架限制,超越铜缆互连的传输距离。随着行级集群的出现,从铜缆向光互连的迁移成为必然。当前焦点在于开发适用于较短距离(数十米)的优化光互连方案,在保持带宽与可靠性的同时,最大限度降低功耗与延迟,这正是集成光学技术的切入点。
向优化光互连纵向扩展集群的演进带来了多种新型互连方案选择:
线性可插拔光学器件 (LPO)
LPO旨在满足下一代短距光互连、Scale Up计算网络的连接需求而设计。此类优化型光学方案特别适配服务器阵列内的受限部署环境,在保留云网络模块化形态的同时,通过将高速信号处理负载转移至互联的计算与交换芯片(类似无源铜缆架构),实现功耗与时延的双重突破。该方案需要在机架级进行完整系统的紧密协同设计,从计算/交换芯片、PCB电路板、连接器到光纤与光模块的全链路信号完整性必须精密协同优化,最终使光互连成为AI服务器的有机延伸。
近封装光学(NPO/OBO)
鉴于LPO的系统级协同设计复杂度,业界开始探索将光链路直接集成于系统内部, 取消可插拔模块,催生出近封装光学技术。这种方案缩短了从 GPU/XPU 到光引擎的电信号传输距离:在 LPO 中电信号需传输 300mm 后才能转为光信号,而 NPO/OBO 的传输距离可降至 100mm 以内。这在简化系统设计的同时进一步降低了功耗。
共封装光学(CPO)
作为集中式网络光互连的终极形态,CPO技术实现了XPU封装内光电融合革命。该架构完全摒弃电气互连,所有高速信号在芯片封装内部即完成光电转换,电信号传输距离被压缩至20mm以下。封装级的电光协同设计不仅带来更高的可靠性,更通过架构级优化开辟出功耗与时延的突破性下降通道。
集成光互连技术正在完成对铜互连的颠覆性重构——在继承铜互连低功耗、低时延等基因优势的同时,突破物理扩展极限。随着集中式算力集群向百万XPU量级演进,集成光学将逐步取代无源铜互连体系,为光互连产业链开启万亿级战略机遇窗口。
过去二十年间硅光子学的飞速发展,为集成光学解决方案奠定了技术基础。硅光子学通过类似于传统电子集成电路的光刻工艺,可将大量光学组件集成在单个硅基器件上。这种技术使得紧凑型高集成度光引擎成为可能 —— 在单颗硅片上集成数千个有源光学元件。
CPO 的转折点
对于许多关注云数据中心技术演进的观察者而言,往往认为 CPO 等新兴技术将迅速改变行业格局。然而,CPO 要实现大规模应用,必须首先证明其适用于 AI 计算场景的高可靠性与高量产能力。实现 CPO 规模化部署需跨越以下七大关键门槛:
制造成本:集成光学虽能减少传统光系统的组件数量,但多组件集成会增加单一部件的制造复杂度。 系统设计:集成光学要求全新系统设计范式,包括光纤 / 连接器布局、激光光源定位,以及采用光纤替代电信号传输的散热设计。 互操作性:当前可插拔光模块与无源电缆生态系统基于三大行业标准:模拟信号规范、数字协议规范、物理接口规范。这种开放性确保了数据中心基础设施的组件兼容性。 链路弹性:AI 计算应用要求链路具备高速率、低误码率与低中断率。CPO 必须达到与替代电链路相当的可靠性水平,或推动计算网络架构演进以适应新特性。 组件可靠性:现有光链路市场基于数十年可插拔模块经验(1-8 路光链路),已建立成熟的组件可靠性评估体系。包含 32/128/512 路光链路的集成组件,需重新建立从组件到网络层面的可靠性评估标准。 遥测和控制:超大规模集群中数万甚至数百万条链路,要求数据中心运营商始终掌握所有链路的实时状态。 现场可维护性:超大规模集群中数万甚至数百万条链路,要求数据中心运营商始终掌握所有链路的实时状态。
针对上述七大要素验证集成光学的可行性,设备制造商与网络设计者将经历数年的 CPO 试验系统开发与测试周期。与此同时,CPO 技术将持续迭代,进一步强化其在功耗与延迟方面的优势。随着技术进步与生态成熟度提升,CPO 将最终跨越临界点 —— 当 CPO 的综合优势全面超越传统技术,并证明其规模化部署的可行性时,将迎来行业变革的浪潮。
Scale Out是指可扩展的 AI 互连网络,支持万台级以上处理器的集群。与Scale Up将集群处理器虚拟为单台计算机不同,Scale Out采用显式并行处理,将任务分解至多个计算资源。Scale Out网络通常采用 InfiniBand 或以太网等标准协议,设计用于处理数据中心基础设施内更大范围的通信。
Scale Out网络一般由多层交换机构成:第一层交换机连接计算端点,第二、三层交换机实现下层网络的跨层互联。当前主流Scale Out互连采用光技术,若物理布局允许,网络边缘靠近计算加速器处仍可能使用无源铜缆。鉴于其超大规模特性,可靠性、扩展性与可维护性成为关键设计要素。Scale Out互连需具备高弹性、即插即用、前后兼容、可维护且互操作的特性,同时提供连接多机架 / 多行计算资源所需的超高带宽与长距离传输能力。目前Scale Out网络单端口速率已达 400-800 Gbps,未来将向 1.6 Tbps 及更高演进。
AI Scale Out网络中的光互连
光学数字信号处理器 (DSP)为云和 AI 数据中心内的光学互连提供动力,并支持以太网和 InfiniBand 架构。随着对训练、推理和云计算的需求不断增长,运营商必须通过可靠、低延迟、高带宽的连接快速扩展其网络。
Scale Out中的 CPO 应用
当前 AI Scale Out网络以光互连为主,靠近计算加速器的网络边缘可能使用无源铜缆。对于这些铜缆链路,集成光学的考量与Scale Up网络类似。但在Scale Out网络外层(当前已普遍采用光技术),传输距离、互操作性、弹性及性能等因素仍倾向于继续使用基于可插拔 DSP 的光解决方案。CPO 在Scale Out领域的大规模应用临界点,可能取决于其高可靠性与高量产能力的验证。短期内,CPO可能会用于有限的小规模应用场景。
在Scale Out网络之外,数据中心运营商通过高带宽光纤链路实现跨数据中心站点的连接。这些长途链路与互联网骨干网类似,需跨越较长物理距离。由于该网络段(即数据中心互连,DCI)的光纤资源较数据中心内部稀缺,运营商致力于最大化单纤传输容量。相干 ZR 光模块通过将先进调制技术与密集波分复用(DWDM)结合,实现超高密度长途光通信,有效提升单波长数据承载量。DWDM 技术进一步通过单纤复用多波长增强带宽利用率。
当前 AI 集群规模已逼近单数据中心物理空间的极限,催生了跨多数据中心部署的多站点 AI 集群需求。此类集群要求站点间高速数据传输,推动对相干 ZR 光模块的更大需求 —— 该技术为大规模数据处理与实时 AI 应用提供必需的带宽支持。相干 ZR 光模块实现跨距离无缝通信,支持系统扩展,并确保数据完整性与冗余性。
AI 工作负载的快速扩展与算力提升正在彻底革新网络中的数据流动与通信方式。构建更短计算周期的超大规模集群,将推动光技术在 AI 网络中的全面渗透。多样化的光技术将持续演进,针对网络各层级的特定需求提供解决方案。这场光电共生的技术革命,终将照亮AGI时代的算力地平线。