扫码登录
2025年10月21日,在拉斯维加斯举办的AI World 2025大会上,科技巨头甲骨文高调推出全球最大规模的云端AI超级计算机——OCI Zettascale10,该系统由80万块NVIDIA GPU芯片构成,峰值计算性能宣称可达16 ZettaFLOPS(即每秒10的21次方次以上浮点运算),标志着全球AI算力基础设施竞争进入新阶段。更引人关注的是,该系统已正式成为OpenAI"星际之门"旗舰AI超级计算集群的算力核心,双方在德州阿比林共建的算力基地已投入试运行。
从技术参数来看,OCI Zettascale10创造了多项行业纪录。其由80万块NVIDIA GPU芯片组成的计算集群,平均每块GPU可贡献约20 PetaFLOPS算力,接近英伟达最新一代Grace Hopper(Blackwell架构GB300)芯片的水平。如此庞大的算力规模,使其能够支撑超大规模AI模型的训练任务,例如参数规模达万亿级的通用人工智能模型。OpenAI基础设施部门副总裁Peter Hoeschele在大会现场表示,甲骨文定制的算力集群为OpenAI的模型研发提供了"前所未有的算力保障",特别是在大模型多模态训练、复杂推理能力提升等方面发挥了关键作用。
该系统的核心竞争力在于甲骨文独创的Acceleron RoCE网络架构。据甲骨文技术负责人介绍,传统的AI超算往往面临大规模GPU集群通信延迟高、稳定性不足等问题,而Acceleron架构让每块GPU的网络接口卡(NIC)都充当一个小型交换机,一次可连接到多个隔离的网络交换平面。这种多平面、扁平化的网络设计,使GPU之间的直连延迟降低了30%以上,且确保即使某一路由出现故障时,训练作业也能自动切换到其它路径继续运行,避免了传统集群因单点故障导致的训练中断问题。此外,该架构引入的线性可插拔光学模块(LPO)和线性接收光学组件(LRO)等新技术,在保持400G/800G带宽的前提下,将网络能耗与冷却成本降低了25%,解决了超算集群"高能耗"的行业痛点。
尽管技术参数亮眼,但业内对其实际性能仍存在一定争议。有行业观察者指出,16 ZettaFLOPS的峰值算力尚未经独立机构验证,且很可能是基于极低精度的AI计算指标(例如FP8甚至4比特稀疏运算)实现的。而实际的大模型训练通常需要使用更高精度(如BF16或FP8)的数值格式以保证模型收敛效果,因此在真实训练场景中,其可持续交付的算力可能会大幅低于峰值数据。此外,超大规模集群的运维难度也不容忽视,80万块GPU的协同工作需要极其复杂的调度系统,如何确保算力利用率、降低故障发生率,将是甲骨文面临的长期挑战。
甲骨文此次布局也反映了全球云服务商在AI算力领域的激烈竞争。目前,微软、谷歌、亚马逊等云计算巨头均在加大AI超算集群的投入,微软Azure的AI超级计算机已部署超过50万块GPU,谷歌Cloud则推出了基于自研TPU芯片的算力集群,亚马逊AWS也在持续扩大GPU采购规模。为应对竞争,甲骨文在发布超算的同时,还推出了新的"多云通用积分"计划,允许客户用统一的预付积分在甲骨文云及AWS、Azure、Google等多家云服务间自由调配甲骨文数据库和OCI服务,旨在降低客户迁移门槛、提高平台黏性。
据甲骨文官方透露,OCI Zettascale10集群计划在2026年下半年正式向客户提供服务,目前已开始接受企业客户的预订。NVIDIA公司高管Ian Buck在大会上表示,甲骨文的全栈优化"计算结构"为AI技术从实验走向工业化应用提供了关键支撑,有望加速AI在千行百业的落地进程。业内预计,随着各大巨头的算力投入不断加大,AI模型的研发周期将进一步缩短,算力成本也将逐步降低,为人工智能产业的爆发式增长奠定基础。