首页 > 新闻资讯 > 正文

甲骨文发布全球最大AI超算成OpenAI"星际之门"算力核心

2025年10月21日 16:45

行业资讯浏览：79

2025年10月21日，在拉斯维加斯举办的AI World 2025大会上，科技巨头甲骨文高调推出全球最大规模的云端AI超级计算机——OCI Zettascale10，该系统由80万块NVIDIA GPU芯片构成，峰值计算性能宣称可达16 ZettaFLOPS（即每秒10的21次方次以上浮点运算），标志着全球AI算力基础设施竞争进入新阶段。更引人关注的是，该系统已正式成为OpenAI"星际之门"旗舰AI超级计算集群的算力核心，双方在德州阿比林共建的算力基地已投入试运行。

从技术参数来看，OCI Zettascale10创造了多项行业纪录。其由80万块NVIDIA GPU芯片组成的计算集群，平均每块GPU可贡献约20 PetaFLOPS算力，接近英伟达最新一代Grace Hopper（Blackwell架构GB300）芯片的水平。如此庞大的算力规模，使其能够支撑超大规模AI模型的训练任务，例如参数规模达万亿级的通用人工智能模型。OpenAI基础设施部门副总裁Peter Hoeschele在大会现场表示，甲骨文定制的算力集群为OpenAI的模型研发提供了"前所未有的算力保障"，特别是在大模型多模态训练、复杂推理能力提升等方面发挥了关键作用。

该系统的核心竞争力在于甲骨文独创的Acceleron RoCE网络架构。据甲骨文技术负责人介绍，传统的AI超算往往面临大规模GPU集群通信延迟高、稳定性不足等问题，而Acceleron架构让每块GPU的网络接口卡（NIC）都充当一个小型交换机，一次可连接到多个隔离的网络交换平面。这种多平面、扁平化的网络设计，使GPU之间的直连延迟降低了30%以上，且确保即使某一路由出现故障时，训练作业也能自动切换到其它路径继续运行，避免了传统集群因单点故障导致的训练中断问题。此外，该架构引入的线性可插拔光学模块（LPO）和线性接收光学组件（LRO）等新技术，在保持400G/800G带宽的前提下，将网络能耗与冷却成本降低了25%，解决了超算集群"高能耗"的行业痛点。

尽管技术参数亮眼，但业内对其实际性能仍存在一定争议。有行业观察者指出，16 ZettaFLOPS的峰值算力尚未经独立机构验证，且很可能是基于极低精度的AI计算指标（例如FP8甚至4比特稀疏运算）实现的。而实际的大模型训练通常需要使用更高精度（如BF16或FP8）的数值格式以保证模型收敛效果，因此在真实训练场景中，其可持续交付的算力可能会大幅低于峰值数据。此外，超大规模集群的运维难度也不容忽视，80万块GPU的协同工作需要极其复杂的调度系统，如何确保算力利用率、降低故障发生率，将是甲骨文面临的长期挑战。

甲骨文此次布局也反映了全球云服务商在AI算力领域的激烈竞争。目前，微软、谷歌、亚马逊等云计算巨头均在加大AI超算集群的投入，微软Azure的AI超级计算机已部署超过50万块GPU，谷歌Cloud则推出了基于自研TPU芯片的算力集群，亚马逊AWS也在持续扩大GPU采购规模。为应对竞争，甲骨文在发布超算的同时，还推出了新的"多云通用积分"计划，允许客户用统一的预付积分在甲骨文云及AWS、Azure、Google等多家云服务间自由调配甲骨文数据库和OCI服务，旨在降低客户迁移门槛、提高平台黏性。

据甲骨文官方透露，OCI Zettascale10集群计划在2026年下半年正式向客户提供服务，目前已开始接受企业客户的预订。NVIDIA公司高管Ian Buck在大会上表示，甲骨文的全栈优化"计算结构"为AI技术从实验走向工业化应用提供了关键支撑，有望加速AI在千行百业的落地进程。业内预计，随着各大巨头的算力投入不断加大，AI模型的研发周期将进一步缩短，算力成本也将逐步降低，为人工智能产业的爆发式增长奠定基础。

上一篇: 三季报披露季来临计算机行业分化加剧头部企业AI落地成效凸显

下一篇: Windows 10停服催生换机潮第三季度全球PC出货量显著增长

暂无评论

0/1000

匿名

甲骨文发布全球最大AI超算 成OpenAI"星际之门"算力核心

甲骨文发布全球最大AI超算成OpenAI"星际之门"算力核心