blog
2026-05-01

xAI坐拥50万张GPU但利用率仅11% 闲置资源困局

GPU利用率低至5%,比不采取任何措施的基准水平还要糟糕大约六倍。企业面临GPU浪费问题,因为释放闲置容量虽然可以提高利用率,但GPU短缺推高了价格,导致团队不愿意归还闲置容量。因此,GPU利用率仅为5%左右,按小时计费,这种模式还在不断恶化。

xAI坐拥50万张GPU但利用率仅11%

过去两年里,数千家企业都面临着类似的压力。根据Cast AI发布的报告,大多数公司目前的GPU集群利用率仅为5%左右。合理的人工管理目标应为30%左右。5%的效率意味着企业运行其最昂贵的基础设施的成本仅为不采取任何措施所能达到的收益的一小部分。同时,云计算定价打破了20年来的稳定模式,AWS悄然上调了预留H200 GPU的价格约15%,内存供应商也宣布2026年HBM3e的价格将上涨20%。

云计算市场已经分裂成两部分。在商品层面,传统的通货紧缩机制依然有效,H100按需定价已从2025年的每GPU小时7.57美元降至如今的约3.93美元,老款A100的价格约为1.92美元。而在前端芯片层,情况则相反。英伟达已收到2026年200万颗H200芯片的订单,而库存仅为70万颗。台积电的先进封装技术订单已排到至少2027年中期。AMD也警告称,由于同样的产能紧张,其2026年的价格也将上涨。

xAI坐拥50万张GPU但利用率仅11% 闲置资源困局

企业需要GPU时,通常会加入超大规模数据中心的等候名单。几周甚至几个月后接到电话,告知只能提供部分所需GPU,并要求签订一年或三年合约。担心失去配额的企业通常会签署合约,即使工作负载并不需要这么多GPU。一旦这些GPU被锁定,释放它们变得极其麻烦,因为重新获取需要数月时间,没有人愿意成为那个释放了容量却无法再次获取的团队。因此,这些GPU就只能闲置,按小时计费,无论是否使用。

xAI坐拥50万张GPU但利用率仅11% 闲置资源困局

单靠采购环节的改进无法解决GPU利用率低的问题,架构方面的问题也需要解决。Ray框架背后的公司Anyscale指出,现代AI工作负载的GPU利用率常常低于50%。Gartner也建议将跨孤立项目的共享GPU使用与解耦推理相结合,以提高利用率。两家供应商和一家独立分析公司的相同诊断表明,这两种浪费会叠加,如果只解决其中一个问题而不解决另一个,大部分潜在的节省就无法实现。

来源于:https://news.china.com/socialgd/10000169/20260501/49466517.html    如有侵权请联系我们