blog
2025-08-12

曝华为将发AI推理领域突破性成果 降低HBM依赖

华为计划于8月12日在2025金融AI推理应用落地与发展论坛上发布一项AI推理领域的突破性技术成果。这项成果有望减少中国AI推理对高带宽内存技术的依赖,提升国内AI大模型推理性能,完善中国AI推理生态。

此前,华为在AI推理领域已有技术突破。例如,2025年3月,北京大学与华为联合发布了DeepSeek全栈开源推理方案。该方案基于北大自研的SCOW算力平台系统和鹤思调度系统,整合了DeepSeek、openEuler、MindSpore与vLLM/RAY等社区开源组件,在华为昇腾上实现了高效的DeepSeek推理。

华为昇腾在性能方面也取得了多项进展。比如,在CloudMatrix 384超节点部署DeepSeek V3/R1时,单卡Decode吞吐量在50ms时延约束下超过1920 Tokens/s;而Atlas 800I A2推理服务器在100ms时延约束下单卡吞吐量达到808 Tokens/s。

此外,科大讯飞与华为的合作也取得了显著成效。双方率先在国产算力上实现了MoE模型的大规模跨节点专家并行集群推理,使推理吞吐量提升了3.2倍,端到端时延降低了50%。

来源于:https://news.china.com/socialgd/10000169/20250812/48713329.html    如有侵权请联系我们