当前位置：首页 > 电器经验 > 正文

商汤大装置×华为昇腾 384 超节点：成功适配，国产 AI 基础设施再提速

游客
电器经验
2025-09-06
4

近日，商汤大装置 SenseCore 与昇腾 384 超节点率先完成全面适配，在功能、性能验证上达到预期目标，为加速国产 AI 算力从「可用」迈向「好用」取得了重点突破，为大模型高效训练与推理提供了坚实支撑。

超节点（SuperPod）是一种通过高速互联技术，将多个 GPU/NPU 整合为统一计算单元的新型架构，解决 AI 大模型训练中的算力协同与通信效率问题。

昇腾 384 超节点（Atlas 900 A3 SuperPoD）是华为推出的业界最大规模超节点方案，凭借创新的「全对等架构」，实现高速互联总线的关键突破——把总线从服务器内部扩展到整机柜、甚至跨机柜，最终将 CPU、NPU、DPU、存储和内存等资源全部互联和池化，形成一台「超级计算机」，实现更大的算力密度和互联带宽。

商汤联合华为昇腾，实现超节点适配多项创新

华为昇腾推出的与此同时，这一全新方案架构，也对软件栈的升级和平台调度优化提出了更高要求，让它能「跑得快、跑得稳」。

作为 AI 云原生平台，商汤大装置 SenseCore 致力于为用户提供敏捷、灵活、可靠的全栈 AI 基础设施服务，以极致性价比推动大模型技术的高效落地与规模化应用。

基于商汤大装置 SenseCore 与昇腾 384 超节点的特点，双方团队联合攻关，在调度优化、系统稳定性以及故障恢复等方面提出多项行业创新：

· 调度优化：在调度能力上，除了支持 POD 内单机和多机调度、跨 POD 多机调度、亲和性调度等基础能力，SenseCore 平台配合模型并行策略实现了逻辑超节点自动划分，使 EP/TP 等大通信策略可以充分利用灵衢网络，提升模型训练效率。

· 跨 POD 训练稳定性：另外 SenseCore 团队提交了多个 MR 修复多 POD 场景下 master/work 任务 rank 乱序问题，从根本上解决了跨 POD 训练任务概率性失败的问题。

· 多维度故障检测与恢复：在故障检测能力上覆盖了从服务器硬件、高速互联总线、RoCE 网络到任务、进程软硬件多维度检测，结合检测能力实现 Job/Pod/进程多级恢复机制，全面提升昇腾 384 超节点在训练场景下的可靠性与容错性。

此次商汤大装置 SenseCore 与昇腾 384 超节点的成功适配，让多租户、大规模、弹性 AI 云服务成为可能。未来，双方还将探索更多应用场景，包括大模型推理加速、智能体应用部署、面向垂直行业的大模型训练与推理优化等，进一步加速基于 SenseCore 的昇腾 384 超节点在各行各业的应用落地。

商汤科技大装置事业群 CTO 宣善明表示：「商汤大装置非常重视并深度参与国产化算力生态建设。SenseCore 成为首批完成昇腾 384 超节点适配的 AI 云平台，不仅得益于 SenseCore 平台的开放性、完善的功能和丰富的应用实践，更是国产 AI 基础设施融合发展的重要里程碑。SenseCore 通过与昇腾的深度融合，充分释放昇腾算力潜能，为产业界提供更加敏捷、智能、可靠的算力底座，商汤也将在此基础上打造面向各行业的 AI 解决方案，共同推动千行百业的智能化升级」。

来源：互联网

商汤科技

版权声明：本文内容由互联网用户自发贡献，该文观点仅代表作者本人。本站仅提供信息存储空间服务，不拥有所有权，不承担相关法律责任。如发现本站有涉嫌抄袭侵权/违法违规的内容，请发送邮件至 3561739510@qq.com 举报，一经查实，本站将立刻删除。！
本文链接：https://www.cd-tjlm.com/article-14350-1.html

上一篇
《金铲铲之战》深度适配华为 Mate XTs 非凡大师，开启大屏对弈新篇章

下一篇
49 克百语秒译续航 8 小时：亮亮视野 AR 翻译眼镜登场柏林 IFA 2025