XSKY 正式发布「面向华为昇腾系列的推理 KV Cache 加速方案」

由 XSKY星辰天合发布于2026-05-22

2026 年 5 月 22 日，北京，XSKY 星辰天合作为国内领先的 AI 数据基础设施公司，积极拥抱华为昇腾生态，推出「面向华为昇腾系列的推理 KV Cache 加速方案」。该方案基于 XSKY MeshFusion 推理加速系统，利用将多台华为昇腾算力服务器的 NVMe SSD 盘组织成高性能的共享存储池，结合 RDMA/RoCE 高速网络为 KV Cache 提供低延迟、高带宽、可扩展和共享的外部 KV Cache 存储层。通过大幅提升 KV Cache 存储容量（从 TB 级至 PB 级）来提高推理缓存命中率，从而提升推理集群的整体推理效率、吞吐能力与最终收益。

Agentic AI 时代，大模型的应用场景已经从通用问答走向了 AI 自动编码、企业知识库问答和复杂的智能体工作流，相对应的 AI 推理系统对长上下文的处理能力提出了更高的要求。尤其在推理的 Prefill 阶段，大规模的 KV Cache 会快速占用稀缺的显存资源（HBM），同时保存的 KV Cache 容量又很大程度上决定了请求的缓存命中率，从而影响着用户请求的响应时间（TTFT）与集群的整体吞吐能力（TPS）。为了打破这堵 AI 推理的“内存墙”，XSKY 基于自研的 MeshFusion 产品，推出了全新的推理 KV Cache 加速方案。

MeshFusion 推理加速系统

MeshFusion 推理加速系统，是基于 XSKY 星飞全闪存储底座（Shared-Everything Architecture）打造的，专为 AI 推理场景设计的高性能、大容量、持久化的 KV Cache 扩展内存。

它包含以下主要架构优势：

极简的系统架构：面向全闪与 KV Cache 重新设计，最小化算力服务器资源占用。

FlexPath 智能网络引擎：自研多路径技术，无需堆叠或 M-LAG，降低用户组网成本。

原生 KV Cache 语义接口：避免与传统协议的转换开销，构建最短 I/O 路径。

兼容昇腾生态，提升推理效率

面向上层推理系统，XSKY MeshFusion 通过轻量级的 SDK 与相应的推理框架进行无缝集成，能够很好的兼容华为昇腾等主流国产算力生态。得益于 MeshFusion 精简的架构设计与极低的资源开销，XSKY 推理 KV Cache 加速方案除了通过独立的存储集群提供服务还支持与算力集群融合部署，帮助客户数据中心节省额外的硬件与维护成本。

注：TTFT：首 Token 响应时间，将 KV Cache 卸载到 SSD 存储池，可大幅降低 TTFT。在上下文长度为 32K、64K、128K 的情况下，相比“不卸载” 分别下降 86%、89%、92%。

注：TPS：每秒 Token 数量，反应系统吞吐，将 KV Cache 卸载到 SSD 存储池，可明显提升集群 TPS。在上下文长度为 32K、64K、128K 的情况下，相比“不卸载”分别提升 271%、344%、422%。

备注：卸载到内存的场景，由于内存容量同样无法承载上述规模下的 KV Cache 数据，导致性能与“不卸载”接近。

在实际的项目测试中，XSKY 推理加速方案与多台华为昇腾 910C 服务器融合部署，利用多台算力服务器上的 NVMe SSD 构建高性能、可共享的 KV Cache 存储池。通过将推理产生的大量 KV Cache 数据从昇腾 910C NPU 的显存卸载到大容量的 NVMe SSD 池中，大幅提升了推理系统的响应效率与整体吞吐能力。

若您正在规划或运行着 AI 大模型相关业务，想要进一步提升集群推理效率、提高 Token 产出与 GPU/NPU 的利用率。欢迎致电 400-016-6101，咨询了解 XSKY 星辰天合华为昇腾适配 KV Cache 加速方案详情。

来源：XSKY 正式发布「面向华为昇腾系列的推理 KV Cache 加速方案」