芯展速【AI90】训推方案 5月14日亮相 WAIC Future Tech

芯展速产品副总裁-许玮于 WAIC Future Tech发表重要内容

5月14日，芯展速在北京中关村融科技资讯中心完成【AI90 训推方案】及 AI90 的完整技术展示。成为代表 AI 基础设施创新方向的企业之一。

芯展速产品副总裁-许玮在演讲后与多位同行深入交流

芯展速产品副总裁-许玮以20年存储产业经验，向评委与现场行业专家呈现了芯展速「如何突破大模型训练」的显存瓶颈，现场反响热烈。

行业痛点：

显存之墙如何打破？

当前，大量开发者和企业希望利用消费级 GPU 进行 AI 推理与微调，但面临两个核心瓶颈：

- 多卡并行效率受限：消费级 GPU 默认 P2P 通信被限制，多卡数据需经 CPU 中转，延迟高，集群性能难以线性扩展。

- 长上下文处理困难：传统 KV Cache 显存利用率通常低于40%，超长文本（8K+ token）易触发OOM，长文档问答几乎不可用。

AI90 方案：

软硬件协同，释放消费级GPU潜能

芯展速「AI90 软硬件一体化 AI 推理加速方案」，从底层驱动到上层调度实现全栈优化。

芯展速产品副总裁-许玮于 WAIC Future Tech发表重要内容

智能 P2P 互联

• 通过深度优化的驱动程序，解锁 NVIDIA 消费级 GPU 中被屏蔽的 P2P 硬件功能，实现多卡点对点直接高速交换，绕过 CPU 瓶颈。

• 多卡通信延迟降低至传统方案的1/10，多卡并行性能提升5.8倍，实现近线性扩展。

智能 AI Cache

• 集成 Paged Attention 技术，并利用 SSD 扩展为 TB 级虚拟显存，显存利用率从30%~40%提升至95%以上，单卡可支撑2~3倍并发规模，轻松支持 128K+ 超长上下文。

性能数据（Llama 3 70B模型）

• 在 32K 和 64K 长上下文场景下，TTFT 从秒级跨越到亚秒级，长文档分析、多轮对话推理变得流畅自然。

核心价值：降低AI算力门槛

AI90 方案充分挖掘消费级 GPU 的潜力，无需采购昂贵的 HBM 或企业级 GPU 集群。在极优配置下，大幅降低成本，让更多企业能够负担千亿级模型的推理与微调。

应用场景

• AI 模型开发与微调：桌面级 GPU 工作站完成 LoRA 微调

• 个人 AI 助理：支持 128K+ 超长记忆的本地助理

• 小型团队 AI 服务：低成本搭建内部推理 API

• AI 研究与教育：利用现有 x90 系列 GPU 资源开展大模型教学与算法研究

未来规划

芯展速将持续迭代 AI90 方案：扩展更多消费级 GPU 型号支持、深度模型优化、开发图形化管理界面、开放标准化 API 共建生态。

结语

芯展速的愿景是——为智能世界构建数据基座。从企业级 SSD、Retimer 连接芯片，到 AI90 训推一体方案，芯展速以全栈自研能力，探索 AI 算力降本的中国方案。

芯展速为智能世界构建数据基座

官网：www.gsaitech.com

首页 ꄲ 加入我们

加入我们

与芯展速一起，为智能世界构建数据基座

200+

团队规模

70%

研发占比

70+

生态合作伙伴

产品

存类产品

连类产品

AI SSD & AI Solution

管类产品

芯展速科技(北京)有限公司：为智能世界构建数据基座

公司

资源

支持

总部

北京市西城区德胜门外大街13号院1号楼合生财富广场1401A

联系电话

4001339368

电子邮箱

GSAI@gsaitech.com