芯展速【AI90】训推方案 5月14日亮相 WAIC Future Tech

芯展速产品副总裁-许玮 于 WAIC Future Tech发表重要内容

 

5月14日,芯展速在北京中关村融科技资讯中心完成【AI90 训推方案】及 AI90 的完整技术展示。成为代表 AI 基础设施创新方向的企业之一。
 

芯展速产品副总裁-许玮 在演讲后与多位同行深入交流
 
芯展速产品副总裁-许玮以20年存储产业经验,向评委与现场行业专家呈现了芯展速「如何突破大模型训练」的显存瓶颈,现场反响热烈。
 
行业痛点:
显存之墙如何打破?
当前,大量开发者和企业希望利用消费级 GPU 进行 AI 推理与微调,但面临两个核心瓶颈:
 

 

- 多卡并行效率受限:消费级 GPU 默认 P2P 通信被限制,多卡数据需经 CPU 中转,延迟高,集群性能难以线性扩展。

 
- 长上下文处理困难:传统 KV Cache 显存利用率通常低于40%,超长文本(8K+ token)易触发OOM,长文档问答几乎不可用。
 
AI90 方案:
软硬件协同,释放消费级GPU潜能
 
芯展速「AI90 软硬件一体化 AI 推理加速方案」,从底层驱动到上层调度实现全栈优化。
 

芯展速产品副总裁-许玮 于 WAIC Future Tech发表重要内容
 
智能 P2P 互联
• 通过深度优化的驱动程序,解锁 NVIDIA 消费级 GPU 中被屏蔽的 P2P 硬件功能,实现多卡点对点直接高速交换,绕过 CPU 瓶颈。
• 多卡通信延迟降低至传统方案的1/10,多卡并行性能提升5.8倍,实现近线性扩展。
 
智能 AI Cache
• 集成 Paged Attention 技术,并利用 SSD 扩展为 TB 级虚拟显存,显存利用率从30%~40%提升至95%以上,单卡可支撑2~3倍并发规模,轻松支持 128K+ 超长上下文。
 
性能数据(Llama 3 70B模型)
• 在 32K 和 64K 长上下文场景下,TTFT 从秒级跨越到亚秒级,长文档分析、多轮对话推理变得流畅自然。
 
核心价值:降低AI算力门槛
AI90 方案充分挖掘消费级 GPU 的潜力,无需采购昂贵的 HBM 或企业级 GPU 集群。在极优配置下,大幅降低成本,让更多企业能够负担千亿级模型的推理与微调。
 

 
应用场景
• AI 模型开发与微调:桌面级 GPU 工作站完成 LoRA 微调
• 个人 AI 助理:支持 128K+ 超长记忆的本地助理
• 小型团队 AI 服务:低成本搭建内部推理 API
• AI 研究与教育:利用现有 x90 系列 GPU 资源开展大模型教学与算法研究
 
未来规划
芯展速将持续迭代 AI90 方案:扩展更多消费级 GPU 型号支持、深度模型优化、开发图形化管理界面、开放标准化 API 共建生态。
 
 
结语
芯展速的愿景是——为智能世界构建数据基座。从企业级 SSD、Retimer 连接芯片,到 AI90 训推一体方案,芯展速以全栈自研能力,探索 AI 算力降本的中国方案。
 
芯展速 为智能世界构建数据基座  

官网:www.gsaitech.com