为什么AI服务器离不开Retimer?PCIe5.0时代的信号完整性挑战


如果你正在设计或采购一台面向 AI 训练的高性能服务器,你大概率已经将注意力放在了 GPU 数量、HBM 容量、互联带宽这些显性指标上。
但有一类问题,它很少出现在宣传材料中,却能在你的集群规模扩大时,让 PCIe 链路反复掉线、训练任务莫名中断、吞吐量远达不到标称值。它就是「信号完整性问题」。而在 PCIe 5.0 时代,解决这个问题的最关键组件,叫做 Retimer。
今天,我们就从技术底层讲清楚:为什么 AI 服务器,越来越离不开 Retimer。

PCIe 5.0的「双刃剑」
带宽翻倍,信号距离腰斩
PCIe 接口在过去二十年里,一直遵循着「速率翻倍」的节奏演进:
• PCIe 4.0:16 GT/s(每秒160亿次传输)
• PCIe 5.0:32 GT/s
•即将到来的PCIe 6.0:64 GT/s
更高的速率意味着更大的数据吞吐——对于 AI 服务器来说,这意味着 GPU 与 GPU 之间、GPU 与 SSD 之间、CPU 与加速器之间的「管道」更粗了。但代价是「信号衰减」。

在物理世界中,信号在 PCB 走线、连接器、线缆中传输时,高频分量会以指数级速度衰减。速率每提升一倍,相同距离下的衰减就增加约 6-10dB。PCIe 5.0 的32GT/s信号,在普通服务器主板上的有效传输距离,相比 PCIe 4.0 几乎缩短了一半。
通俗地说:PCIe 4.0 时代能跑通的「长走线+多个连接器」拓扑,在 PCIe 5.0 上很可能直接「不通」或「时通时断」。

信号完整性失效的后果
不只是「掉盘」,而是算力空转
有人可能会问:信号差一点,不就是偶尔出错、重传一下吗?影响有多大?
在 PCIe 协议中,当链路误码率升高到一定程度,PCIe 控制器会发起链路重训练——从最高速率逐级降速,直到找到一个能稳定工作的速率。

这意味着:
• 你的 PCIe 5.0 设备,可能一直在以 PCIe 4.0 甚至 3.0 的速度运行。
• 多 GPU 通信时,一个链路的降速会拖慢整个集合通信(如 All-Reduce ),导致 GPU 利用率暴跌。
• 对于使用 CXL 扩展内存的场景,信号不稳会导致系统崩溃或数据损坏。
• 在一台8卡 AI 服务器中,任意一条 GPU → CPU 或GPU → GPU 链路的信号完整性出问题,都会让整台机器的有效算力打折扣。几十万元的 GPU,可能因为几厘米的走线或一个廉价连接器而「无法发挥性能」。

Retimer的角色
不只是「放大」,而是「重塑」
很多人会把 Retimer 和 Redriver 混淆。简单区分:
• Redriver(重驱动器):对信号进行简单的放大和均衡,类似「扩音器」。它会把噪声一起放大,且不能消除抖动。
• Retimer(重定时器):内部集成了时钟数据恢复(CDR)电路。它把接收到的「模糊」信号,重新采样、判决、整形,输出一个「全新」的、符合规范的眼图,相当于「信号再生器」。

Retimer的核心能力包括:
• 大幅延长传输距离:高性能Retimer通过高达30-40dB的均衡能力(远超PCIe 5.0规范36dB损耗预算),支持更长的PCB走线、更多的连接器、更严苛的物理环境。
• 消除抖动:CDR电路将累积的随机抖动和确定性抖动归零。
• 链路拆分:一颗16通道Retimer可以配置为1x16、2x8、4x4等多种模式,灵活适配不同拓扑。

一句话:Redriver 让信号「变大」,Retimer 让信号「重生」。
在复杂的 AI 服务器内部,对于多连接器、长背板等严苛场景,Retimer 通常是确保链路通过 PCI - SIG 合规测试的最可靠选择。

为什么AI服务器尤其脆弱?
多卡互联、长背板、CXL
相比通用服务器,AI 服务器面临更严苛的信号完整性挑战:
多 GPU + 多 CPU 拓扑:一个8卡 GPU 服务器内部,PCIe 走线往往需要经过 CPU、PCIe Switch、连接器、线缆等多个环节,每个环节都会引入衰减和反射。
长背板与中板:为了散热和模块化设计,很多 AI 服务器采用前舱 GPU + 后舱 CPU / SSD 的结构,背板走线长度可达20-30英寸,PCIe 5.0 信号无法直接跨越这个距离。

CXL 内存扩展:
CXL 要求更长的物理距离(用于内存池化),在 CX L内存池化等长距离场景中,Retimer 已成为事实上的标准配置。
这正是为什么近年来,几乎所有头部服务器厂商在发布 PCIe 5.0 平台时,都会在主板或扩展卡上预留 Retimer 位置。它不是「可选升级」,而是让系统能够稳定工作的基础设施。

结语
PCIe 5.0 给 AI 服务器带来了梦寐以求的带宽,但也带来了前所未有的信号完整性挑战。Retimer 已经从「小众配件」变成了大规模 AI 集群的标准组件。
芯展速(GENSTORAIGE)正是看到了这一趋势,推出了面向 PCIe 5.0 / CXL 的 GE5216 16 通道 Retimer 芯片—— 42dB 均衡范围(超出 PCIe 5.0 规范 36dB 要求,为严苛场景提供充足余量)<5ns延迟、自研诊断工具、已通过 PCI-SIG PCIe 5.0 电气兼容性测试。
在下一周的内容中,我们将进一步解析:Retimer 和 Redriver 到底该怎么选?一张图让你不再困惑。敬请关注。
官网:www.gsaitech.com
