FuXi-Linear：释放线性注意力在超长序列推荐中的潜力

Thu, 19 Mar 2026 21:00:00 +0800

本文是关于最新论文《FuXi-Linear: Unleashing the Power of Linear Attention in Long-term Time-aware Sequential Recommendation》（）的阅读笔记。

1. 背景与动机

在现代推荐系统中，基于 Transformer 的序列推荐模型已经成为主流范式。从早期的 SASRec、BERT4Rec，到近年来的 HSTU、gSASRec 等，Transformer 架构凭借其强大的全局注意力机制，在捕捉用户行为序列中的长程依赖关系方面表现优异。

然而，传统 Softmax 注意力机制的核心瓶颈在于其 二次复杂度 $\mathcal{O}(n^2)$。具体来说：

显存瓶颈：当用户行为序列长度超过 $10^4$ 时，注意力矩阵本身就需要占用 GB 级显存，这在工业级在线推理场景中几乎不可接受
延迟瓶颈：每次新增一个交互事件，都需要重新计算完整的注意力矩阵，导致自回归推理的延迟线性增长
吞吐量瓶颈：GPU 的计算资源被大量浪费在注意力矩阵的计算上，无法有效提升单卡的服务吞吐量

在 NLP 领域，”线性注意力（Linear Attention）”架构已经展现了巨大的潜力。以 Mamba、RWKV、RetNet、GLA 为代表的一系列工作，通过不同的技巧将注意力的复杂度从 $\mathcal{O}(n^2)$ 降低到 $\mathcal{O}(n)$，甚至在递归推理模式下做到 $\mathcal{O}(1)$ 的单步复杂度。

但是，将这些线性架构直接”生搬硬套”到推荐系统中，却面临着诸多水土不服的问题。推荐系统中的用户行为序列与自然语言文本有着本质的区别：

行为序列中蕴含着丰富的 时间戳信息（何时发生交互），而不仅仅是简单的位置顺序
用户行为呈现出强烈的 周期性模式（如工作日 vs 周末、白天 vs 夜晚），这在纯文本中并不存在
推荐场景对 位置精度 的要求更高，因为”最近点击了什么”与”很久之前点击了什么”在推荐相关性上有着天壤之别

FuXi-Linear 正是为了系统性地解决这些问题而提出的一种全新架构，来自中国科学技术大学的 StarTeam 团队。

2. 线性模型在推荐系统中的三大挑战

论文深入分析了现有线性模型在推荐系统中应用时面临的核心痛点：

2.1 挑战一：时间信号利用不佳

现有的方法通常把”时间戳”当作一种普通特征，直接与物品的”语义特征”进行拼接或相加。这种做法存在严重的缺陷：

信号耦合干扰：语义特征（如商品类目、品牌）和时间特征（如交互时刻、时间间隔）被强制混合在同一个向量空间中，两种信号的梯度更新会相互干扰，导致两者都无法被充分学习
周期性建模缺失：用户行为往往具有明显的周期性模式。例如，一个用户可能每周末下午才会浏览游戏相关内容，工作日则主要关注办公用品。简单的时间戳拼接无法显式捕获这种周期性规律
时间分辨率不足：将时间戳离散化为特征后，模型很难感知到细粒度的时间差异，例如”5 分钟前点击”与”5 小时前点击”的区别

2.2 挑战二：位置信息缺失

传统 Transformer 通常使用相对位置编码（RPE，如 T5 bias、ALiBi、RoPE）来提供精确的位置感知能力。但在线性注意力的框架下，RPE 面临严峻的兼容性问题：

计算复杂度冲突：RPE 需要两两计算 token 之间的相对距离，这本身就是 $\mathcal{O}(n^2)$ 的操作，直接破坏了线性注意力的复杂度优势
递归形式不兼容：线性注意力的高效推理依赖于 RNN 式的递归计算，而 RPE 无法被分解为递归形式
自然衰减粒度太粗：线性模型（如 RetNet）自带的指数衰减机制虽然提供了一定的位置偏置，但其表达能力远不如 RPE，无法精细区分不同相对距离的重要性差异

2.3 挑战三：缺乏长序列扩展性

从工程实践角度来看，现有的线性推荐模型存在明显的验证缺口：

序列长度有限：大多数现有工作仅在短序列场景下测试（长度 $\le 100$），远未触及线性模型真正的优势区间
模型规模偏小：测试通常使用浅层网络（1-2 层）和小维度（$d \le 128$），无法证明线性模型能否通过增加参数量持续获得收益
缺少 Scaling Law 验证：在 NLP 领域，Scaling Law 已经成为衡量架构潜力的核心指标。但在推荐系统中，线性架构从未被验证过是否存在类似的幂律缩放特性

3. FuXi-Linear 的核心架构创新

为了系统性地解决上述三大挑战，FuXi-Linear 设计了一种 三通道并行架构：三个独立的通道分别负责处理语义信号、位置信号和时序信号，最终通过门控机制进行自适应融合。

3.1 语义保留通道 (Retention Channel)

语义保留通道是模型的核心骨干，负责从用户行为序列中提取物品之间的语义关联。该通道采用类似 RetNet 的 Retention 机制替代传统全注意力，其核心公式为：

$$ Retention(Q,K,V,D) = (QK^T \odot D)V $$

其中衰减矩阵 $D_{i,j} = \gamma^{i-j}$，$\gamma$ 为可学习参数。

这个设计的精妙之处在于它支持 双模式计算：

并行模式（训练时）：将整个序列的 $Q$、$K$、$V$ 一次性计算，通过矩阵乘法高效并行处理。衰减矩阵 $D$ 作为 mask 直接应用于注意力矩阵，训练效率与标准 Transformer 相当
递归模式（推理时）：将状态压缩为固定大小的 KV 缓存矩阵 $S_t$，每步更新规则为 $S_t = \gamma S_{t-1} + K_t^T V_t$。新 token 的输出仅需 $O_t = Q_t S_t$，单步复杂度降为 $\mathcal{O}(1)$

多头设计：为了增强表达能力，语义保留通道采用多头机制，不同的头使用不同的衰减率 $\gamma$。较大的 $\gamma$ 关注长程依赖，较小的 $\gamma$ 侧重近期行为，从而实现多尺度的语义捕获。

3.2 线性位置通道 (Linear Positional Channel)

这是本文最精妙的技术创新之一，也是解决”位置信息缺失”挑战的关键。

核心思路：传统的相对位置编码计算 $f(x-y)$（其中 $x$ 和 $y$ 是两个 token 的位置），这需要两两配对计算，复杂度为 $\mathcal{O}(n^2)$。作者的关键洞察是：可以通过引入一组可学习的核函数映射 $\mathbf{k}(x)$，将位置差函数分解为内积形式：

$$ f(x-y) \approx g(x,y) = \mathbf{k}^T(x)\mathbf{k}(y) $$

技术细节：

核函数 $\mathbf{k}(x)$ 由一个小型 MLP 实现，输入为位置索引 $x$，输出为一个低维向量
由于内积可以被分解为外积的累积和，因此这个近似可以完美嵌入线性注意力的递归计算框架
论文中证明了该近似的误差上界，保证了在合理的核函数维度下，近似精度足以替代精确的 RPE

效果：这个设计在 维持线性递归特性 的同时，让模型获得了接近于精确 RPE 的位置感知能力。这解决了线性注意力领域长期以来”位置编码与线性复杂度不可兼得”的难题。

3.3 时序保留通道 (Temporal Retention Channel)

为了实现时间信号与语义信号的彻底解耦，FuXi-Linear 专门开辟了一条独立的时序通道。

设计要点：

独立的 Query/Key 生成：该通道 完全利用时间戳数据 生成 Query 和 Key，不混入任何物品语义特征。时间戳经过编码后（包含绝对时间和相对时间差），通过独立的线性变换映射为 $Q_t$ 和 $K_t$
周期性捕获：由于时间戳信息不被语义信号”污染”，模型可以专注学习用户行为的周期模式。例如用户的日内活跃周期（通勤时段 vs 睡眠时段）、周内活跃周期（工作日 vs 周末）、甚至更长期的季节性模式
Value 复用：该通道的 Value 矩阵仍然来自物品的语义表征，确保时序通道的输出仍然承载有意义的语义信息，只是”按时间规律重新加权”
同样支持双模式：时序通道也采用了与语义通道相同的 Retention 框架，保证训练和推理时的双模式兼容性

3.4 门控融合与前馈网络

三个通道的输出通过 拼接 + 门控机制 进行融合：

首先将三个通道的输出在特征维度上拼接
然后通过一个可学习的门控向量对不同通道的贡献进行自适应加权
最后送入 MFFN（Multi-stage Feed-Forward Network） 进一步提炼特征

MFFN 相比标准的 FFN 引入了多阶段的非线性变换，增强了模型在有限层数下的表达能力。

4. 架构流程图

graph TD A[用户历史交互序列 + 时间戳] --> B[Embedding 层] B --> C[FuXi-Linear Block] C -->|输入 X| D1[Retention Channel
提取语义信息] C -->|时间戳| D2[Temporal Retention Channel
提取周期性时序信号] C -->|位置信息| D3[Linear Positional Channel
相对位置建模] D1 --> E[Concatenation & Gating
特征拼接与门控机制] D2 --> E D3 --> E E --> F[MFFN 多阶段前馈网络] F --> G[下一个 Item 预测]

5. 线性注意力 vs Softmax 注意力：详细对比

为了更好地理解 FuXi-Linear 的技术定位，下面从多个维度对比线性注意力和传统 Softmax 注意力：

维度	Softmax 注意力	线性注意力（FuXi-Linear）
计算复杂度（训练）	$\mathcal{O}(n^2 d)$	$\mathcal{O}(n d^2)$，当 $d \ll n$ 时显著更优
计算复杂度（推理单步）	$\mathcal{O}(nd)$，需读取完整 KV Cache	$\mathcal{O}(d^2)$，固定大小状态矩阵
KV Cache 大小	随序列长度线性增长	固定大小 $d \times d$
位置编码兼容性	原生支持 RoPE、ALiBi 等 RPE	需要特殊设计（如本文的核函数近似）
长程依赖建模	理论上无限，但实践中受限于上下文窗口	通过衰减矩阵隐式建模，长距离信号衰减
并行训练效率	高，原生支持矩阵并行	高，chunk-wise 并行或全矩阵并行
Prefill 速度	基线	约 10x 加速
Decode 速度	基线	约 21x 加速

核心差异总结：

当序列长度 $n$ 远大于特征维度 $d$ 时（推荐系统中通常 $n > 1000$，$d = 128 \sim 256$），线性注意力在速度上具有压倒性优势
Softmax 注意力在短序列场景下仍有竞争力，因为其注意力分布更加”尖锐”，信息选择能力更强
FuXi-Linear 通过三通道设计弥补了线性注意力在位置编码和时间建模上的天然短板

6. 与其他推荐方法的对比

方法	注意力类型	时间信号建模	位置编码	推理复杂度	长序列支持
SASRec	Softmax	无	绝对位置	$\mathcal{O}(nd)$	弱（通常截断 50-200）
HSTU	Softmax + 相对时间	时间间隔融合	相对位置	$\mathcal{O}(nd)$	中（支持 1000+）
LinRec	线性核近似	无	绝对位置	$\mathcal{O}(d^2)$	中（仅短序列验证）
Mamba4Rec	SSM (Mamba)	无	隐式（SSM 状态）	$\mathcal{O}(d)$	中（缺少长序列验证）
FuXi-Linear	三通道 Retention	独立时序通道	核函数近似 RPE	$\mathcal{O}(d^2)$	强（验证至 $10^4$ 级）

关键观察：

FuXi-Linear 是目前唯一同时解决了时间建模、位置编码和长序列扩展三个问题的线性推荐架构
相比 Mamba4Rec 等直接迁移 NLP 架构的方案，FuXi-Linear 针对推荐场景做了深度定制
与 HSTU 等 Softmax 方案相比，FuXi-Linear 在推理效率上有数量级的优势

7. 实验结果详细分析

FuXi-Linear 在多个包含千级长度序列的真实数据集上进行了全面验证。

7.1 推荐质量

在 MovieLens-25M、Amazon Reviews 等多个公开数据集上，FuXi-Linear 的表现：

在 Hit Rate@10 和 NDCG@10 等核心指标上，FuXi-Linear 相比最强的 Softmax Transformer 基线取得了一致性的提升
提升幅度在不同数据集上有所不同，但在长序列数据集上的提升尤为明显，这说明三通道架构在长序列场景下的优势更加突出
相比其他线性推荐模型（如 LinRec、Mamba4Rec），FuXi-Linear 的提升更为显著，验证了专门设计的必要性

7.2 推理效率

这是 FuXi-Linear 最亮眼的实验结果：

Prefill 阶段：相比最强 Transformer 基线，实现了高达 10x 的加速。Prefill 是指首次处理用户完整历史序列的阶段，这对冷启动和重建缓存场景至关重要
Decode 阶段：实现了高达 21x 的加速。Decode 是指每次用户产生新行为后的增量推理阶段，这是在线服务中最高频的操作
显存占用：由于 KV Cache 大小固定，FuXi-Linear 的显存占用不随序列长度增长，在超长序列场景下节省了大量显存

7.3 Scaling Law 验证

这是论文的另一大核心贡献。作者系统性地验证了 FuXi-Linear 的缩放特性：

模型规模缩放：随着模型参数量从小到大增长，推荐指标呈现出稳健的 幂律缩放特性（Power-law scaling），即 $\text{Loss} \propto N^{-\alpha}$
序列长度缩放：随着输入序列长度的增加，模型性能持续提升且未出现饱和迹象，这说明 FuXi-Linear 能够有效利用更长的用户历史
这是推荐系统中首次在线性架构上验证 Scaling Law，意义重大：它为工业界提供了”增加计算预算就能持续获得收益”的理论保障

7.4 消融实验

论文通过消融实验验证了各组件的贡献：

移除时序保留通道后，模型在具有明显周期性行为的数据集上性能显著下降
移除线性位置通道后，模型的位置感知能力退化，近期行为的权重分配不合理
将三通道改为单通道（混合所有信号）后，整体性能明显下降，验证了特征解耦的必要性

8. 优缺点分析

8.1 优势

极致的推理效率：三通道均基于线性递归计算，Decode 阶段单步复杂度为 $\mathcal{O}(d^2)$，不随序列长度增长。在实际测试中实现了 10-21x 的加速，这对工业级在线推理系统意义重大
系统性的信号解耦：将语义、位置、时序三种信号分离到独立通道中处理，避免了信号间的相互干扰。这不仅提升了模型性能，也增强了可解释性——可以分别分析每个通道学到了什么
优雅的位置编码方案：通过核函数近似将 RPE 分解为内积形式，在保持线性复杂度的同时获得了精确的位置感知能力，这是一个具有通用价值的技术贡献
经过验证的 Scaling Law：首次在推荐系统的线性架构中验证了幂律缩放特性，为工业界大规模部署提供了理论保障
双模式兼容：支持并行训练和递归推理两种模式，训练效率和推理效率均不妥协

8.2 不足与局限

模型复杂度增加：三通道并行设计引入了更多的参数和超参数（如各通道的头数、维度分配、衰减率初始化等），模型调优的成本相应增加
长程精确召回能力有限：线性注意力的固有局限在于其状态矩阵大小固定（$d \times d$），这意味着当序列极长时，早期的信息不可避免地会被压缩和遗忘。对于需要精确回忆”很久以前某次特定交互”的场景，Softmax 注意力仍有优势
核函数近似的理论上限：线性位置通道的核函数近似虽然有效，但毕竟是一种有损近似。核函数的维度需要权衡精度和效率，在某些对位置极其敏感的场景下，可能无法完全替代精确 RPE
工业验证尚不充分：论文的实验主要基于公开数据集，尚未公布在大规模工业推荐系统（如亿级用户、十亿级物品库）中的实际部署效果和资源消耗数据

9. 工程实践启示

从工程落地的角度来看，FuXi-Linear 提供了以下有价值的启示：

9.1 部署架构建议

增量推理优先：FuXi-Linear 最大的工程价值在于其 $\mathcal{O}(1)$ 的 Decode 复杂度。在实际部署时，应优先采用”首次 Prefill + 后续增量 Decode”的模式，而非每次请求都重新计算完整序列
状态缓存设计：由于递归状态矩阵大小固定，可以将用户的状态矩阵持久化存储（如 Redis），实现真正的”实时增量推荐”
分层序列策略：对于超长序列，可以考虑将远期历史和近期历史分别处理，远期历史使用更大衰减率的压缩状态，近期历史使用完整的注意力计算

9.2 训练优化建议

Chunk-wise 并行训练：对于超长序列，将序列分为多个 chunk，chunk 内并行计算、chunk 间递归传递状态，可以有效平衡训练速度和显存占用
衰减率初始化：不同头的衰减率 $\gamma$ 应该采用差异化初始化（如等比数列），避免所有头学到相似的衰减模式
渐进式序列增长：训练时可以采用”课程学习”策略，先在短序列上预训练，再逐步增加序列长度，有助于模型更好地学习长程依赖

9.3 适用场景判断

FuXi-Linear 最适合以下场景：

用户行为序列长度超过 500，传统 Transformer 面临效率瓶颈
用户行为具有明显的时间周期性模式
系统对推理延迟有严格要求（如 <10ms 的 P99 延迟）
需要支持实时增量推理，而非批量离线计算

10. 总结与展望

FuXi-Linear 通过精心设计的三通道架构，系统性地解决了线性注意力在推荐系统中面临的时间建模、位置编码和长序列扩展三大挑战。其核心贡献可以概括为：

架构层面：三通道并行 + 门控融合的设计范式，实现了语义、位置、时序信号的有效解耦
理论层面：核函数近似 RPE 的方法，解决了线性注意力与相对位置编码不兼容的难题
实证层面：首次在推荐系统中验证了线性架构的 Scaling Law，为大规模部署提供了信心

展望未来，FuXi-Linear 开辟了一条”高效线性架构 + 推荐场景深度定制”的新路径。随着用户行为数据的持续增长和在线推理效率要求的不断提高，这类架构有望成为下一代工业推荐系统的核心基座。

开源代码：官方代码库已经开源在 GitHub: 。

线性注意力 | Yadong's Blog