Scaling Law | Yadong's Blog

UniMixer：统一推荐系统三大架构范式的缩放定律探索

Wed, 08 Apr 2026 10:15:00 +0800

本文是关于快手技术团队论文《UniMixer: A Unified Architecture for Scaling Laws in Recommendation Systems》（）的深度精读笔记。这篇论文从理论上揭示了推荐系统中注意力机制、TokenMixer 和因式分解机三大架构范式的内在统一性，提出了参数化的 UniMixing 模块及其轻量化变体 UniMixer-Lite，并在快手广告系统上验证了清晰的缩放定律。

1. 引言：推荐系统特征交互架构的三条技术路线

1.1 从人工特征到深度模型的演进

推荐系统的核心挑战之一是特征交互建模——如何从用户画像、物品属性、上下文信息等异构特征中提取有效的交叉模式，以预测用户行为。

回顾推荐系统的发展历程，特征交互的建模方式经历了几个关键阶段：

手工特征工程时代（2010 年前）：依赖领域专家设计交叉特征，如"用户年龄 × 物品类别"。这种方式的问题在于人力成本高、覆盖度有限、无法捕获高阶交互。
因式分解机时代（2010-2016）：FM（Factorization Machine）及其变体（FFM、DeepFM）通过学习特征的隐向量表示来自动建模二阶交互 $\hat{y} = w_0 + \sum_i w_i x_i + \sum_{i\lt j} \langle v_i, v_j \rangle x_i x_j$。这开创了自动化特征交互的先河，但受限于交互阶数和表达能力。
深度网络显式交叉时代（2017-2022）：DCN、xDeepInt、AutoInt 等工作尝试通过显式的交叉网络结构捕获高阶交互。但这些方法往往带来复杂的网络设计和有限的扩展性。
Token 化与大模型时代（2023-至今）：受 Transformer 和大语言模型启发，推荐系统开始将特征视为 Token 序列，引入注意力机制和 TokenMixer 等操作进行特征交互。这一范式转变使得推荐模型具备了类似 LLM 的缩放潜力。

1.2 三条路线的分化与困境

进入 Token 化时代后，推荐系统的特征交互架构逐渐形成了三条主要的技术路线：

路线一：基于注意力机制（Attention-based）

代表工作：AutoInt、HiFormer、FAT、HHFT
核心思想：通过 Self-Attention 机制让每个 Token 动态地关注其他 Token，使用 Token-specific 的 Q/K/V 投影
优势：理论表达能力强，能捕获任意 Token 对之间的交互
问题：$O(L^2)$ 的计算复杂度，在特征数量 $L$ 较大时计算成本过高；更关键的是，在异构特征场景下，注意力权重容易变得尖锐稀疏，导致梯度回传受阻、训练停滞

路线二：基于 TokenMixer

代表工作：RankMixer（TokenMixer）、TokenMixer-Large
核心思想：通过固定规则的矩阵（如 Split & Concat）对 Token 进行混合操作
优势：计算效率高，参数无关（parameter-free），支持深层堆叠
问题：基于规则的混合模式缺乏可学习性和场景适应性；强制要求 Token 数等于 Head 数（T=H），限制了交互模式的选择空间

路线三：基于因式分解机（FM-based）

代表工作：Wukong、FinalMLP、GDCN、FiBiNet
核心思想：通过特征向量的内积或双线性交互建模特征对交互
优势：参数效率高，可解释性较好
问题：显式低阶交互约束限制了 Scaling 性能提升，难以扩展到更高阶

这三条路线各有优劣，但在工业实践中往往是"选边站队"——一个团队通常只深耕其中一条路线。这种割裂带来了两个核心问题：

缺乏统一的理论视角：无法回答"这三种方法到底有什么本质区别和联系？"
无法系统性地比较扩展效率：各方法在各自的实验设置下报告结果，缺少公平的缩放定律对比

1.3 UniMixer 的破局思路

UniMixer 论文的核心贡献在于回答了一个根本性问题：这三种看似不同的特征交互方式，是否存在统一的数学框架？

答案是肯定的。论文揭示了一个优雅的统一结构：

$$\text{UniMixing}(X) = \text{reshape}\left(G(X, W_G) \cdot [\text{local patterns}],\ 1,\ L\right)$$

在这个框架下，注意力机制、TokenMixer 和因式分解机只是全局权重 $G$ 和局部模式的不同实例化。这一发现不仅具有理论美感，更带来了实际的工程价值——既然三者本质相同，我们就能设计出集三者优势于一体的新架构。

2. 来源元数据 (Metadata)

原文标题: UniMixer: A Unified Architecture for Scaling Laws in Recommendation Systems
原文链接:
来源: arXiv（快手技术团队）
作者: Mingming Ha, Guanchen Wang, Linxun Chen, Xuan Rao, Yuexin Shi, Tianbao Ma, Zhaojie Liu, Yunqian Fan, Zilong Lu, Yanan Niu, Han Li, Kun Gai
发表日期: 2026 年 4 月

3. 核心摘要 (Executive Summary)

UniMixer 提出了推荐系统特征交互的统一架构框架，其核心创新包括：

理论统一：将注意力机制、TokenMixer 和因式分解机归纳为同一数学框架的不同特例
参数化 TokenMixer：将基于规则的 Token 混合操作转化为等价的参数化矩阵乘法，使混合模式可在训练中端到端优化
UniMixer-Lite：通过基矩阵组合和低秩近似，在大幅压缩参数量和计算成本的同时提升模型性能
SiameseNorm：引入耦合双流归一化解决深层架构的训练稳定性问题
缩放定律验证：在快手广告系统上验证了清晰的幂律缩放关系，UniMixer-Lite 的缩放指数（0.142）显著优于 RankMixer（0.116）

4. 深度解读 (Deep Dive)

4.1 参数化 TokenMixer：从规则驱动到数据驱动

UniMixer 论文最精彩的理论贡献之一，是揭示了 TokenMixer 操作的矩阵本质。

4.1.1 TokenMixer 的本质是什么？

以 RankMixer 为例，其核心操作是 Split & Concat——将 Token 序列按某种规则拆分后重新拼接。这看起来只是一种数据搬运操作，但论文指出：

任何 TokenMixer 的 Split & Concat 操作，都等价于将一个排列矩阵（Permutation Matrix）乘以展平的输入嵌入。

具体来说，对于输入 $X \in \mathbb{R}^{T \times D}$（$T$ 个 Token，每个维度为 $D$），TokenMixer 操作可以表示为：

$$\text{TokenMixer}(X) = \text{reshape}\left(W^{\text{perm}} \cdot \text{flatten}(X),\ H,\ \frac{TD}{H}\right)$$

其中 $W^{\text{perm}}$ 是一个排列矩阵。这个发现至关重要，因为：

排列矩阵具有双随机性（doubly stochastic）——每行每列恰好一个 1
排列矩阵是稀疏的——大部分元素为 0
当 $T = H$ 时，排列矩阵是对称的

4.1.2 从排列矩阵到可学习权重

既然 TokenMixer 本质上是矩阵乘法，一个自然的问题是：为什么要使用固定的排列矩阵，而不让模型自己学习最优的混合权重？

这正是 UniMixer 的核心思路——将硬编码的排列矩阵替换为可学习的权重矩阵 $W$，同时通过正则化约束保持排列矩阵的良好性质。更重要的是，参数化使得 T=H 的约束被彻底解除——传统 TokenMixer 强制要求 Token 数等于 Head 数，而参数化权重矩阵可以自由选择任意维度。

具体的约束实施方式：

双随机性约束：通过 Sinkhorn-Knopp 迭代实现

$$S_k(W) = D_r^{-1} W D_c^{-1}$$

其中 $D_r$ 和 $D_c$ 分别是行和列的归一化矩阵，交替迭代直至收敛。

稀疏性约束：通过温度系数 $\tau$ 控制

$$W_{\tau} = \text{softmax}(W / \tau)$$

当 $\tau \to 0$ 时，权重趋向 one-hot 分布，恢复排列矩阵的稀疏性。

对称性约束：通过显式对称化

$$W_{\text{sym}} = \frac{W + W^T}{2}$$

4.1.3 温度退火训练策略

直接使用低温度训练可能导致梯度消失（softmax 输出接近 one-hot 时梯度极小）。论文提出了温度退火（Temperature Annealing）策略：

$$\tau_j = \max\left\{\tau_{\text{start}} - \frac{(\tau_{\text{start}} - \tau_{\text{end}}) \cdot j}{J},\ \tau_{\text{end}}\right\}$$

训练初期使用较高温度（$\tau_{\text{start}} = 1.0$），让模型在接近均匀分布的空间中自由探索；随着训练推进，逐步降低温度至 $\tau_{\text{end}} = 0.05$，使权重逐渐收敛到稀疏的最优混合模式。

这种"先探索、后收敛"的策略与模拟退火算法有异曲同工之妙，有效避免了过早陷入局部最优。

4.2 统一理论框架：三大范式的殊途同归

4.2.1 统一公式

论文的核心理论贡献是将三种架构范式统一到同一个框架下：

$$\text{UniMixing}(X) = \text{reshape}\left(G(X, W_G) \cdot [\text{local patterns}],\ 1,\ L\right)$$

不同方法的差异仅在于全局权重 $G$ 和局部模式的选择：

方法	全局权重 $G$	局部模式
Self-Attention	$\text{softmax}\left(\frac{(XW_Q)(XW_K)^T}{\sqrt{d}}\right)$	$XW_V$
Heterogeneous Attention	$\text{softmax}\left(\frac{(X\tilde{W}_Q)(X\tilde{W}_K)^T}{\sqrt{d}}\right)$	$X\tilde{W}_V$
TokenMixer	$G$（固定置换矩阵）	$X$（恒等映射）
FM	$XI(XI)^\top$	$Y$
UniMixer	$W_G$（可学习全局混合）	$\{W_B^i\}$（可学习块权重）

这个统一视角揭示了三个深刻的洞察：

注意力机制是数据依赖的动态混合：全局权重 $G$ 由输入 $X$ 通过 Query-Key 机制动态计算，因此不同输入有不同的混合模式。这赋予了注意力极强的表达能力，但也带来了 $O(L^2)$ 的计算成本。
TokenMixer 是数据无关的静态混合：全局权重 $G$ 是固定的可学习参数，与输入无关。这使得计算效率极高（权重可以预计算），但牺牲了对不同输入的适应性。
因式分解机是特征相似度驱动的混合：全局权重 $G = XI(XI)^\top$ 由特征向量的内积决定，本质上是基于特征相似度的混合。这在二阶交互上效率很高，但难以扩展到更高阶。

4.2.2 Kronecker 积分解与计算优化

完整的 UniMixing 操作涉及 $L \times L$ 的权重矩阵（$L$ 为 Token 数量），在特征数量较大时计算成本不可接受。论文利用排列矩阵的 Kronecker 积结构进行分解：

$$W^{\text{perm}} = G \otimes I$$

这意味着全局混合矩阵可以分解为全局模式 $W_G$ 和局部模式 $W_B$ 的组合，将计算复杂度从 $O(L^2)$ 降低到：

$$O\left(\frac{L^2}{B} + LB\right)$$

其中 $B$ 是块大小。这种"全局-局部"的分层结构是 UniMixer 兼顾表达能力和计算效率的关键。

4.3 UniMixer-Lite：效率与性能的帕累托前沿

4.3.1 设计动机

完整的 UniMixing 模块虽然理论上优雅，但在工业部署中仍面临参数效率的挑战——每个块都需要独立的全局和局部权重矩阵。UniMixer-Lite 通过两项关键技术将参数量大幅压缩：

4.3.2 基矩阵组合（Basis Composition）

对于局部权重 $W_B^{(i)}$（第 $i$ 个块的局部混合矩阵），UniMixer-Lite 不再为每个块独立学习权重，而是通过一组共享基矩阵的线性组合动态生成：

$$W_B^{(i)} = \sum_{\ell=1}^{b} \omega_\ell^{(i)} Z_\ell$$

其中 $\{Z_\ell\}_{\ell=1}^{b}$ 是 $b$ 个共享基矩阵，$\omega_\ell^{(i)}$ 是第 $i$ 个块对各基矩阵的组合系数。

这种设计的精妙之处在于：

基矩阵在所有块间共享，参数量从 $O(L/B \cdot B^2)$ 降到 $O(b \cdot B^2)$
组合系数 $\omega_\ell^{(i)}$ 允许每个块有自己独特的混合模式
基矩阵数量 $b$ 远小于块数量 $L/B$，实现了参数的高效复用

4.3.3 低秩近似（Low-Rank Approximation）

对于全局权重 $W_G$，UniMixer-Lite 采用低秩分解：

$$W_G \approx W_r = A_G B_G$$

其中 $A_G \in \mathbb{R}^{(L/B) \times r}$，$B_G \in \mathbb{R}^{r \times (L/B)}$，秩 $r \ll L/B$。

这将全局权重的参数量从 $O((L/B)^2)$ 降到 $O(r \cdot L/B)$，在实践中 $r$ 通常取 4-8 即可达到接近全秩的效果。

4.3.4 Sinkhorn-Knopp 的保障作用

值得注意的是，即使使用了低秩近似和基矩阵组合来压缩参数，UniMixer-Lite 仍然通过 Sinkhorn-Knopp 操作确保权重矩阵保持接近满秩的双随机性质。这种"先压缩、后修正"的设计避免了参数压缩带来的表达能力损失。

4.3.5 性能表现

实验数据来自快手广告投放场景，超过 7 亿用户样本、一年数据，包含数百个异构特征。任务为用户留存预测（次日回访）。结果令人印象深刻：

模型	参数量	FLOPs	AUC	ΔAUC	UAUC	ΔUAUC
Heterogeneous Attention	132.7M	1.68T	0.7446	baseline	0.7338	baseline
RankMixer	135.5M	1.68T	0.7493	+0.475%	0.7389	+0.511%
UniMixer-2B	101.5M	2.50T	0.7502	+0.566%	0.7400	+0.615%
UniMixer-Lite-2B	76.2M	2.60T	0.7514	+0.682%	0.7412	+0.739%
UniMixer-Lite-4B	84.5M	4.24T	0.7527	+0.814%	0.7425	+0.870%

几个关键发现：

UniMixer-Lite-4B 仅用 84.5M 参数，AUC 提升 +0.814%，显著优于 135.5M 参数的 RankMixer
在推荐系统领域，AUC 提升 0.1% 即被视为显著改进，0.8% 是非常大的提升
UniMixer 的 FLOPs 高于 RankMixer（2.50T vs 1.68T），这是参数化带来的计算开销——但考虑到参数量的大幅减少和性能的显著提升，这一权衡在工业场景中是值得的

4.4 Pertoken SwiGLU 与完整架构

在 UniMixing 完成特征交互后，模型通过 Pertoken SwiGLU 建模不同特征的异质性：

$$\text{pSwiGLU}(o_i) = W_{\text{down}}^i \left( (W_{\text{up}}^i o_i + b_{\text{up}}^i) \odot \text{Swish}(W_{\text{gate}}^i o_i + b_{\text{gate}}^i) \right) + b_{\text{down}}^i$$

每个 Token 拥有独立的 FFN 参数（$W_{\text{up}}^i$, $W_{\text{gate}}^i$, $W_{\text{down}}^i$），充分建模不同特征领域（用户画像、物品属性、行为序列等）的异质性。这与 NLP 中所有 Token 共享 FFN 参数形成了鲜明对比。

完整的 UniMixer 模型由以下部分组成：

Feature Tokenization → 异构特征按领域分组，投影为统一维度的 Token 表示
M 层 UniMixer Block（含 SiameseNorm） → 层叠的统一混合模块
Sparse-Pertoken MoE → 稀疏混合专家进一步增强表达能力
预测头 → 输出最终预测

4.5 SiameseNorm：解锁深层架构的训练稳定性

4.5.1 深层推荐模型的训练难题

随着推荐模型向更深的层数扩展，一个经典的矛盾浮出水面：

Pre-Norm（归一化在子层之前）：有利于梯度流动和训练稳定性，但可能导致深层表示退化——所有层的输出趋于相似
Post-Norm（归一化在子层之后）：理论上能产生更丰富的层间表示差异，但在深层网络中容易出现梯度消失或爆炸

这个问题在 NLP 领域已有大量研究，但推荐系统的特征异构性（数值型、类别型、序列型特征共存）使得问题更加复杂。

4.5.2 SiameseNorm 的双流设计

UniMixer 引入了 SiameseNorm，其核心思想是维护两条耦合的信息流（$\bar{X}_\ell$ 和 $\bar{Y}_\ell$）。具体更新规则为：

$$\tilde{Y}_\ell = \text{RMSNorm}(\bar{Y}_\ell), \quad O_\ell = \text{UniMixer}(\bar{X}_\ell + \tilde{Y}_\ell)$$$$\bar{X}_{\ell+1} = \text{RMSNorm}(\bar{X}_\ell + O_\ell), \quad \bar{Y}_{\ell+1} = \bar{Y}_\ell + O_\ell$$

其中 $\bar{X}_\ell$ 承担类似 Pre-Norm 路径的角色——每次更新都经过 RMSNorm，保证训练稳定性；$\bar{Y}_\ell$ 承担类似 Post-Norm 路径的角色——直接累加输出，保持层间表示的多样性。两条流在每一层通过 $\bar{X}_\ell + \tilde{Y}_\ell$ 的融合进行耦合交互，兼具两种归一化方案的优势。

这种设计使得 UniMixer 能够同时在模型深度和宽度两个维度上进行有效扩展，而不会遇到训练不稳定的瓶颈。

4.6 缩放定律：推荐系统的"Chinchilla 时刻"

4.6.1 为什么推荐系统需要缩放定律？

在自然语言处理领域，Kaplan et al. (2020) 和 Hoffmann et al. (2022, Chinchilla) 发现了模型性能与参数量之间的幂律关系，这一发现深刻地改变了 LLM 的训练策略——从"盲目堆大"转向"计算最优"。

但推荐系统的缩放定律研究相对匮乏。其原因在于：

推荐模型的架构多样性远高于 LLM（Transformer 一统天下），难以进行公平对比
推荐系统的特征异构性（稀疏 ID 特征 + 稠密数值特征）使得"参数量"的定义不如 LLM 清晰
工业界的保密性导致大规模缩放实验的结果难以公开

UniMixer 论文的重要贡献之一，就是在统一框架下，为推荐系统建立了可对比的缩放定律基准。

4.6.2 幂律关系

论文验证了 AUC 增益与参数量之间的幂律关系：

$$\Delta \text{AUC} = a \cdot \text{Params}^{\alpha}$$

其中 $\alpha$ 是缩放指数，反映了架构的参数效率。实验结果：

架构	Scaling Law 公式	缩放指数 $\alpha$
RankMixer	$\Delta\text{AUC} = 0.002718 \cdot \text{Params}^{0.116}$	0.116
UniMixer	$\Delta\text{AUC} = 0.003032 \cdot \text{Params}^{0.132}$	0.132
UniMixer-Lite	$\Delta\text{AUC} = 0.003767 \cdot \text{Params}^{0.142}$	0.142

UniMixer-Lite 的缩放指数比 RankMixer 高出 22.3%，这意味着在相同的参数预算增长下，UniMixer-Lite 能获得更大的性能提升。更直观地说：

如果将参数量翻倍，RankMixer 的 AUC 增益提升约 8.4%，而 UniMixer-Lite 的提升约 10.3%。

随着模型规模的持续增长，这种差距会被不断放大。

4.6.3 深层 Scaling 的关键差异

更引人注目的是深层 Scaling 的对比实验：

模型	AUC	趋势
RankMixer-2B	0.7478	—
RankMixer-4B	0.7467 (-0.107%)	性能退化 ↓
UniMixer-Lite-2B	0.7492	—
UniMixer-Lite-4B	0.7508 (+0.158%)	持续提升 ↑
UniMixer-Lite-8B	0.7509 (+0.165%)	持续提升 ↑

这是一个极其重要的发现：RankMixer 增加深度后性能反而下降（-0.107%），而 UniMixer-Lite 在 8B 规模仍然展现出清晰的提升趋势。这证明了参数化混合 + SiameseNorm 的组合确实解决了深层推荐模型的 Scaling 瓶颈。

4.7 消融实验：每个组件的贡献

论文提供了详尽的消融实验，量化了每个设计选择的贡献：

设置	AUC	ΔAUC	影响程度
完整 UniMixer	0.7485	—	—
去除温度系数	0.7468	-0.165%	显著
去除模型预热	0.7476	-0.086%	显著
去除对称性约束	0.7479	-0.057%	中等
去除分块特异权重	0.7480	-0.044%	轻微

关键结论：

温度系数是最关键的组件（-0.165%），这验证了"先探索后收敛"的退火策略对于找到最优混合模式至关重要
模型预热同样重要（-0.086%），说明从高温初始化开始训练对避免局部最优有显著帮助
对称性约束和分块特异权重的影响相对较小，但仍然为正向贡献

5. 工程实践：从论文到生产的关键挑战

5.1 异构特征的 Token 化处理

工业推荐系统的输入特征高度异构——用户 ID（稀疏类别型）、用户年龄（数值型）、行为序列（变长序列型）、上下文时间（连续型）需要被统一为 Token 表示。UniMixer 的处理方式是将输入特征按领域组织（用户画像、物品特征、行为序列、Query 特征等），每个领域通过 Embedding 层转换为向量，再均匀划分为块并投影为 Token 嵌入：

$$x_i = W_i^{\text{proj}} E_{di:di+d} + b_i^{\text{proj}} \in \mathbb{R}^D$$

这种分组 Token 化方案使得不同类型的特征被映射为统一维度的 Token 向量，为后续的 UniMixing 操作提供了一致的输入格式。

5.2 Sinkhorn-Knopp 迭代的计算开销

双随机约束的 Sinkhorn-Knopp 迭代在理论上需要无穷步才能严格收敛，但实践中论文发现 5-10 次迭代即可达到足够的精度。这一开销在训练时是可接受的，而在推理时权重已经固定，无需额外迭代。

5.3 温度退火的超参数选择与冷启动策略

温度退火策略引入了三个超参数：起始温度 $\tau_{\text{start}}$、终止温度 $\tau_{\text{end}}$ 和退火步数 $J$。论文推荐的默认值为 $\tau_{\text{start}} = 1.0$、$\tau_{\text{end}} = 0.05$。一个实用的经验法则是将退火步数设置为总训练步数的 60-80%，让模型在训练的最后阶段以稳定的低温度进行精调。

对于数据不足的场景，论文还提出了"冷启动"策略：先用高温度完成一轮完整训练，然后用高温训练得到的权重作为初始化，再进行低温度的重训。这种两阶段方法可以在数据有限的情况下依然获得良好的稀疏权重。

5.4 快手广告系统的部署实践

UniMixer 和 UniMixer-Lite 已在快手的多个广告投放场景中完成部署。论文报告了在线 A/B 测试的结果，以 30 天累计活跃天数（CAD, Cumulative Active Days） 为核心评估指标：

D1-D30 的 CAD 平均提升超过 15%

同时离线 AUC 提升 +0.814%（UniMixer-Lite-4B vs 基线）。在推荐系统领域，AUC 提升 0.1% 就已经是显著的改进，0.8% 的提升幅度在工业界是极为罕见的。这一结果有力地证明了统一架构的实际业务价值。

6. 与相关工作的对比分析

6.1 与 TokenMixer-Large（字节跳动）的对比

TokenMixer-Large 是字节跳动提出的推荐系统大模型架构，与 UniMixer 形成了有趣的技术路线对比：

维度	TokenMixer-Large	UniMixer
核心贡献	工程优化——通过纯净架构和 MoE 扩展至 15B	理论统一——揭示三大范式的等价性
扩展策略	深度扩展（Mixing & Reverting + 跨层残差）	参数效率扩展（基矩阵组合 + 低秩近似）
混合方式	基于规则的 Split & Concat	参数化的可学习混合矩阵
训练稳定性	Rezero 初始化 + 辅助损失	SiameseNorm 双流设计
稀疏化	Per-token MoE	温度退火的稀疏权重
验证规模	最大 15B 参数	聚焦于 100M 级别的缩放定律

两篇论文实际上代表了推荐系统大模型的两种互补思路：

TokenMixer-Large：以"工程至上"为原则，通过极致的架构优化和 MoE 稀疏化，在既有的 TokenMixer 框架内推到了 15B 的参数规模
UniMixer：以"理论先行"为原则，通过统一框架发现了更高效的参数化空间，用更少的参数实现了更好的缩放效率

6.2 与 Attention-based 方法的对比

UniMixer 的统一框架揭示了一个有趣的事实：注意力机制可以被视为"输入依赖的 UniMixing"，而 UniMixer 使用的是"输入无关的可学习权重"。这意味着：

注意力机制的表达能力理论上更强（动态权重 vs 静态权重）
但 UniMixer 的计算效率更高（权重可预计算，无需在线计算 QK）
在推荐系统的实际场景中，UniMixer 的缩放效率反而更好——这可能说明推荐系统中"最优的混合模式"并不需要随输入动态变化

6.3 与 FM-based 方法的对比

因式分解机方法在 UniMixer 的框架下被理解为"全局权重由特征相似度决定"的特例。UniMixer 的改进在于：

FM 的全局权重 $G = XI(XI)^\top$ 完全由输入决定，没有可学习参数
UniMixer 的全局权重 $W_G$ 是可学习的，能发现数据中不直接由相似度反映的交互模式
UniMixer-Lite 的基矩阵组合可以看作是"参数化的 FM"——每个块的局部交互模式由共享基矩阵动态组合

7. 流程图 (Flowchart)

graph LR A["异构特征"] --> B["Token 化"] B --> C["UniMixing"] C --> D["Pertoken SwiGLU"] D --> E["SiameseNorm"] E --> F["Sparse MoE"] F --> G["深层堆叠"] G --> H["预测输出"] style C fill:#4ecdc4,color:#fff style E fill:#45b7d1,color:#fff style F fill:#f7dc6f,color:#333

UniMixing 内部结构：

graph LR X["输入 X"] --> WG["全局权重 W_G
低秩近似"] X --> WB["局部权重 W_B
基矩阵组合"] WG --> SK["Sinkhorn-Knopp
双随机约束"] WB --> SK2["Sinkhorn-Knopp
双随机约束"] SK --> MIX["UniMixing 交互"] SK2 --> MIX MIX --> OUT["输出"] style SK fill:#4ecdc4,color:#fff style SK2 fill:#4ecdc4,color:#fff style MIX fill:#45b7d1,color:#fff

8. 优缺点分析

8.1 优势

理论贡献突出：首次将推荐系统三大特征交互范式统一到同一数学框架下，为后续研究提供了清晰的理论基础和统一的对比基准。
参数效率卓越：UniMixer-Lite 以不到一半的参数量超越全参数基线，缩放指数提升 22.3%。这意味着在相同的计算预算下，UniMixer 能获得更大的性能收益。
设计优雅：温度退火 + Sinkhorn-Knopp 约束的组合，使得可学习权重能在保持排列矩阵良好性质的同时，找到最优的混合模式。这种"在约束空间中优化"的思路具有广泛的启发意义。
工业验证充分：在快手广告系统的多个场景中完成部署，离线 AUC +0.814%、在线 30 天 CAD +15% 的效果证明了方案的实际业务价值。

8.2 局限与待探索方向

缩放实验规模有限：与 TokenMixer-Large 的 15B 参数实验相比，UniMixer 的缩放验证主要集中在 100M 参数级别。UniMixer-Lite-8B 虽然仍有提升，但增量已经放缓（+0.165% vs +0.158%），更大规模下是否仍能保持优势有待验证。
计算成本权衡：UniMixer 的 FLOPs 显著高于 RankMixer（2.50T vs 1.68T），这意味着参数化带来的性能提升需要以额外的计算开销为代价。在延迟敏感的在线服务场景中，这一权衡需要仔细评估。
动态权重的缺失：UniMixer 使用的是输入无关的静态权重，而注意力机制的核心优势在于动态权重。能否在保持计算效率的前提下引入有限的动态性（如条件化的权重调制），可能是一个有价值的研究方向。
公开数据集验证缺失：论文仅在快手内部数据集上进行了验证，缺乏公开数据集上的对比实验，这限制了社区对结果的复现和验证。
多任务场景的验证：论文主要聚焦在用户留存预测任务上，在其他推荐任务（CTR、CVR、停留时长等）和多任务学习场景下的表现尚待验证。
与序列建模的结合：当前的 UniMixing 主要处理特征间的交互，如何与用户行为序列建模（如 DIN、SIM）有效结合，也是一个值得探索的方向。

9. 未来展望：推荐系统架构的"大一统"趋势

9.1 从架构统一到训练范式统一

UniMixer 完成了特征交互层面的架构统一。下一步自然是训练范式的统一——能否将 CTR 预估、召回、排序等不同阶段的模型统一到同一个框架下？Spotify 的 NEO 论文已经在搜索与推荐的统一上迈出了一步，而 UniMixer 的统一框架可能为推荐系统内部的多阶段统一提供理论基础。

9.2 缩放定律指导资源分配

UniMixer 建立的缩放定律对比框架，为工业界的模型选型和资源分配提供了量化依据。在实际决策中，团队可以根据缩放指数估算"投入 X 倍计算资源，预期获得 Y% 的性能提升"，从而做出更理性的投资决策。

9.3 参数化混合的更广泛应用

“将规则驱动的操作参数化，同时通过约束保持原始性质"这一思路，可以推广到推荐系统的其他组件——例如特征选择、样本加权、多目标融合等。这些传统上依赖人工规则或简单启发式的模块，都可能从参数化中获益。

9.4 深度与效率的帕累托前沿

SiameseNorm 解决了深层训练的稳定性问题，而 UniMixer-Lite 的基矩阵组合和低秩近似则压缩了参数量。未来的研究可以进一步探索：在给定的延迟预算下，如何在模型深度、宽度和稀疏度之间找到最优的帕累托前沿？

10. 总结

UniMixer 论文的价值不仅在于提出了一个新的推荐系统架构，更在于建立了一个统一的理论视角，让我们重新审视过去十年推荐系统特征交互技术的发展脉络。

回顾全文：

三条技术路线的殊途同归：注意力机制、TokenMixer 和因式分解机看似是三种截然不同的特征交互方式，但在 UniMixing 框架下只是全局权重和局部模式的不同选择
参数化带来的红利：将规则驱动的 TokenMixer 转化为可学习的参数化形式，配合温度退火和 Sinkhorn-Knopp 约束，实现了更高效的缩放
从理论到实践的闭环：统一框架不仅具有理论美感，更通过 UniMixer-Lite 和 SiameseNorm 的工程设计转化为实际的性能收益

在推荐系统向大模型时代迈进的过程中，UniMixer 提供了一个重要的启示：真正的扩展效率提升，往往不是来自简单地堆叠更多参数，而是来自对架构本质的深刻理解。当我们理解了"为什么这样做有效”，才能找到"如何做得更高效"的答案。

GPSD：让判别式推荐模型也拥有 Scaling Law 的魔力

Tue, 24 Mar 2026 10:00:00 +0800

本文是关于最新论文《Scaling Transformers for Discriminative Recommendation via Generative Pretraining》（）的阅读笔记。

在大语言模型（LLM）领域，增加参数量和数据量通常能带来性能的对数线性增长，即 Scaling Law。然而在推荐系统领域，特别是用于排序（Ranking）的判别式模型（如 CTR/CVR 预测），这一规律却迟迟没有出现。

Meta 团队最近提出的 GPSD (Generative Pretraining for Scalable Discriminative Recommendation) 框架，通过引入生成式预训练，成功打破了这一僵局，让判别式推荐模型也能随着参数规模的扩大而变强。本文将从核心问题、方法设计、实验分析、与现有方法对比、优缺点以及工程实践启示等多个角度，对这篇论文进行全面解读。

1. 为什么推荐大模型容易”掉点”？

1.1 NLP 与推荐系统的数据差异

在自然语言处理中，数据是密集的 token 流——词表通常在几万到十几万量级，而且每个 token 在海量文本中都会被反复观测到，天然具备良好的统计充分性。但在推荐系统中，情况截然不同：

物品空间极度庞大：工业级推荐场景下，物品 ID（Item ID）可达数十亿规模，远超 NLP 词表大小。
用户交互极其稀疏：绝大多数用户只消费过全部物品中极小的一部分（通常远低于 0.01%），导致大量 Embedding 参数缺乏有效的梯度更新。
标签信号分布不均：点击率（CTR）通常在个位数百分比，转化率（CVR）更是远低于 1%，正样本极度稀缺。

1.2 判别式训练的过拟合困境

论文指出，直接在判别式任务（点击/转化预测）上训练大规模 Transformer，会遇到严重的**数据稀疏导致的过拟合（Overfitting）**问题。具体表现为：

稀疏参数（Embedding 表）难以充分训练：当物品空间巨大但每个物品的观测样本有限时，Embedding 表中大量参数处于”欠训练”状态，容易记忆噪声而非学习泛化特征。
泛化误差随模型规模增大而扩大：随着模型层数（Dense 参数）增加，模型在训练集上的 loss 持续下降，但验证集上的 loss 却反向增大，泛化差距（Generalization Gap）迅速扩大。
”越大越差”的逆直觉现象：模型参数越多，在测试集上的表现反而可能不如简单的小模型，这与 NLP/CV 领域”越大越好”的经验形成鲜明对比。

1.3 过拟合的根源：稀疏参数 vs 稠密参数

论文通过系统性实验，进一步定位了过拟合的根源：

稀疏参数（Sparse Parameters）：主要指 Embedding 表，参数量通常占模型总参数的 90% 以上。由于推荐场景的数据稀疏性，这些参数是过拟合的”重灾区”。
稠密参数（Dense Parameters）：指 Transformer 层中的注意力权重、前馈网络权重等。这些参数被所有样本共享更新，理论上不易过拟合。
关键发现：当稀疏参数的质量得到保障后，增加稠密参数反而能带来持续的性能增益——这正是 GPSD 框架的理论基础。

2. GPSD：生成式预训练的”桥接”艺术

GPSD 框架的核心思想是：先用生成式任务训练稀疏参数，再在判别式任务中冻结它们。 整个流程分为三个清晰的阶段：生成式预训练、桥接迁移、判别式微调。

2.1 阶段一：生成式预训练 (Generative Pretraining)

2.1.1 训练目标

生成式预训练阶段采用经典的**自回归（Autoregressive）**范式：给定用户的历史行为序列 $[i_1, i_2, ..., i_{t-1}]$，模型的目标是预测下一个交互物品 $i_t$。这与 GPT 系列模型在文本上的预训练目标本质上是一致的，只是将”预测下一个 token”替换为了”预测下一个 item”。

2.1.2 Sampled Softmax 机制

由于物品空间极其庞大（数十亿级别），直接在全量物品上计算 Softmax 是不现实的。GPSD 采用 Sampled Softmax 来解决这一问题：

核心思路：在每次前向计算时，从全量物品中采样一批负样本（通常数千到数万个），仅在正样本 + 采样负样本构成的子集上计算 Softmax。
关键优势：每次训练步骤中，不同的负样本被随机采入，这意味着整个训练过程中，几乎所有物品的 Embedding 都会被频繁地更新到。这与判别式训练中负样本仅来自实际曝光（impression）形成了鲜明对比。
对抗过拟合的效果：由于 Sampled Softmax 引入了广泛的随机负采样，大量原本在判别式训练中”沉睡”的 Embedding 得以被激活和优化，从根本上解决了稀疏参数欠训练的问题。

2.1.3 模型架构

预训练阶段使用的是标准的 Transformer Decoder 架构：

输入为用户行为序列的 Embedding 拼接
使用因果注意力掩码（Causal Attention Mask）确保自回归性质
输出层通过 Sampled Softmax 映射到物品空间
位置编码采用可学习的绝对位置编码

2.1.4 生成式预训练的关键优势

与直接在判别式任务上训练相比，生成式预训练具备以下优势：

数据利用效率更高：每条用户序列可以生成多个训练样本（序列中的每个位置都是一个预测目标），数据利用率远高于判别式训练。
隐式的负采样覆盖更广：Sampled Softmax 机制确保了海量物品的 Embedding 都能得到有效更新。
语义表示质量更优：生成式目标天然鼓励模型学习物品之间的序列依赖关系和语义相似性，产生的 Embedding 包含更丰富的语义信息。

2.2 阶段二：桥接与冻结 (Sparse Freeze Strategy)

这是 GPSD 最关键的创新点。在将模型从生成式任务迁移到判别式任务（如 CTR 预测）时，如果简单地进行全参数微调，稀疏参数的过拟合问题会再次出现。GPSD 采取了**”冻结稀疏参数（Sparse Freeze）”**的桥接策略：

2.2.1 具体操作步骤

继承预训练好的 Embedding 参数：将生成式预训练阶段学到的所有 Embedding 参数（包括 Item Embedding、Feature Embedding 等）直接迁移到判别式模型中。
在判别式微调阶段，固定住所有稀疏参数不更新：冻结 Embedding 表的梯度，使其在整个微调过程中保持预训练阶段学到的状态。
仅更新稠密参数：只对 Transformer 层、MLP Head、交叉网络等稠密参数进行梯度更新。

2.2.2 为什么冻结而非微调？

论文通过对比实验系统地回答了这个问题：

全参数微调（Full Fine-tune）：虽然初始收敛速度更快，但随着训练推进，泛化差距迅速扩大，最终效果反而低于冻结策略。
稀疏冻结（Sparse Freeze）：虽然初始收敛较慢，但泛化差距始终保持在较小水平，最终效果显著优于全参数微调。
根本原因：判别式训练的负样本来自有限的曝光日志，无法为稀疏参数提供足够多样的梯度信号。继续更新稀疏参数反而会”破坏”预训练阶段学到的高质量表示。

2.2.3 冻结策略的数学直觉

从优化理论角度来看，冻结稀疏参数可以理解为：

将高维优化问题分解为两步低维优化
第一步在”数据丰富”的环境（生成式训练，Sampled Softmax 提供广泛负采样）中优化稀疏参数
第二步在”数据有限”的环境（判别式训练，仅曝光日志）中优化稠密参数
通过这种分而治之的策略，避免了在数据有限的环境中同时优化海量参数导致的过拟合

2.3 阶段三：判别式微调 (Discriminative Fine-tuning)

在冻结稀疏参数之后，判别式微调阶段的任务是训练稠密参数来适配具体的业务目标（如 CTR 预估、CVR 预估）：

输入：候选物品的冻结 Embedding + 用户序列的冻结 Embedding + 上下文特征
模型结构：Transformer 编码器或 MLP 交叉网络（稠密参数可训练）
输出：通过 Sigmoid 得到点击率或转化率的预估值
损失函数：标准的二元交叉熵（Binary Cross-Entropy）

3. 架构流程图

4. Scaling Law 在推荐系统中的分析

4.1 什么是 Scaling Law？

Scaling Law 最初由 OpenAI 在 2020 年提出，揭示了语言模型性能与模型参数量、训练数据量、计算量之间的幂律关系。具体来说：

模型越大，性能越好：在充足数据和计算的前提下，增加参数量能带来可预测的性能提升
幂律关系：性能提升遵循幂律的形式，即损失随参数量增加呈对数线性下降

4.2 推荐系统中 Scaling Law 的缺失

在 GPSD 之前，推荐系统领域几乎没有观测到类似的 Scaling Law。原因在于：

传统方法的参数扩展主要集中在 Embedding 表：增加 Embedding 维度或增加特征数量带来的收益迅速饱和
稠密参数扩展受限于过拟合：直接增加 Transformer 层数或宽度会导致泛化性能下降
缺乏有效的预训练范式：NLP 领域的 Scaling Law 建立在大规模自监督预训练之上，而推荐系统缺乏对应的预训练方法

4.3 GPSD 如何实现推荐系统的 Scaling Law

GPSD 的核心贡献之一，是首次在判别式推荐模型中验证了 Scaling Law 的存在：

实验设置：将稠密参数从 13K 逐步扩展到 0.3B（约 2 万倍），观察离线 AUC 指标的变化
关键结果：在使用 GPSD 框架后，AUC 随稠密参数量的增加呈现出平滑的幂律增长曲线
对照实验：不使用 GPSD（直接端到端判别式训练），增加参数量到一定规模后 AUC 开始下降，完全无法观测到 Scaling Law

4.4 Scaling Law 成立的前提条件

GPSD 的实验揭示了推荐系统 Scaling Law 成立的关键前提：

稀疏参数必须被高质量预训练：只有当 Embedding 表具备良好的泛化表示时，增加稠密参数才有意义
稀疏参数在微调阶段必须冻结：防止判别式训练破坏预训练的表示质量
稠密参数是 Scaling 的真正受益者：当稀疏参数质量有保障时，增加 Transformer 深度/宽度能够持续提升模型的特征交叉能力

5. 与其他预训练方法的对比

为了更好地理解 GPSD 的贡献，以下从多个维度将 GPSD 与其他主流推荐预训练方法进行对比：

维度	GPSD（本文）	SASRec / BERT4Rec	PinnerSage（Pinterest）	LLM4Rec（基于 LLM）
预训练任务	自回归生成式（Next Item Prediction + Sampled Softmax）	自回归 / 掩码语言模型	基于图的 PinSage Embedding	直接使用 LLM 文本理解
目标下游任务	判别式排序（CTR/CVR）	序列推荐（Top-K 召回）	召回 / 粗排	排序 / 会话推荐
参数迁移策略	冻结稀疏参数 + 微调稠密参数	全参数微调	仅使用 Embedding，不迁移模型结构	全参数微调或 LoRA
是否验证 Scaling Law	是（首次在判别式模型验证）	否	否	部分（继承 LLM 的 Scaling 特性）
工业部署验证	是（Meta 线上 A/B 测试）	学术实验为主	是（Pinterest 线上部署）	少量工业验证
Embedding 覆盖度	高（Sampled Softmax 覆盖全量物品）	低（仅序列内物品参与训练）	中等（图邻居扩展）	不涉及（使用文本特征）
训练效率	中等（两阶段训练）	高（单阶段端到端）	低（需要构建图）	低（LLM 训练成本高）

对比分析要点：

vs SASRec/BERT4Rec：这类方法虽然也采用序列建模，但其预训练和下游任务都聚焦于召回场景，未涉及判别式排序。更重要的是，它们在微调时采用全参数更新，无法避免稀疏参数的过拟合问题。
vs PinnerSage：PinnerSage 通过图神经网络学习物品 Embedding，但仅将 Embedding 作为特征输入下游模型，不涉及模型结构的迁移，因此无法充分利用预训练模型的深层知识。
vs LLM4Rec：基于 LLM 的方法虽然能利用文本语义，但在处理 ID 特征和用户行为建模方面存在天然短板，且部署成本极高。GPSD 直接在推荐原生的 ID 空间中工作，与现有推荐系统架构兼容性更好。

6. 实验结果详细分析

6.1 离线实验

GPSD 在多个维度上验证了其有效性：

6.1.1 Scaling Law 验证

实验规模：稠密参数从 13K 扩展到 0.3B，跨越约 4 个数量级
核心发现：使用 GPSD 后，AUC 随稠密参数增加呈现平滑的幂律增长，拟合幂律曲线的 R-squared 值极高
对照组表现：不使用 GPSD 的端到端判别式训练，在参数量超过一定阈值后 AUC 显著下降

6.1.2 泛化差距分析

GPSD + Sparse Freeze：训练 loss 与验证 loss 之间的差距始终保持在较小水平，且不随模型规模增大而显著扩大
端到端判别式训练：泛化差距随模型规模增大而急剧扩大，表明严重的过拟合
全参数微调（不冻结稀疏参数）：介于两者之间，但仍然存在明显的过拟合问题

6.1.3 消融实验

论文通过系统的消融实验验证了各组件的贡献：

移除生成式预训练：AUC 显著下降，证明预训练是 Scaling 的必要条件
移除稀疏冻结：泛化差距迅速扩大，证明冻结策略对于维持预训练质量至关重要
仅使用预训练 Embedding 不迁移模型结构：AUC 有所提升但幅度有限，说明模型结构的迁移也贡献了一定价值

6.2 线上实验

部署平台：Meta 内部的推荐排序系统
实验形式：标准的 A/B 测试，实验组使用 GPSD 框架训练的模型，对照组使用现有的判别式模型
核心指标收益：论文报告了在核心业务指标（如点击率、转化率、用户互动时长等）上取得了统计显著的正向收益
稳定性：线上指标在持续运行期间保持稳定，无退化现象

6.3 训练效率分析

预训练开销：生成式预训练阶段需要额外的计算资源，但由于可以离线进行且模型收敛较快，总体开销可控
微调加速：由于冻结了大量稀疏参数（占总参数 90% 以上），判别式微调阶段的梯度计算量和内存占用均大幅减少
综合效率：两阶段训练的总计算成本与直接端到端训练的大模型相当，但最终效果显著更优

7. 优缺点分析

7.1 优势

首次在判别式推荐模型中验证 Scaling Law：这是该论文最核心的贡献，为推荐系统领域的”大模型化”提供了可行路径和理论支撑。
方法设计简洁且工程友好：两阶段训练流程清晰，冻结策略实现简单（只需在优化器中排除稀疏参数），不需要对现有推荐系统架构做大幅改动。
经过工业级验证：在 Meta 的真实业务场景中完成了线上 A/B 测试并取得正收益，证明了方法的实用性和可靠性。
理论洞察深刻：系统性地分析了稀疏参数与稠密参数在过拟合中的不同角色，为后续研究提供了清晰的理论框架。
开源代码：作者公开了实现代码，降低了复现和跟进研究的门槛。

7.2 不足与局限

两阶段训练的流程复杂性：虽然单看每个阶段都很简单，但两阶段训练意味着需要维护两套训练流水线、两套超参数配置，以及处理阶段之间的模型兼容性问题。在工程实践中，这增加了系统的维护成本。
冻结策略可能丢失任务特异性信息：完全冻结稀疏参数意味着 Embedding 无法适配判别式任务的特定需求。对于某些与生成式预训练分布差异较大的下游任务，这种”一刀切”的冻结可能不是最优选择。论文未探讨部分冻结或渐进解冻等更灵活的策略。
对预训练数据质量的强依赖：稀疏参数的质量完全由预训练阶段决定，如果预训练数据存在偏差（如热门物品过度曝光、冷启动物品缺乏交互），这些偏差会被”冻结”到下游模型中且无法修正。
Scaling Law 的验证范围有限：实验仅在 Meta 的特定业务场景中验证，是否能推广到其他领域（如电商、短视频、音乐推荐等）尚需进一步证实。同时，论文主要关注了参数量维度的 Scaling，对数据量和计算量维度的 Scaling 关系探讨较少。

8. 工程实践启示

8.1 推荐系统工程师的实践建议

基于 GPSD 的核心发现，以下是一些可以在工程实践中借鉴的经验：

优先投资 Embedding 质量：与其盲目增大模型规模，不如先确保 Embedding 表的训练质量。可以考虑在正式的排序模型训练之前，通过对比学习、生成式预训练等手段预热 Embedding。
分阶段训练的思路值得借鉴：即使不完全复制 GPSD 的方案，”将困难的稀疏参数优化和稠密参数优化分开处理”这一思路本身就极具价值，可以在各种变体中灵活应用。
冻结策略可以渐进式采用：在工程实践中，可以先尝试冻结最容易过拟合的低频特征 Embedding，观察效果后再逐步扩大冻结范围。
监控泛化差距作为模型健康指标：论文中使用的泛化差距（训练 loss 与验证 loss 的差距）是一个非常实用的模型健康监控指标，建议在日常模型迭代中持续追踪。

8.2 架构设计启示

预训练与微调解耦：将推荐系统架构设计为支持模块化的预训练和微调，便于独立优化各个组件。
稀疏参数服务化：预训练好的 Embedding 可以作为独立的服务（Embedding Service）对外提供，供多个下游任务共享，降低重复训练的成本。
动态更新机制：考虑设计增量更新机制，在新物品上线时能够快速生成高质量的 Embedding，而不需要重新运行完整的预训练流程。

9. 未来方向

基于 GPSD 的研究成果，以下几个方向值得关注：

推荐系统基础模型（Foundation Models for RecSys）：GPSD 为推荐领域的基础模型奠定了初步基础。未来可以探索更大规模、跨场景、跨平台的预训练，构建真正意义上的推荐基础模型。
更灵活的参数迁移策略：探索部分冻结、渐进解冻、LoRA 适配等更精细的参数迁移方法，在保持预训练质量的同时允许一定程度的任务适配。
多模态预训练：将 GPSD 的思路扩展到多模态推荐场景，结合文本、图像、视频等多模态信息进行生成式预训练。
数据量与计算量的 Scaling Law：GPSD 主要探索了参数量维度的 Scaling，未来可以系统性地研究训练数据量和计算量对推荐模型性能的影响。
冷启动问题：研究如何利用生成式预训练的知识来改善新用户和新物品的冷启动表现。

总结

GPSD 框架证明了推荐系统也可以像 LLM 一样通过 Scaling Up 变得更聪明。它的核心贡献可以归纳为以下几点：

问题定位精准：准确识别出稀疏参数过拟合是阻碍推荐模型 Scaling 的关键瓶颈。
方法设计精巧：通过生成式预训练为 Embedding 表奠定坚实基础，再通过”参数冻结”策略在判别式微调阶段避免过拟合，实现了”分而治之”的优雅解决方案。
首次验证推荐系统的 Scaling Law：在工业级场景中证实了判别式推荐模型也能随着参数规模扩大而持续变强。
工业落地验证：在 Meta 的真实业务中完成了线上验证，证明了方法的实用价值。

这一研究为未来推荐领域的”基础大模型（Foundation Models）”提供了关键的路径，也为整个推荐系统社区带来了一个重要的信号：推荐模型的 Scaling 之路已经打通，关键在于找到正确的预训练和参数迁移策略。

开源代码：

万亿参数推荐大模型：HSTU 架构如何超越传统 Self-Attention

Fri, 20 Mar 2026 10:00:00 +0800

本文是关于 Meta AI 重磅论文《Actions Speak Louder than Words: Trillion-Parameter Sequential Transducers for Generative Recommendations》（arXiv:2402.17152）的阅读笔记，重点探讨 HSTU 架构如何改进传统的自注意力机制。

在自然语言处理（NLP）领域，基于 Transformer 的大模型通过 Scaling Law（缩放定律）展现了令人惊叹的涌现能力。然而在推荐系统领域，传统的深度学习推荐模型（DLRMs）极度依赖人工交叉特征，难以随着计算资源的增加实现模型效果的对数线性增长。

为了解决这一痛点，Meta AI 提出了**生成式推荐（Generative Recommenders, GRs）**的新范式，并专门为推荐场景设计了 HSTU（Hierarchical Sequential Transduction Unit） 架构。HSTU 成功将千亿级异构特征统一为序列化表达，在训练效率和效果上大幅超越了标准 Transformer，并在工业界验证了万亿参数推荐大模型的 Scaling Law。

1. 传统 Transformer 在推荐系统中的“水土不服”

标准 Transformer 架构在处理工业级推荐系统（十亿级动态词表、高达 $10^5$ 的用户交互序列）时，暴露出极端的计算与推理瓶颈：

计算冗余：标准 Transformer 包含多头注意力（MHA）和厚重的点式前馈网络（MLP）。在推荐场景下，极度稀疏的特征并不需要如此厚重的 MLP 来进行特征变换，这会导致巨大的计算浪费。
时间复杂度爆炸：在流式逐样本（Impression-level）训练中，标准 Transformer 的时间复杂度高达 $\mathcal{O}(N^3 d + N^2 d^2)$，根本无法满足在线推理的严苛延迟要求。

2. HSTU 相对于 Self-Attention 的核心改进

HSTU 对传统的自注意力架构进行了大刀阔斧的重构，专门针对推荐数据的非平稳、极度稀疏特性进行了优化。

2.1 彻底抛弃笨重的 MLP 层

HSTU 最大的架构创新在于完全移除了传统的 MLP 层。它将多头注意力与前馈网络融合，替换为单层线性投影与门控网络。HSTU 巧妙地将计算分为两步：空间聚合（Spatial Aggregation）与点式变换（Pointwise Transformation）。

为了更直观地理解，我们可以看下面这张 HSTU 的微观结构图：

graph LR classDef input fill:#f9f9f9,stroke:#333,stroke-width:2px; classDef linear fill:#e1f5fe,stroke:#2563eb,stroke-width:1px; classDef act fill:#fef3c7,stroke:#ea580c,stroke-width:1px; classDef attention fill:#dcfce7,stroke:#b45309,stroke-width:1px; classDef output fill:#f0fdf4,stroke:#16a34a,stroke-width:2px; Input["输入 X"]:::input Norm1["LayerNorm"]:::linear Linear1["Linear f1"]:::linear SiLU1["SiLU φ1"]:::act Split["Split → U,V,Q,K"]:::linear %% Spatial Aggregation Attn["QK^T + Bias"]:::attention SiLU2["SiLU φ2"]:::act Mul_V["Score ⊙ V"]:::attention %% Pointwise Transformation Norm2["LayerNorm"]:::linear Mul_U["Norm ⊙ U"]:::linear Linear2["Linear f2"]:::linear Output["输出 Y"]:::output Input --> Norm1 --> Linear1 --> SiLU1 --> Split Split -->|"Q,K"| Attn --> SiLU2 --> Mul_V Split -->|"V"| Mul_V Mul_V --> Norm2 --> Mul_U --> Linear2 --> Output Split -->|"U"| Mul_U Input -->|"残差连接"| Output

核心计算公式如下：

$$ U(X), V(X), Q(X), K(X) = \text{Split}(\phi_1(f_1(X))) $$

$$ A(X)V(X) = \phi_2 \left( Q(X)K(X)^T + r_{p,t}^{ab} \right) V(X) $$

$$ Y(X) = f_2(\text{Norm}(A(X)V(X)) \odot U(X)) $$

其中，$f_1, f_2$ 为单层线性变换，$\phi_1, \phi_2$ 为 SiLU 激活函数，$r_{p,t}^{ab}$ 为融合了时序和位置的相对偏差。

改进收益：通过使用门控逐元素融合输出，HSTU 极大地减少了浮点运算量（FLOPs），并完美契合底层硬件的算子融合（Fused Kernel），极大提升了显存带宽利用率。

2.2 生成式训练与时间复杂度骤降

为什么标准 Transformer 在推荐系统中复杂度会变成 $\mathcal{O}(N^3)$？

在 NLP 中，Transformer 处理单条长度为 $N$ 的序列，时间复杂度是大家熟知的 $\mathcal{O}(N^2d + Nd^2)$。但在传统的推荐系统（如早期的 SASRec）中，通常采用流式逐样本（Impression-level）训练。假设用户有历史序列 $[i_1, i_2, \dots, i_N]$，传统框架需要将其拆分为 $N$ 个独立的训练样本：

样本 1：历史 $[i_1]$，预测 $i_2$
样本 2：历史 $[i_1, i_2]$，预测 $i_3$
…
样本 $N$：历史 $[i_1, \dots, i_{N-1}]$，预测 $i_N$

这意味着 Transformer 需要对这 $N$ 个逐渐变长的子序列分别进行前向计算。我们将这 $N$ 个独立样本的计算量累加：

$$ \text{Total Complexity} = \sum_{k=1}^{N} \mathcal{O}(k^2d + kd^2) $$

根据求和公式 $\sum_{k=1}^{N} k^2 \approx \frac{N^3}{3}$，总的训练时间复杂度就灾难性地飙升到了 $\mathcal{O}(N^3d + N^2d^2)$。当用户序列 $N=10^4$ 时，计算量呈三次方级数爆炸，完全无法训练。

HSTU 的降维打击：Generative Training

在训练方式上，HSTU 采用了生成式训练（Generative Training），彻底摒弃了传统的逐样本拆分。它向 LLM 学习，把整个长度为 $N$ 的用户序列作为一个完整的样本送入模型，配合因果掩码（Causal Mask），在一次前向传播中同时完成对所有历史节点的预测。

这一改变干掉了那层可怕的 $\sum_{k=1}^{N}$ 循环，成功将训练的时间复杂度指数级降维回了 $\mathcal{O}(N^2 d + N d^2)$。同时，在推理阶段引入了 M-FALCON 微批处理算法，能够全面摊销超长序列的计算成本。

2.3 极端的特征序列化：丢弃数值特征

这篇论文中一个非常反直觉但极为有效的操作是：完全移除传统的数值特征（如历史 CTR 统计）。 HSTU 摒弃了 DLRM 复杂的并行特征网络，将用户交互行为（如点击、点赞）与慢变分类特征（如用户画像）按照时间戳合并压缩为一条主时间序列。作者证明了，只要序列模型足够强大，它完全可以直接从极长的原始历史交互中自行捕获这些统计概率，无需人工干预。

3. 架构流程图

graph TD A[海量异构特征 Categorical & Numerical] --> B[丢弃数值特征 / 保留分类特征] B --> C[特征序列化与时间轴压缩] C --> D[合并为统一单时间序列] D --> E[Generative Training 生成式训练] E --> F[HSTU 编码器] F --> G[Pointwise Projection: 线性生成 U,V,Q,K] G --> H[Spatial Aggregation: 时空注意力与 SiLU 激活] H --> I[Pointwise Transformation: 门控逐元素融合输出] I --> J[多任务预测: 排序 Ranking / 召回 Retrieval]

4. 结论与工业界影响

惊人的速度优势：在长度为 8192 的长序列上，HSTU 的推理和训练速度比基于 FlashAttention2 的标准 Transformer 快了 5.3 倍到 15.2 倍。
效果跃升：在公开数据集上，HSTU 的 NDCG 指标最高超越基线模型达 65.8%。
万亿参数与 Scaling Law 验证：包含 1.5 万亿参数的 GRs 模型在十亿级用户的互联网平台上成功落地，线上核心指标提升 12.4%。

最重要的是，该研究首次在推荐系统领域证实了：推荐模型的质量随训练算力的增加呈幂律分布（Power-law），跨越了三个数量级（达到 GPT-3 / LLaMA-2 级别的算力），彻底打破了 DLRM 时代的瓶颈，为推荐领域的“基础大模型（Foundation Models）”铺平了道路。

2026年大模型Scaling Laws：从规模竞赛到效率革命

Sun, 15 Mar 2026 22:00:00 +0800

引言

2026年，大模型领域的Scaling Laws正经历一场深刻的范式转变。从OpenAI提出Scaling Laws至今，业界对"更大即更好"的信仰正在被重新审视。

传统Scaling Laws的瓶颈

过去几年的实践表明，单纯增加模型参数和训练数据带来的性能提升正在边际递减。GPT-4到GPT-5的跃进远不如GPT-3到GPT-4那般惊艳，这暗示着传统预训练Scaling Laws可能已触及天花板。

2026年的新趋势

1. 推理时计算的崛起

OpenAI的o系列模型和DeepSeek-R1证明了一个关键洞察：推理时的计算投入可以弥补模型规模的不足。这种"Test-time Scaling"正在成为新的研究热点。

2. 数据质量重于数量

高质量合成数据和精选语料正在取代无差别的数据堆砌。Small but mighty的小模型（如Phi系列）展示了数据策展的力量。

3. 多模态统一Scaling

文本、图像、视频、音频的统一表征学习正在打破模态壁垒，开启跨模态Scaling的新维度。

展望

Scaling Laws并未失效，而是进化了。未来的竞争焦点将从"谁的参数更多"转向"谁的效率更高"——包括训练效率、推理效率，以及最关键的智能产出效率。

写于2026年3月