万亿参数推荐大模型:HSTU 架构如何超越传统 Self-Attention

2026-03-20 · 2 分钟阅读时长
blog Tech

本文是关于 Meta AI 重磅论文《Actions Speak Louder than Words: Trillion-Parameter Sequential Transducers for Generative Recommendations》(arXiv:2402.17152)的阅读笔记,重点探讨 HSTU 架构如何改进传统的自注意力机制。

在自然语言处理(NLP)领域,基于 Transformer 的大模型通过 Scaling Law(缩放定律)展现了令人惊叹的涌现能力。然而在推荐系统领域,传统的深度学习推荐模型(DLRMs)极度依赖人工交叉特征,难以随着计算资源的增加实现模型效果的对数线性增长。

为了解决这一痛点,Meta AI 提出了**生成式推荐(Generative Recommenders, GRs)**的新范式,并专门为推荐场景设计了 HSTU(Hierarchical Sequential Transduction Unit) 架构。HSTU 成功将千亿级异构特征统一为序列化表达,在训练效率和效果上大幅超越了标准 Transformer,并在工业界验证了万亿参数推荐大模型的 Scaling Law。

1. 传统 Transformer 在推荐系统中的“水土不服”

标准 Transformer 架构在处理工业级推荐系统(十亿级动态词表、高达 $10^5$ 的用户交互序列)时,暴露出极端的计算与推理瓶颈:

  1. 计算冗余:标准 Transformer 包含多头注意力(MHA)和厚重的点式前馈网络(MLP)。在推荐场景下,极度稀疏的特征并不需要如此厚重的 MLP 来进行特征变换,这会导致巨大的计算浪费。
  2. 时间复杂度爆炸:在流式逐样本(Impression-level)训练中,标准 Transformer 的时间复杂度高达 $\mathcal{O}(N^3 d + N^2 d^2)$,根本无法满足在线推理的严苛延迟要求。

2. HSTU 相对于 Self-Attention 的核心改进

HSTU 对传统的自注意力架构进行了大刀阔斧的重构,专门针对推荐数据的非平稳、极度稀疏特性进行了优化。

2.1 彻底抛弃笨重的 MLP 层

HSTU 最大的架构创新在于完全移除了传统的 MLP 层。它将多头注意力与前馈网络融合,替换为单层线性投影与门控网络。HSTU 巧妙地将计算分为两步:空间聚合(Spatial Aggregation)与点式变换(Pointwise Transformation)。

为了更直观地理解,我们可以看下面这张 HSTU 的微观结构图:

graph LR classDef input fill:#f9f9f9,stroke:#333,stroke-width:2px; classDef linear fill:#e1f5fe,stroke:#2563eb,stroke-width:1px; classDef act fill:#fef3c7,stroke:#ea580c,stroke-width:1px; classDef attention fill:#dcfce7,stroke:#b45309,stroke-width:1px; classDef output fill:#f0fdf4,stroke:#16a34a,stroke-width:2px; Input["输入 X"]:::input Norm1["LayerNorm"]:::linear Linear1["Linear f1"]:::linear SiLU1["SiLU φ1"]:::act Split["Split → U,V,Q,K"]:::linear %% Spatial Aggregation Attn["QK^T + Bias"]:::attention SiLU2["SiLU φ2"]:::act Mul_V["Score ⊙ V"]:::attention %% Pointwise Transformation Norm2["LayerNorm"]:::linear Mul_U["Norm ⊙ U"]:::linear Linear2["Linear f2"]:::linear Output["输出 Y"]:::output Input --> Norm1 --> Linear1 --> SiLU1 --> Split Split -->|"Q,K"| Attn --> SiLU2 --> Mul_V Split -->|"V"| Mul_V Mul_V --> Norm2 --> Mul_U --> Linear2 --> Output Split -->|"U"| Mul_U Input -->|"残差连接"| Output

核心计算公式如下:

$$ U(X), V(X), Q(X), K(X) = \text{Split}(\phi_1(f_1(X))) $$

$$ A(X)V(X) = \phi_2 \left( Q(X)K(X)^T + r_{p,t}^{ab} \right) V(X) $$

$$ Y(X) = f_2(\text{Norm}(A(X)V(X)) \odot U(X)) $$

其中,$f_1, f_2$ 为单层线性变换,$\phi_1, \phi_2$ 为 SiLU 激活函数,$r_{p,t}^{ab}$ 为融合了时序和位置的相对偏差。

改进收益: 通过使用门控逐元素融合输出,HSTU 极大地减少了浮点运算量(FLOPs),并完美契合底层硬件的算子融合(Fused Kernel),极大提升了显存带宽利用率。

2.2 生成式训练与时间复杂度骤降

为什么标准 Transformer 在推荐系统中复杂度会变成 $\mathcal{O}(N^3)$?

在 NLP 中,Transformer 处理单条长度为 $N$ 的序列,时间复杂度是大家熟知的 $\mathcal{O}(N^2d + Nd^2)$。但在传统的推荐系统(如早期的 SASRec)中,通常采用流式逐样本(Impression-level)训练。 假设用户有历史序列 $[i_1, i_2, \dots, i_N]$,传统框架需要将其拆分为 $N$ 个独立的训练样本:

  • 样本 1:历史 $[i_1]$,预测 $i_2$
  • 样本 2:历史 $[i_1, i_2]$,预测 $i_3$
  • 样本 $N$:历史 $[i_1, \dots, i_{N-1}]$,预测 $i_N$

这意味着 Transformer 需要对这 $N$ 个逐渐变长的子序列分别进行前向计算。我们将这 $N$ 个独立样本的计算量累加:

$$ \text{Total Complexity} = \sum_{k=1}^{N} \mathcal{O}(k^2d + kd^2) $$

根据求和公式 $\sum_{k=1}^{N} k^2 \approx \frac{N^3}{3}$,总的训练时间复杂度就灾难性地飙升到了 $\mathcal{O}(N^3d + N^2d^2)$。当用户序列 $N=10^4$ 时,计算量呈三次方级数爆炸,完全无法训练。

HSTU 的降维打击:Generative Training

在训练方式上,HSTU 采用了生成式训练(Generative Training),彻底摒弃了传统的逐样本拆分。它向 LLM 学习,把整个长度为 $N$ 的用户序列作为一个完整的样本送入模型,配合因果掩码(Causal Mask),在一次前向传播中同时完成对所有历史节点的预测。

这一改变干掉了那层可怕的 $\sum_{k=1}^{N}$ 循环,成功将训练的时间复杂度指数级降维回了 $\mathcal{O}(N^2 d + N d^2)$。同时,在推理阶段引入了 M-FALCON 微批处理算法,能够全面摊销超长序列的计算成本。

2.3 极端的特征序列化:丢弃数值特征

这篇论文中一个非常反直觉但极为有效的操作是:完全移除传统的数值特征(如历史 CTR 统计)。 HSTU 摒弃了 DLRM 复杂的并行特征网络,将用户交互行为(如点击、点赞)与慢变分类特征(如用户画像)按照时间戳合并压缩为一条主时间序列。作者证明了,只要序列模型足够强大,它完全可以直接从极长的原始历史交互中自行捕获这些统计概率,无需人工干预。

3. 架构流程图

graph TD A[海量异构特征 Categorical & Numerical] --> B[丢弃数值特征 / 保留分类特征] B --> C[特征序列化与时间轴压缩] C --> D[合并为统一单时间序列] D --> E[Generative Training 生成式训练] E --> F[HSTU 编码器] F --> G[Pointwise Projection: 线性生成 U,V,Q,K] G --> H[Spatial Aggregation: 时空注意力与 SiLU 激活] H --> I[Pointwise Transformation: 门控逐元素融合输出] I --> J[多任务预测: 排序 Ranking / 召回 Retrieval]

4. 结论与工业界影响

  1. 惊人的速度优势:在长度为 8192 的长序列上,HSTU 的推理和训练速度比基于 FlashAttention2 的标准 Transformer 快了 5.3 倍到 15.2 倍
  2. 效果跃升:在公开数据集上,HSTU 的 NDCG 指标最高超越基线模型达 65.8%
  3. 万亿参数与 Scaling Law 验证:包含 1.5 万亿参数的 GRs 模型在十亿级用户的互联网平台上成功落地,线上核心指标提升 12.4%。

最重要的是,该研究首次在推荐系统领域证实了:推荐模型的质量随训练算力的增加呈幂律分布(Power-law),跨越了三个数量级(达到 GPT-3 / LLaMA-2 级别的算力),彻底打破了 DLRM 时代的瓶颈,为推荐领域的“基础大模型(Foundation Models)”铺平了道路。

👋 Hey, I'm Yadong
Authors
电商算法工程师 @ 字节跳动

字节推荐广告算法工程师,专注电商推荐系统。电商广告模型 → 电商推荐模型,兴趣方向:模型结构 Scale Up、序列建模、首点归因、GMV 回归建模。

日常分享搜广推论文 & LLM 笔记,以及自己做的一些小工具和尝试过程。

🔥 欢迎加入 TT 电商推荐团队,期待共建业界领先的推荐系统,完成 LLM 的清晰落地!内推通道 →