<?xml version="1.0" encoding="utf-8" standalone="yes"?><rss version="2.0" xmlns:atom="http://www.w3.org/2005/Atom"><channel><title>字节跳动 | Yadong's Blog</title><link>https://dingyadong.top/tags/%E5%AD%97%E8%8A%82%E8%B7%B3%E5%8A%A8/</link><atom:link href="https://dingyadong.top/tags/%E5%AD%97%E8%8A%82%E8%B7%B3%E5%8A%A8/index.xml" rel="self" type="application/rss+xml"/><description>字节跳动</description><generator>HugoBlox Kit (https://hugoblox.com)</generator><language>zh-cn</language><lastBuildDate>Wed, 18 Mar 2026 10:15:00 +0800</lastBuildDate><image><url>https://dingyadong.top/media/icon.svg</url><title>字节跳动</title><link>https://dingyadong.top/tags/%E5%AD%97%E8%8A%82%E8%B7%B3%E5%8A%A8/</link></image><item><title>TokenMixer-Large: 突破工业级推荐系统的大模型扩展瓶颈</title><link>https://dingyadong.top/posts/005_tokenmixer_large_paper_review/</link><pubDate>Wed, 18 Mar 2026 10:15:00 +0800</pubDate><guid>https://dingyadong.top/posts/005_tokenmixer_large_paper_review/</guid><description>&lt;h1 id="来源元数据-metadata"&gt;来源元数据 (Metadata)&lt;/h1&gt;
&lt;ul&gt;
&lt;li&gt;&lt;strong&gt;原文标题&lt;/strong&gt;: TokenMixer-Large: Scaling Up Large Ranking Models in Industrial Recommenders&lt;/li&gt;
&lt;li&gt;&lt;strong&gt;原文链接&lt;/strong&gt;:
&lt;/li&gt;
&lt;li&gt;&lt;strong&gt;来源&lt;/strong&gt;: Arxiv (ByteDance 团队)&lt;/li&gt;
&lt;li&gt;&lt;strong&gt;作者&lt;/strong&gt;: Yuchen Jiang, Jie Zhu, Xintian Han, Hui Lu, Kunmin Bai, Mingyu Yang, Shikang Wu 等&lt;/li&gt;
&lt;/ul&gt;
&lt;hr&gt;
&lt;h1 id="核心摘要-executive-summary"&gt;核心摘要 (Executive Summary)&lt;/h1&gt;
&lt;p&gt;针对工业级推荐系统面临的大模型扩展瓶颈，本文提出了 &lt;strong&gt;TokenMixer-Large&lt;/strong&gt; 架构，通过引入“Mixing &amp;amp; Reverting”操作、层间残差、辅助损失以及稀疏 Per-token MoE 等一系列创新，解决了深层网络中的梯度消失、MoE 稀疏化不足以及硬件利用率低等问题，在字节跳动的核心业务（电商、广告、直播）中成功扩展至百亿参数规模，并取得了显著的在线业务增长。&lt;/p&gt;
&lt;hr&gt;
&lt;h1 id="深度解读-deep-dive"&gt;深度解读 (Deep Dive)&lt;/h1&gt;
&lt;h2 id="核心痛点"&gt;核心痛点&lt;/h2&gt;
&lt;p&gt;随着推荐系统大模型（DLRM）尝试向大规模参数扩展，现有的主流架构（如 RankMixer、Wukong、DHEN）在实际应用中暴露出多个严重瓶颈：&lt;/p&gt;
&lt;ol&gt;
&lt;li&gt;&lt;strong&gt;次优的残差设计&lt;/strong&gt;: RankMixer 等架构通过 Mixing 操作改变了 Token 的维度和数量，导致前后残差连接时 Token 的语义无法对齐，限制了模型的表现上限。&lt;/li&gt;
&lt;li&gt;&lt;strong&gt;不纯粹的模型架构&lt;/strong&gt;: 由于历史迭代，推荐模型中通常保留了许多琐碎、访存密集型的底层算子（如 LHUC、DCNv2），导致整体模型的计算利用率 (MFU) 极低。&lt;/li&gt;
&lt;li&gt;&lt;strong&gt;深层网络梯度更新不足&lt;/strong&gt;: 传统的 TokenMixer 往往只有浅层配置（如 2 层），随着网络加深，梯度消失问题严重，难以保持训练稳定性。&lt;/li&gt;
&lt;li&gt;&lt;strong&gt;MoE 稀疏化不足&lt;/strong&gt;: 原有的 ReLU-MoE 设计局限于“稠密训练、稀疏推理”范式，并未降低训练成本，且动态激活机制对推理极不友好。&lt;/li&gt;
&lt;li&gt;&lt;strong&gt;扩展性受限&lt;/strong&gt;: 受限于上述原因，工业界之前的探索仅止步于 10亿（1B）参数级别。&lt;/li&gt;
&lt;/ol&gt;
&lt;h2 id="方法论-methodology"&gt;方法论 (Methodology)&lt;/h2&gt;
&lt;h3 id="1-整体设计思路"&gt;1. 整体设计思路&lt;/h3&gt;
&lt;p&gt;TokenMixer-Large 的设计哲学可以用一句话概括：&lt;strong&gt;以”纯净架构”为基座，通过深度残差与稀疏化实现工业级大模型的高效扩展&lt;/strong&gt;。具体来说，团队遵循了以下三条核心设计原则：&lt;/p&gt;
&lt;ul&gt;
&lt;li&gt;&lt;strong&gt;架构纯净化 (Architecture Purification)&lt;/strong&gt;：移除所有历史遗留的碎片化算子，仅保留高计算密度的矩阵乘法操作，最大化 GPU 的 MFU（Model FLOPs Utilization）&lt;/li&gt;
&lt;li&gt;&lt;strong&gt;残差对齐化 (Residual Alignment)&lt;/strong&gt;：通过 Mixing-Reverting 的对称设计，确保跨层残差连接的语义一致性，为深层网络训练铺平道路&lt;/li&gt;
&lt;li&gt;&lt;strong&gt;稀疏高效化 (Sparse Efficiency)&lt;/strong&gt;：采用 Per-token MoE 实现真正的”稀疏训练+稀疏推理”，在保持模型容量的同时大幅降低计算开销&lt;/li&gt;
&lt;/ul&gt;
&lt;p&gt;
&lt;figure &gt;
&lt;div class="flex justify-center "&gt;
&lt;div class="w-full" &gt;
&lt;img alt="Figure 1: TokenMixer-Large 整体架构。Raw token 包含所有原始特征和序列聚合/抽取特征。整个模型由多个 TokenMixer-Large Block 堆叠而成，每个 Block 的骨干由 Norm、Mixing、S-P MoE、Reverting、Norm、S-P MoE 和残差连接组成。"
srcset="https://dingyadong.top/posts/005_tokenmixer_large_paper_review/fig1_architecture_hu_a96e4829249b2292.webp 320w, https://dingyadong.top/posts/005_tokenmixer_large_paper_review/fig1_architecture_hu_9c68ae2a97fcbf1d.webp 480w, https://dingyadong.top/posts/005_tokenmixer_large_paper_review/fig1_architecture_hu_c2a7ae1366e0da85.webp 760w"
sizes="(max-width: 480px) 100vw, (max-width: 768px) 90vw, (max-width: 1024px) 80vw, 760px"
src="https://dingyadong.top/posts/005_tokenmixer_large_paper_review/fig1_architecture_hu_a96e4829249b2292.webp"
width="760"
height="276"
loading="lazy" data-zoomable /&gt;&lt;/div&gt;
&lt;/div&gt;&lt;/figure&gt;
&lt;/p&gt;
&lt;h3 id="2-tokenmixer-large-与初代-tokenmixer-rankmixer-的核心区别"&gt;2. TokenMixer-Large 与初代 TokenMixer (RankMixer) 的核心区别&lt;/h3&gt;
&lt;p&gt;在理解 TokenMixer-Large 的创新之前，我们必须先看清它对初代架构做了哪些大刀阔斧的”革命”。以下是四个核心差异点：&lt;/p&gt;
&lt;h3 id="21-从维度错位到mixing--reverting-绝对对齐"&gt;2.1 从“维度错位”到“Mixing &amp;amp; Reverting 绝对对齐”&lt;/h3&gt;
&lt;ul&gt;
&lt;li&gt;&lt;strong&gt;初代 TokenMixer 的痛点&lt;/strong&gt;：在进行 Token 混合（Mixing）时，将 $T$ 个 token 强行变为 $H$ 个。输入输出维度不匹配，导致直接加和时产生语义错位，无法实现有效的跨层残差连接。&lt;/li&gt;
&lt;li&gt;&lt;strong&gt;Large 版本的解法&lt;/strong&gt;：设计了高度对称的“双层结构”：
&lt;ul&gt;
&lt;li&gt;&lt;strong&gt;Mixing 层&lt;/strong&gt;：负责跨 Token 混合信息 ($T \rightarrow H$)。&lt;/li&gt;
&lt;li&gt;&lt;strong&gt;Reverting 层&lt;/strong&gt;：专门将混合后的 Token 维度完美恢复到原始状态 ($H \rightarrow T$)。
这种设计确保了输入和输出维度的绝对一致性，构建出平滑且语义对齐的深度残差通道。&lt;/li&gt;
&lt;/ul&gt;
&lt;/li&gt;
&lt;/ul&gt;
&lt;div class="highlight"&gt;&lt;pre tabindex="0" class="chroma"&gt;&lt;code class="language-python" data-lang="python"&gt;&lt;span class="line"&gt;&lt;span class="cl"&gt;&lt;span class="c1"&gt;# 伪代码演示&lt;/span&gt;
&lt;/span&gt;&lt;/span&gt;&lt;span class="line"&gt;&lt;span class="cl"&gt;&lt;span class="c1"&gt;# 输入 X: [T, D], T为Token数, D为维度&lt;/span&gt;
&lt;/span&gt;&lt;/span&gt;&lt;span class="line"&gt;&lt;span class="cl"&gt;
&lt;/span&gt;&lt;/span&gt;&lt;span class="line"&gt;&lt;span class="cl"&gt;&lt;span class="c1"&gt;# 1. Mixing 阶段&lt;/span&gt;
&lt;/span&gt;&lt;/span&gt;&lt;span class="line"&gt;&lt;span class="cl"&gt;&lt;span class="n"&gt;H&lt;/span&gt; &lt;span class="o"&gt;=&lt;/span&gt; &lt;span class="n"&gt;Split_and_Concat&lt;/span&gt;&lt;span class="p"&gt;(&lt;/span&gt;&lt;span class="n"&gt;X&lt;/span&gt;&lt;span class="p"&gt;)&lt;/span&gt; &lt;span class="c1"&gt;# 将 T 个 token 混合为 H 个, 维度变为 [H, T*D/H]&lt;/span&gt;
&lt;/span&gt;&lt;/span&gt;&lt;span class="line"&gt;&lt;span class="cl"&gt;&lt;span class="n"&gt;H_next&lt;/span&gt; &lt;span class="o"&gt;=&lt;/span&gt; &lt;span class="n"&gt;Norm&lt;/span&gt;&lt;span class="p"&gt;(&lt;/span&gt;&lt;span class="n"&gt;pSwiGLU&lt;/span&gt;&lt;span class="p"&gt;(&lt;/span&gt;&lt;span class="n"&gt;H&lt;/span&gt;&lt;span class="p"&gt;)&lt;/span&gt; &lt;span class="o"&gt;+&lt;/span&gt; &lt;span class="n"&gt;H&lt;/span&gt;&lt;span class="p"&gt;)&lt;/span&gt;
&lt;/span&gt;&lt;/span&gt;&lt;span class="line"&gt;&lt;span class="cl"&gt;
&lt;/span&gt;&lt;/span&gt;&lt;span class="line"&gt;&lt;span class="cl"&gt;&lt;span class="c1"&gt;# 2. Reverting 阶段&lt;/span&gt;
&lt;/span&gt;&lt;/span&gt;&lt;span class="line"&gt;&lt;span class="cl"&gt;&lt;span class="n"&gt;X_revert&lt;/span&gt; &lt;span class="o"&gt;=&lt;/span&gt; &lt;span class="n"&gt;Split_and_Concat_Back&lt;/span&gt;&lt;span class="p"&gt;(&lt;/span&gt;&lt;span class="n"&gt;H_next&lt;/span&gt;&lt;span class="p"&gt;)&lt;/span&gt; &lt;span class="c1"&gt;# 将 H 个 token 还原为 T 个, 维度恢复为 [T, D]&lt;/span&gt;
&lt;/span&gt;&lt;/span&gt;&lt;span class="line"&gt;&lt;span class="cl"&gt;&lt;span class="n"&gt;X_next&lt;/span&gt; &lt;span class="o"&gt;=&lt;/span&gt; &lt;span class="n"&gt;Norm&lt;/span&gt;&lt;span class="p"&gt;(&lt;/span&gt;&lt;span class="n"&gt;pSwiGLU&lt;/span&gt;&lt;span class="p"&gt;(&lt;/span&gt;&lt;span class="n"&gt;X_revert&lt;/span&gt;&lt;span class="p"&gt;)&lt;/span&gt; &lt;span class="o"&gt;+&lt;/span&gt; &lt;span class="n"&gt;X&lt;/span&gt;&lt;span class="p"&gt;)&lt;/span&gt; &lt;span class="c1"&gt;# 语义严格对齐的残差连接&lt;/span&gt;
&lt;/span&gt;&lt;/span&gt;&lt;/code&gt;&lt;/pre&gt;&lt;/div&gt;&lt;h3 id="22-从碎片化算子堆砌到纯净架构-pure-architecture"&gt;2.2 从”碎片化算子堆砌”到”纯净架构 (Pure Architecture)”&lt;/h3&gt;
&lt;ul&gt;
&lt;li&gt;&lt;strong&gt;初代 TokenMixer 的痛点&lt;/strong&gt;：由于历史迭代，模型中通常堆砌了许多细碎、访存密集型的底层算子（如 LHUC、DCNv2），导致整体模型在 GPU 上的计算利用率（MFU）极低。&lt;/li&gt;
&lt;li&gt;&lt;strong&gt;Large 版本的解法&lt;/strong&gt;：剥离所有底层低效交互算子，将 Post-LayerNorm 替换为 Pre-RMSNorm，使用 pSwiGLU 替换 pFFN。完全依靠堆叠纯净的 TokenMixer-Large Block 进行特征交叉，使得核心广告模型的 MFU 飙升至 60%。&lt;/li&gt;
&lt;/ul&gt;
&lt;p&gt;关于组件替换的详细说明：&lt;/p&gt;
&lt;ul&gt;
&lt;li&gt;&lt;strong&gt;Pre-RMSNorm vs Post-LayerNorm&lt;/strong&gt;：Pre-RMSNorm 将归一化操作放在子层的输入端而非输出端，省去了均值计算步骤，减少了约 30% 的归一化开销。更重要的是，Pre-Norm 结构使得残差通道中的梯度流动更加顺畅，有利于深层网络的训练稳定性。&lt;/li&gt;
&lt;li&gt;&lt;strong&gt;pSwiGLU vs pFFN&lt;/strong&gt;：pSwiGLU（Per-token SwiGLU）将传统的 ReLU 激活替换为 SiLU（Swish）门控线性单元，引入了乘法门控机制，增强了特征的非线性表达能力。其公式为 $\text{SwiGLU}(x) = (xW_1) \otimes \text{SiLU}(xW_2)$，相比传统 FFN 增加了约 50% 的参数量，但带来的效果提升远超参数增长。&lt;/li&gt;
&lt;/ul&gt;
&lt;h3 id="23-从浅层堆叠到深层跨层残差-inter-layer-residuals"&gt;2.3 从”浅层堆叠”到”深层跨层残差 (Inter-Layer Residuals)”&lt;/h3&gt;
&lt;ul&gt;
&lt;li&gt;&lt;strong&gt;初代 TokenMixer 的痛点&lt;/strong&gt;：随着网络加深（如从浅层的 2 层扩展到深层），极易发生梯度消失现象。&lt;/li&gt;
&lt;li&gt;&lt;strong&gt;Large 版本的解法&lt;/strong&gt;：采取了”组合拳”：
&lt;ul&gt;
&lt;li&gt;&lt;strong&gt;跨层残差与辅助损失&lt;/strong&gt;：每隔 2-3 层引入跨层残差连接，并将底层输出与高层输出结合计算辅助损失（Auxiliary Loss）。&lt;/li&gt;
&lt;li&gt;&lt;strong&gt;Rezero 初始化&lt;/strong&gt;：将 SwiGLU 中最后一个投影矩阵的初始化方差缩小为 0.01，使模块在训练初期接近恒等映射，极大提升了模型收敛的稳定性。&lt;/li&gt;
&lt;/ul&gt;
&lt;/li&gt;
&lt;/ul&gt;
&lt;p&gt;
&lt;figure &gt;
&lt;div class="flex justify-center "&gt;
&lt;div class="w-full" &gt;
&lt;img alt="Figure 2: Internal Residual（左）与 Auxiliary Loss（右）机制。跨层残差连接确保深层梯度流动，辅助损失通过中间层输出提供额外监督信号。"
srcset="https://dingyadong.top/posts/005_tokenmixer_large_paper_review/fig2_residual_aux_loss_hu_6dde1adf4c3cac0d.webp 320w, https://dingyadong.top/posts/005_tokenmixer_large_paper_review/fig2_residual_aux_loss_hu_ed292126ee3f73c5.webp 480w, https://dingyadong.top/posts/005_tokenmixer_large_paper_review/fig2_residual_aux_loss_hu_d765f0985fc7ce9e.webp 760w"
sizes="(max-width: 480px) 100vw, (max-width: 768px) 90vw, (max-width: 1024px) 80vw, 760px"
src="https://dingyadong.top/posts/005_tokenmixer_large_paper_review/fig2_residual_aux_loss_hu_6dde1adf4c3cac0d.webp"
width="760"
height="412"
loading="lazy" data-zoomable /&gt;&lt;/div&gt;
&lt;/div&gt;&lt;/figure&gt;
&lt;/p&gt;
&lt;h3 id="24-稀疏-per-token-moe-sparse-pertoken-moe-的进化"&gt;2.4 稀疏 Per-token MoE (Sparse-Pertoken MoE) 的进化&lt;/h3&gt;
&lt;ul&gt;
&lt;li&gt;&lt;strong&gt;初代 TokenMixer 的痛点&lt;/strong&gt;：原有的 ReLU-MoE 设计局限于“稠密训练、稀疏推理”范式，并未真正降低训练成本，且动态激活对线上推理极不友好。&lt;/li&gt;
&lt;li&gt;&lt;strong&gt;Large 版本的解法&lt;/strong&gt;：采用**“先扩大，后稀疏” (First Enlarge, Then Sparse)** 的端到端策略：
&lt;ol&gt;
&lt;li&gt;将 Per-token SwiGLU 拆分为多个细粒度的专家（Expert）并进行稀疏激活。&lt;/li&gt;
&lt;li&gt;引入 &lt;strong&gt;门控值缩放 (Gate Value Scaling)&lt;/strong&gt; 来解决稀疏化带来的梯度更新不足问题。&lt;/li&gt;
&lt;li&gt;加入 &lt;strong&gt;共享专家 (Shared Expert)&lt;/strong&gt; 以稳定训练过程。&lt;/li&gt;
&lt;/ol&gt;
&lt;/li&gt;
&lt;/ul&gt;
&lt;p&gt;这使得模型能够真正实现”稀疏训练与稀疏推理”。在实验中，模型在仅激活一半参数（2.3B out of 4.6B）的情况下，FLOPs 下降近半，但取得了与稠密模型完全相同的业务增益（AUC +1.14%）。&lt;/p&gt;
&lt;p&gt;
&lt;figure &gt;
&lt;div class="flex justify-center "&gt;
&lt;div class="w-full" &gt;
&lt;img alt="Figure 3: 单个 Block 内高性能算子的工作流程。绿色节点代表算子（operator），蓝色节点代表数据。标注星号（*）表示数据以 FP8 量化存储和计算。"
srcset="https://dingyadong.top/posts/005_tokenmixer_large_paper_review/fig3_operators_workflow_hu_551817f61d0fc358.webp 320w, https://dingyadong.top/posts/005_tokenmixer_large_paper_review/fig3_operators_workflow_hu_398fa1f1bd47369.webp 480w, https://dingyadong.top/posts/005_tokenmixer_large_paper_review/fig3_operators_workflow_hu_7da354a1b841990b.webp 760w"
sizes="(max-width: 480px) 100vw, (max-width: 768px) 90vw, (max-width: 1024px) 80vw, 760px"
src="https://dingyadong.top/posts/005_tokenmixer_large_paper_review/fig3_operators_workflow_hu_551817f61d0fc358.webp"
width="760"
height="393"
loading="lazy" data-zoomable /&gt;&lt;/div&gt;
&lt;/div&gt;&lt;/figure&gt;
&lt;/p&gt;
&lt;h2 id="与其他方法的对比分析"&gt;与其他方法的对比分析&lt;/h2&gt;
&lt;p&gt;为了更全面地理解 TokenMixer-Large 的定位和优势，我们从架构设计、训练效率和扩展能力三个维度进行横向对比：&lt;/p&gt;
&lt;h3 id="维度一架构设计对比"&gt;维度一：架构设计对比&lt;/h3&gt;
&lt;table&gt;
&lt;thead&gt;
&lt;tr&gt;
&lt;th style="text-align: left"&gt;对比项&lt;/th&gt;
&lt;th style="text-align: left"&gt;DLRM-MLP&lt;/th&gt;
&lt;th style="text-align: left"&gt;Wukong&lt;/th&gt;
&lt;th style="text-align: left"&gt;DHEN&lt;/th&gt;
&lt;th style="text-align: left"&gt;RankMixer&lt;/th&gt;
&lt;th style="text-align: left"&gt;&lt;strong&gt;TokenMixer-Large&lt;/strong&gt;&lt;/th&gt;
&lt;/tr&gt;
&lt;/thead&gt;
&lt;tbody&gt;
&lt;tr&gt;
&lt;td style="text-align: left"&gt;特征交叉方式&lt;/td&gt;
&lt;td style="text-align: left"&gt;MLP 隐式交叉&lt;/td&gt;
&lt;td style="text-align: left"&gt;双塔交叉网络&lt;/td&gt;
&lt;td style="text-align: left"&gt;层次化显式交叉&lt;/td&gt;
&lt;td style="text-align: left"&gt;Token Mixing&lt;/td&gt;
&lt;td style="text-align: left"&gt;&lt;strong&gt;Mixing &amp;amp; Reverting&lt;/strong&gt;&lt;/td&gt;
&lt;/tr&gt;
&lt;tr&gt;
&lt;td style="text-align: left"&gt;残差连接&lt;/td&gt;
&lt;td style="text-align: left"&gt;简单残差&lt;/td&gt;
&lt;td style="text-align: left"&gt;跨塔残差&lt;/td&gt;
&lt;td style="text-align: left"&gt;层内残差&lt;/td&gt;
&lt;td style="text-align: left"&gt;维度错位残差&lt;/td&gt;
&lt;td style="text-align: left"&gt;&lt;strong&gt;语义对齐残差&lt;/strong&gt;&lt;/td&gt;
&lt;/tr&gt;
&lt;tr&gt;
&lt;td style="text-align: left"&gt;归一化方式&lt;/td&gt;
&lt;td style="text-align: left"&gt;BatchNorm&lt;/td&gt;
&lt;td style="text-align: left"&gt;LayerNorm&lt;/td&gt;
&lt;td style="text-align: left"&gt;LayerNorm&lt;/td&gt;
&lt;td style="text-align: left"&gt;Post-LayerNorm&lt;/td&gt;
&lt;td style="text-align: left"&gt;&lt;strong&gt;Pre-RMSNorm&lt;/strong&gt;&lt;/td&gt;
&lt;/tr&gt;
&lt;tr&gt;
&lt;td style="text-align: left"&gt;激活函数&lt;/td&gt;
&lt;td style="text-align: left"&gt;ReLU&lt;/td&gt;
&lt;td style="text-align: left"&gt;ReLU&lt;/td&gt;
&lt;td style="text-align: left"&gt;ReLU&lt;/td&gt;
&lt;td style="text-align: left"&gt;FFN&lt;/td&gt;
&lt;td style="text-align: left"&gt;&lt;strong&gt;pSwiGLU&lt;/strong&gt;&lt;/td&gt;
&lt;/tr&gt;
&lt;tr&gt;
&lt;td style="text-align: left"&gt;稀疏化支持&lt;/td&gt;
&lt;td style="text-align: left"&gt;无&lt;/td&gt;
&lt;td style="text-align: left"&gt;无&lt;/td&gt;
&lt;td style="text-align: left"&gt;无&lt;/td&gt;
&lt;td style="text-align: left"&gt;ReLU-MoE&lt;/td&gt;
&lt;td style="text-align: left"&gt;&lt;strong&gt;Per-token MoE&lt;/strong&gt;&lt;/td&gt;
&lt;/tr&gt;
&lt;/tbody&gt;
&lt;/table&gt;
&lt;h3 id="维度二训练效率对比"&gt;维度二：训练效率对比&lt;/h3&gt;
&lt;table&gt;
&lt;thead&gt;
&lt;tr&gt;
&lt;th style="text-align: left"&gt;对比项&lt;/th&gt;
&lt;th style="text-align: left"&gt;DLRM-MLP&lt;/th&gt;
&lt;th style="text-align: left"&gt;Wukong&lt;/th&gt;
&lt;th style="text-align: left"&gt;RankMixer&lt;/th&gt;
&lt;th style="text-align: left"&gt;&lt;strong&gt;TokenMixer-Large&lt;/strong&gt;&lt;/th&gt;
&lt;/tr&gt;
&lt;/thead&gt;
&lt;tbody&gt;
&lt;tr&gt;
&lt;td style="text-align: left"&gt;GPU MFU&lt;/td&gt;
&lt;td style="text-align: left"&gt;&amp;lt; 10%&lt;/td&gt;
&lt;td style="text-align: left"&gt;~15%&lt;/td&gt;
&lt;td style="text-align: left"&gt;~25%&lt;/td&gt;
&lt;td style="text-align: left"&gt;&lt;strong&gt;~60%&lt;/strong&gt;&lt;/td&gt;
&lt;/tr&gt;
&lt;tr&gt;
&lt;td style="text-align: left"&gt;碎片化算子&lt;/td&gt;
&lt;td style="text-align: left"&gt;大量&lt;/td&gt;
&lt;td style="text-align: left"&gt;中等&lt;/td&gt;
&lt;td style="text-align: left"&gt;中等&lt;/td&gt;
&lt;td style="text-align: left"&gt;&lt;strong&gt;无&lt;/strong&gt;&lt;/td&gt;
&lt;/tr&gt;
&lt;tr&gt;
&lt;td style="text-align: left"&gt;训练稳定性&lt;/td&gt;
&lt;td style="text-align: left"&gt;浅层稳定&lt;/td&gt;
&lt;td style="text-align: left"&gt;一般&lt;/td&gt;
&lt;td style="text-align: left"&gt;深层退化&lt;/td&gt;
&lt;td style="text-align: left"&gt;&lt;strong&gt;深层稳定&lt;/strong&gt;&lt;/td&gt;
&lt;/tr&gt;
&lt;tr&gt;
&lt;td style="text-align: left"&gt;训练范式&lt;/td&gt;
&lt;td style="text-align: left"&gt;稠密&lt;/td&gt;
&lt;td style="text-align: left"&gt;稠密&lt;/td&gt;
&lt;td style="text-align: left"&gt;稠密训练稀疏推理&lt;/td&gt;
&lt;td style="text-align: left"&gt;&lt;strong&gt;稀疏训练+稀疏推理&lt;/strong&gt;&lt;/td&gt;
&lt;/tr&gt;
&lt;/tbody&gt;
&lt;/table&gt;
&lt;h3 id="维度三扩展能力对比"&gt;维度三：扩展能力对比&lt;/h3&gt;
&lt;table&gt;
&lt;thead&gt;
&lt;tr&gt;
&lt;th style="text-align: left"&gt;对比项&lt;/th&gt;
&lt;th style="text-align: left"&gt;DLRM-MLP&lt;/th&gt;
&lt;th style="text-align: left"&gt;Wukong&lt;/th&gt;
&lt;th style="text-align: left"&gt;RankMixer&lt;/th&gt;
&lt;th style="text-align: left"&gt;&lt;strong&gt;TokenMixer-Large&lt;/strong&gt;&lt;/th&gt;
&lt;/tr&gt;
&lt;/thead&gt;
&lt;tbody&gt;
&lt;tr&gt;
&lt;td style="text-align: left"&gt;已验证最大参数量&lt;/td&gt;
&lt;td style="text-align: left"&gt;~500M&lt;/td&gt;
&lt;td style="text-align: left"&gt;~1B&lt;/td&gt;
&lt;td style="text-align: left"&gt;~1B&lt;/td&gt;
&lt;td style="text-align: left"&gt;&lt;strong&gt;15B（离线）/ 7B（在线）&lt;/strong&gt;&lt;/td&gt;
&lt;/tr&gt;
&lt;tr&gt;
&lt;td style="text-align: left"&gt;Scaling Law 表现&lt;/td&gt;
&lt;td style="text-align: left"&gt;早期饱和&lt;/td&gt;
&lt;td style="text-align: left"&gt;有限提升&lt;/td&gt;
&lt;td style="text-align: left"&gt;中等&lt;/td&gt;
&lt;td style="text-align: left"&gt;&lt;strong&gt;持续提升&lt;/strong&gt;&lt;/td&gt;
&lt;/tr&gt;
&lt;tr&gt;
&lt;td style="text-align: left"&gt;多业务验证&lt;/td&gt;
&lt;td style="text-align: left"&gt;单一场景&lt;/td&gt;
&lt;td style="text-align: left"&gt;有限场景&lt;/td&gt;
&lt;td style="text-align: left"&gt;有限场景&lt;/td&gt;
&lt;td style="text-align: left"&gt;&lt;strong&gt;电商/广告/直播&lt;/strong&gt;&lt;/td&gt;
&lt;/tr&gt;
&lt;/tbody&gt;
&lt;/table&gt;
&lt;h2 id="实验结果详细分析"&gt;实验结果详细分析&lt;/h2&gt;
&lt;h3 id="scaling-law-验证"&gt;Scaling Law 验证&lt;/h3&gt;
&lt;p&gt;TokenMixer-Large 在离线实验中展现出了清晰的 Scaling Law 特性：&lt;/p&gt;
&lt;p&gt;
&lt;figure &gt;
&lt;div class="flex justify-center "&gt;
&lt;div class="w-full" &gt;
&lt;img alt="Figure 4: 三个核心业务场景的 Scaling Law 验证。(a) Feed Ads 15B (b) E-Commerce 7B (c) Live Streaming 4B。所有场景均展现出持续的 AUC 提升趋势。"
srcset="https://dingyadong.top/posts/005_tokenmixer_large_paper_review/fig4_scaling_laws_hu_701841928bbeeb86.webp 320w, https://dingyadong.top/posts/005_tokenmixer_large_paper_review/fig4_scaling_laws_hu_31b5ca9de6c56b92.webp 480w, https://dingyadong.top/posts/005_tokenmixer_large_paper_review/fig4_scaling_laws_hu_cb75c2d5645cd226.webp 760w"
sizes="(max-width: 480px) 100vw, (max-width: 768px) 90vw, (max-width: 1024px) 80vw, 760px"
src="https://dingyadong.top/posts/005_tokenmixer_large_paper_review/fig4_scaling_laws_hu_701841928bbeeb86.webp"
width="760"
height="210"
loading="lazy" data-zoomable /&gt;&lt;/div&gt;
&lt;/div&gt;&lt;/figure&gt;
&lt;/p&gt;
&lt;ul&gt;
&lt;li&gt;&lt;strong&gt;500M -&amp;gt; 1B&lt;/strong&gt;：CTCVR AUC 持续提升，验证了架构设计的有效性&lt;/li&gt;
&lt;li&gt;&lt;strong&gt;1B -&amp;gt; 4B&lt;/strong&gt;：引入 Sparse-Pertoken MoE 后，模型在激活参数仅为 2.3B 的情况下达到了与 4.6B 稠密模型相当的性能&lt;/li&gt;
&lt;li&gt;&lt;strong&gt;4B -&amp;gt; 15B&lt;/strong&gt;：离线实验表明 AUC 仍在持续提升，未出现明显的饱和趋势&lt;/li&gt;
&lt;/ul&gt;
&lt;p&gt;
&lt;figure &gt;
&lt;div class="flex justify-center "&gt;
&lt;div class="w-full" &gt;
&lt;img alt="Figure 5: TokenMixer-Large vs RankMixer(TokenMixer) 的 Scaling Law 对比。无论是参数量还是 FLOPs 维度，TokenMixer-Large 都展现出更陡峭的提升斜率。"
srcset="https://dingyadong.top/posts/005_tokenmixer_large_paper_review/fig5_auc_gain_comparison_hu_5732f6cdf064d910.webp 320w, https://dingyadong.top/posts/005_tokenmixer_large_paper_review/fig5_auc_gain_comparison_hu_4b1b8eb7052f469b.webp 480w, https://dingyadong.top/posts/005_tokenmixer_large_paper_review/fig5_auc_gain_comparison_hu_5886734552d50243.webp 760w"
sizes="(max-width: 480px) 100vw, (max-width: 768px) 90vw, (max-width: 1024px) 80vw, 760px"
src="https://dingyadong.top/posts/005_tokenmixer_large_paper_review/fig5_auc_gain_comparison_hu_5732f6cdf064d910.webp"
width="760"
height="405"
loading="lazy" data-zoomable /&gt;&lt;/div&gt;
&lt;/div&gt;&lt;/figure&gt;
&lt;/p&gt;
&lt;h3 id="消融实验关键发现"&gt;消融实验关键发现&lt;/h3&gt;
&lt;p&gt;论文中的消融实验揭示了几个重要结论：&lt;/p&gt;
&lt;ul&gt;
&lt;li&gt;&lt;strong&gt;Mixing &amp;amp; Reverting 的必要性&lt;/strong&gt;：去除 Reverting 层后，AUC 下降约 0.15%，证明语义对齐的残差连接对深层网络至关重要&lt;/li&gt;
&lt;li&gt;&lt;strong&gt;跨层残差的贡献&lt;/strong&gt;：去除跨层残差后，深层模型（&amp;gt;6 层）出现明显的训练不稳定，AUC 波动加剧&lt;/li&gt;
&lt;li&gt;&lt;strong&gt;Rezero 初始化的作用&lt;/strong&gt;：将初始化方差从标准值改为 0.01 后，训练初期的 loss 曲线更加平滑，最终收敛效果提升约 0.08% AUC&lt;/li&gt;
&lt;li&gt;&lt;strong&gt;门控值缩放的影响&lt;/strong&gt;：在 MoE 稀疏化场景中，移除门控值缩放会导致约 0.12% 的 AUC 损失，验证了其对缓解稀疏梯度更新不足的有效性&lt;/li&gt;
&lt;/ul&gt;
&lt;h2 id="流程图-flowchart"&gt;流程图 (Flowchart)&lt;/h2&gt;
&lt;div class="mermaid-wrapper"&gt;
&lt;div class="mermaid" style="background: transparent;"&gt;
graph LR
A[Sparse Features] --&gt; B[Embedding &amp; Tokenizer]
B --&gt; C[Grouped Tokens X]
D["Mixing: Split &amp; Concat"] --&gt; E["SwiGLU + Norm"]
E --&gt; F["Reverting"] --&gt; G["SwiGLU + Norm"]
C --&gt; D
C -.-&gt;|Residual| G
G --&gt; H[Deep Layers + MoE]
H --&gt; I[Pooling &amp; Prediction]
&lt;/div&gt;
&lt;/div&gt;
&lt;h2 id="优缺点分析"&gt;优缺点分析&lt;/h2&gt;
&lt;h3 id="优势"&gt;优势&lt;/h3&gt;
&lt;ol&gt;
&lt;li&gt;
&lt;p&gt;&lt;strong&gt;架构简洁高效&lt;/strong&gt;：通过彻底移除碎片化算子，TokenMixer-Large 将 GPU MFU 提升至 60%，这意味着同样的硬件资源可以训练更大的模型。这种”少即是多”的设计理念在工业界具有重要的参考价值。&lt;/p&gt;
&lt;/li&gt;
&lt;li&gt;
&lt;p&gt;&lt;strong&gt;真正的稀疏训练+推理&lt;/strong&gt;：不同于 ReLU-MoE 的”稠密训练、稀疏推理”，Per-token MoE 实现了端到端的稀疏化，使得训练成本和推理成本同时降低。这对于大规模在线服务的部署预算控制至关重要。&lt;/p&gt;
&lt;/li&gt;
&lt;li&gt;
&lt;p&gt;&lt;strong&gt;经过大规模工业验证&lt;/strong&gt;：该架构已在字节跳动电商、广告、直播三大核心业务线上线验证，覆盖了推荐系统的主要应用场景，证明了其普适性和鲁棒性。&lt;/p&gt;
&lt;/li&gt;
&lt;li&gt;
&lt;p&gt;&lt;strong&gt;清晰的 Scaling Law&lt;/strong&gt;：实验证明了模型在 500M 到 15B 参数范围内持续受益于规模扩展，为后续进一步扩展提供了明确的方向。&lt;/p&gt;
&lt;/li&gt;
&lt;/ol&gt;
&lt;h3 id="不足"&gt;不足&lt;/h3&gt;
&lt;ol&gt;
&lt;li&gt;
&lt;p&gt;&lt;strong&gt;Embedding 层优化不足&lt;/strong&gt;：论文主要聚焦于排序模型（Ranking Model）的上层架构，对 Embedding 层的优化讨论较少。而在实际工业系统中，Embedding 层往往占据了模型参数量的绝大部分（通常超过 90%），如何高效地扩展 Embedding 仍是一个开放问题。&lt;/p&gt;
&lt;/li&gt;
&lt;li&gt;
&lt;p&gt;&lt;strong&gt;训练基础设施要求高&lt;/strong&gt;：扩展至 7B-15B 参数规模需要大量的 GPU 资源和分布式训练框架支持。论文对多机多卡的并行策略、通信优化等工程细节披露有限，其他团队复现的门槛较高。&lt;/p&gt;
&lt;/li&gt;
&lt;li&gt;
&lt;p&gt;&lt;strong&gt;冷启动与长尾问题未涉及&lt;/strong&gt;：文章主要关注整体指标（AUC、GMV）的提升，未讨论大模型在推荐系统冷启动场景和长尾物品推荐上的表现，而这些恰恰是工业推荐系统的核心痛点。&lt;/p&gt;
&lt;/li&gt;
&lt;li&gt;
&lt;p&gt;&lt;strong&gt;跨域泛化能力有待验证&lt;/strong&gt;：虽然在字节跳动内部三个业务线均有验证，但不同公司的推荐系统在数据分布、特征工程、业务目标上差异巨大，该架构的跨域迁移能力尚需更多外部验证。&lt;/p&gt;
&lt;/li&gt;
&lt;/ol&gt;
&lt;h2 id="工程实践启示"&gt;工程实践启示&lt;/h2&gt;
&lt;p&gt;对于正在探索推荐系统大模型化的团队，TokenMixer-Large 提供了以下工程实践启示：&lt;/p&gt;
&lt;h3 id="1-先做架构减法再做规模加法"&gt;1. 先做架构”减法”，再做规模”加法”&lt;/h3&gt;
&lt;ul&gt;
&lt;li&gt;在盲目扩大模型参数之前，优先审视现有架构中的碎片化算子&lt;/li&gt;
&lt;li&gt;统计各算子的 FLOPs 占比和延迟占比，找出”高延迟、低计算”的瓶颈算子&lt;/li&gt;
&lt;li&gt;逐步替换为高计算密度的标准化组件（如将各类特征交叉算子统一为矩阵乘法）&lt;/li&gt;
&lt;/ul&gt;
&lt;h3 id="2-渐进式扩展策略"&gt;2. 渐进式扩展策略&lt;/h3&gt;
&lt;ul&gt;
&lt;li&gt;不要一步跳到超大规模，建议按照 500M -&amp;gt; 1B -&amp;gt; 4B -&amp;gt; 10B 的节奏逐步扩展&lt;/li&gt;
&lt;li&gt;每个阶段都需要充分的离线实验和在线 A/B 测试验证&lt;/li&gt;
&lt;li&gt;关注 Scaling Law 曲线的拐点，当 AUC 提升开始饱和时及时调整策略&lt;/li&gt;
&lt;/ul&gt;
&lt;h3 id="3-稀疏化是大模型落地的关键"&gt;3. 稀疏化是大模型落地的关键&lt;/h3&gt;
&lt;ul&gt;
&lt;li&gt;对于超过 1B 参数的在线推理模型，MoE 稀疏化几乎是必选项&lt;/li&gt;
&lt;li&gt;建议同时评估训练和推理两端的稀疏化方案，优先选择能同时降低两端成本的方案&lt;/li&gt;
&lt;li&gt;门控值缩放和共享专家等稳定化技巧在实践中非常重要，不可省略&lt;/li&gt;
&lt;/ul&gt;
&lt;h3 id="4-mfu-是核心效率指标"&gt;4. MFU 是核心效率指标&lt;/h3&gt;
&lt;ul&gt;
&lt;li&gt;将 MFU 纳入模型迭代的核心监控指标&lt;/li&gt;
&lt;li&gt;目标至少达到 40% 以上（TokenMixer-Large 达到了 60%）&lt;/li&gt;
&lt;li&gt;低 MFU 往往意味着存在大量的访存瓶颈或通信开销，需要针对性优化&lt;/li&gt;
&lt;/ul&gt;
&lt;h2 id="结论-conclusion"&gt;结论 (Conclusion)&lt;/h2&gt;
&lt;p&gt;TokenMixer-Large 验证了在去除历史碎片化算子后，”纯净架构+大规模堆叠”在推荐领域的有效性。模型在离线实验中成功扩展至 &lt;strong&gt;150亿 (15B)&lt;/strong&gt; 参数，在线部署达到了 &lt;strong&gt;70亿 (7B)&lt;/strong&gt; 参数。在字节跳动核心业务取得巨大收益：&lt;/p&gt;
&lt;ul&gt;
&lt;li&gt;&lt;strong&gt;电商&lt;/strong&gt;: 订单量提升 1.66%，人均 GMV 提升 2.98%&lt;/li&gt;
&lt;li&gt;&lt;strong&gt;广告&lt;/strong&gt;: ADSS 提升 2.0%&lt;/li&gt;
&lt;li&gt;&lt;strong&gt;直播&lt;/strong&gt;: 收入增长 1.4%&lt;/li&gt;
&lt;/ul&gt;
&lt;hr&gt;
&lt;h1 id="关键代码数据"&gt;关键代码/数据&lt;/h1&gt;
&lt;p&gt;&lt;strong&gt;核心数据对比 (电商场景 500M 规模基线对比)&lt;/strong&gt;:&lt;/p&gt;
&lt;table&gt;
&lt;thead&gt;
&lt;tr&gt;
&lt;th style="text-align: left"&gt;模型&lt;/th&gt;
&lt;th style="text-align: right"&gt;参数量&lt;/th&gt;
&lt;th style="text-align: right"&gt;训练 FLOPs/Batch&lt;/th&gt;
&lt;th style="text-align: right"&gt;CTCVR AUC 提升&lt;/th&gt;
&lt;/tr&gt;
&lt;/thead&gt;
&lt;tbody&gt;
&lt;tr&gt;
&lt;td style="text-align: left"&gt;DLRM-MLP&lt;/td&gt;
&lt;td style="text-align: right"&gt;499 M&lt;/td&gt;
&lt;td style="text-align: right"&gt;125.1 T&lt;/td&gt;
&lt;td style="text-align: right"&gt;基线&lt;/td&gt;
&lt;/tr&gt;
&lt;tr&gt;
&lt;td style="text-align: left"&gt;Wukong&lt;/td&gt;
&lt;td style="text-align: right"&gt;513 M&lt;/td&gt;
&lt;td style="text-align: right"&gt;4.6 T&lt;/td&gt;
&lt;td style="text-align: right"&gt;+0.76%&lt;/td&gt;
&lt;/tr&gt;
&lt;tr&gt;
&lt;td style="text-align: left"&gt;RankMixer&lt;/td&gt;
&lt;td style="text-align: right"&gt;567 M&lt;/td&gt;
&lt;td style="text-align: right"&gt;4.6 T&lt;/td&gt;
&lt;td style="text-align: right"&gt;+0.84%&lt;/td&gt;
&lt;/tr&gt;
&lt;tr&gt;
&lt;td style="text-align: left"&gt;&lt;strong&gt;TokenMixer-Large 500M&lt;/strong&gt;&lt;/td&gt;
&lt;td style="text-align: right"&gt;501 M&lt;/td&gt;
&lt;td style="text-align: right"&gt;4.2 T&lt;/td&gt;
&lt;td style="text-align: right"&gt;&lt;strong&gt;+0.94%&lt;/strong&gt;&lt;/td&gt;
&lt;/tr&gt;
&lt;tr&gt;
&lt;td style="text-align: left"&gt;&lt;strong&gt;TokenMixer-Large 4B SP-MoE&lt;/strong&gt;&lt;/td&gt;
&lt;td style="text-align: right"&gt;2.3B 激活&lt;/td&gt;
&lt;td style="text-align: right"&gt;15.1 T&lt;/td&gt;
&lt;td style="text-align: right"&gt;&lt;strong&gt;+1.14%&lt;/strong&gt;&lt;/td&gt;
&lt;/tr&gt;
&lt;/tbody&gt;
&lt;/table&gt;
&lt;p&gt;&lt;em&gt;注：Sparse-Pertoken MoE 在激活仅一半参数（2.3B in 4.6B）的情况下，不仅显著降低了 FLOPs，还达到了与稠密模型完全相同的业务增益，实现了极高的性价比 (ROI)。&lt;/em&gt;&lt;/p&gt;
&lt;h2 id="总结与展望"&gt;总结与展望&lt;/h2&gt;
&lt;p&gt;TokenMixer-Large 的成功为工业级推荐系统的大模型化树立了一个重要的里程碑。它证明了推荐系统同样遵循 Scaling Law，只要架构设计得当，参数规模的扩展能够持续带来业务增益。&lt;/p&gt;
&lt;p&gt;未来值得关注的方向包括：&lt;/p&gt;
&lt;ul&gt;
&lt;li&gt;&lt;strong&gt;多模态融合&lt;/strong&gt;：将文本、图片等多模态特征纳入 TokenMixer 框架，进一步提升推荐质量&lt;/li&gt;
&lt;li&gt;&lt;strong&gt;在线学习与实时更新&lt;/strong&gt;：探索大模型在在线学习场景下的高效更新策略&lt;/li&gt;
&lt;li&gt;&lt;strong&gt;模型压缩与蒸馏&lt;/strong&gt;：研究如何将大模型的知识高效蒸馏到轻量级模型中，服务于延迟敏感的场景&lt;/li&gt;
&lt;li&gt;&lt;strong&gt;跨业务迁移学习&lt;/strong&gt;：探索不同业务线之间的模型迁移和知识共享机制&lt;/li&gt;
&lt;/ul&gt;</description></item></channel></rss>