Transformer的高下文学习能耐是哪来的？-とうどうあさこ(刀堂浅子)网

有实际根基，高下咱们就能妨碍深度优化了。文学

为甚么 transformer 功能这么好？它给泛滥狂语言模子带来的高下高下文学习 (In-Context Learning) 能耐是从何而来？在家养智能规模里，transformer 已经成为深度学习中的文学主导模子，但人们对于它卓越功能的高下实际根基却不断钻研缺少。

最近，文学来自 Google AI、高下苏黎世联邦理工学院、文学Google DeepMind 钻研职员的高下新钻研试验为咱们揭开谜底。在新钻研中，文学他们对于 transformer 妨碍了逆向工程，高下追寻到了一些优化措施。文学论文《Uncovering mesa-optimization algorithms in Transformers》：

论文链接：https://arxiv.org/abs/2309.05858

作者证实，高下最小化通用自回归损失会发生在 Transformer 的文学前向传递中运行的基于辅助梯度的优化算法。这种天气最近被称为「mesa 优化（mesa-optimization）」。高下此外，钻研职员发现所患上的 mesa 优化算法展现出高下文中的小样本学习能耐，与模子规模无关。因此，新的服从对于此前狂语言模子中泛起的小样本学习的道理妨碍了填补。

钻研职员以为：Transformers 的乐成基于其在前向传递中实现 mesa 优化算法的架构倾向：(i) 界说外部学习目的，以及 (ii) 对于其妨碍优化。

。

该钻研的贡献搜罗：

演绎综合了 von Oswald 等人的实际，并揭示了从实际上，Transformers 是若何经由运用基于梯度的措施优化外部构建的目的来自回归预料序列下一个元素的。
经由试验对于在重大序列建模使命上磨炼的 Transformer 妨碍了逆向工程，并发现强有力的证据表明它们的前向传递实现为了两步算法：(i) 早期自留意力层经由火组以及复制标志构建外部磨炼数据集，因此隐式地构建外部磨炼数据集。界说外部目的函数，(ii) 更深条理优化这些目的以天生预料。
与 LLM 相似，试验表明重大的自回归磨炼模子也可能成为高下文学习者，而赶快调解对于改善 LLM 的高下文学习至关紧张，也可能后退特定情景中的展现。
受发现留意力层试图隐式优化外部目的函数的开辟，作者引入了 mesa 层，这是一种新型留意力层，可能实用地处置最小二乘优化下场，而不是仅接管单个梯度步骤来实现最优。试验证实单个 mesa 层在重大的挨次使命上优于深度线性以及 softmax 自留意力 Transformer，同时提供更多的可批注性。

在开始的语言建模试验后发现，用 mesa 层交流尺度的自留意力层取患了有愿望的服从，证明了该层具备强盛的高下文学习能耐。

基于最近人们的使命表明，经由清晰磨炼来处置高下文中的小样本使命的 transformer 可能实现梯度着落（GD）算法。在这里，作者揭示了这些服从可能推广到自回归序列建模 —— 这是磨炼 LLM 的典型措施。

首先合成在重大线性能源学上磨炼的 transformer，其中每一个序列由差距的 W* 天生 - 以防止跨序列影像。在这个重大的配置中，作者揭示了 transformer 建树 mesa 数据集，而后运用预处置的 GD 优化 mesa 目的。

该钻研在聚合相邻序列元素的 token 妄想上磨炼深度 transformer 。幽默的是，这种重大的预处置会发生极其浓密的权重矩阵（惟独不到 1% 的权重非零），从而发生逆向工程算法。

对于单层线性自留意力，权重对于应一个 GD 步骤。对于深度 transformer ，可批注性就变患上难题。该钻研依靠线性探测并魔难潜在激活是否可能预料自回归目的或者预处置输入。

幽默的是，两种探测措施的可预料性都市随着收集深度的削减而逐渐后退。这一发现表明模子中潜在着预处置的 GD。

该钻研发现，在构建中运用所有逍遥度时，可能欠缺地拟合磨炼层，不光搜罗学习的学习率 η，还搜罗一组学习的初始权重 W_0。紧张的是，如图 2 所示，学患上的 one-step 算法的功能依然远远优于单个 mesa 层。

咱们可能留意到，在重大的权重配置下，很简略经由根基优化发现，该层可能最优地处置此处钻研的使命。该服从证明了硬编码演绎倾向有利于 mesa 优化的优势。

凭仗对于多层案例的实际见识，先合成深度线性以及 softmax 仅留意 Transformer。作者凭证 4 通道妄想配置输入格式，

，这对于应于抉择 W_0 = 0。

与单层模子同样，作者在磨炼模子的权重中看到清晰了的妄想。作为第一个逆向工程合成，该钻研运用这个妄想并构建一个算法（RevAlg-d ，其中 d 展现层数），每一个层头搜罗 16 个参数（而不是 3200 个）。作者发现这种缩短但重大的表白式可能形貌经由磨炼的模子。特意是，它应承以简直无损的方式在实际 Transformer 以及 RevAlg-d 权重之间妨碍插值。

尽管 RevAlg-d 表白式讲明了具备大批逍遥参数的经由磨炼的多层 Transformer，但很难将其批注为 mesa 优化算法。因此，作者接管线性回归探测合成（Alain & Bengio ，2017；Akyürek et al.，2023）来追寻假如的 mesa 优化算法的特色。

在图 3 所示的深度线性自留意力 Transformer 上，咱们可能看到两个探针都可能线性解码，解码功能随着序列长度以及收集深度的削减而削减。因此，根基优化发现了一种混合算法，该算法在原始 mesa-objective Lt (W) 的根基上逐层着落，同时改善 mesa 优化下场的条件数。这导致 mesa-objective Lt (W) 快捷着落。此外可能看到功能随着深度的削减而显明后退。

因此可能以为自回归 mesa-objective Lt (W) 的快捷着落是经由对于更好的预处置数据妨碍逐渐（跨层）mesa 优化来实现的。

图 3：对于构建的 token 输入妨碍逆向工程的多层 Transformer 磨炼。

这表明，假如 transformer 在构建的 token 上妨碍磨炼，它就会经由 mesa 优化妨碍预料。幽默的是，当直接给出序列元素时，transformer 会自行经由对于元素妨碍分组来妄想 token ，钻研团队将其称为「建树 mesa 数据集」。

论断

该钻研表明，当在尺度自回归目的下针对于序列预料使命妨碍磨炼时，Transformer 模子可能开拓基于梯度的推理算法。因此，在多使命、元学习配置下取患上的最新服从也可能转化到传统的自把守 LLM 磨炼配置中。

此外，该钻研还发现学患上的自回归推理算法可能在无需重新磨炼的情景下重新调解用途，以处置有把守的高下文学习使命，从而在单个不同框架内批注服从。

那末，这些与高下文学习（in-context learning）有甚么关连呢？该钻研以为：在自回归序列使命上磨炼 transformer 后，它实现为了适量的 mesa 优化，因此可能妨碍少样本（few-shot）高下文学习，而无需任何微调。

该钻研假如 LLM 也存在 mesa 优化，从而后退了其高下文学习能耐。幽默的是，该钻研还审核到，为 LLM 实用调解 prompt 也可能带来高下文学习能耐的本性性改善。

感兴趣的读者可能浏览论文原文，清晰更多钻研内容。

参考内容：

https://www.reddit.com/r/MachineLearning/co妹妹ents/16jc2su/r_uncovering_mesaoptimization_algorithms_in/

https://twitter.com/oswaldjoh/status/1701873029100241241