下载客户端

何恺明新作：异构预训练 Transformers；谷歌提出新型注意力机制｜国庆假期热门大模型论文

2024-10-09 14:36

来源：澎湃新闻·澎湃号·湃客

国庆假期值得关注的大模型前沿论文

微软、清华团队提出 Diff Transforme

Presto！: 已知最快的高质量文生音频方法

UC伯克利新研究：agent 的多视角参照交流

谷歌提出新型注意力机制 Selective Attention

高能效语言模型只需要一个“加法”

港大、字节团队提出分钟级长视频生成模型 Loong

清华团队提出高效精确的注意力量化方法 SageAttention

加州大学、Meta 提出模型合并新方法

耶鲁大学团队：智能源于预测复杂性的能力

Illustrious：一个 SOTA 动漫图像生成模型

Embodied-RAG：用于检索和生成的通用非参数具身记忆

何恺明新作：异构预训练 Transformers

字节团队提出残差连接替代方案 hyper-connections

苹果团队推出多模态大语言模型 MM1.5

PhysGen：更懂物理的“图生视频”新方法

智源研究院：基于下一个 token 预测的多模态模型 Emu3

想要第一时间获取每日最新大模型热门论文？

点击阅读原文，查看“2024必读大模型论文”

ps：我们日常会分享日报、周报，后续每月也会出一期月报，敬请期待～

微软、清华团队提出 Diff Transformer

Transformer 往往会将注意力过度分配到不相关的上下文中。在这项工作中，来自微软研究院和清华大学的研究团队提出了 Diff Transformer，它可以在消除噪音的同时放大对相关上下文的注意力。

具体来说，差分注意力机制将注意力分数计算为两个独立的 softmax 注意力图之间的差值。减法消除了噪音，促进了稀疏注意力模式的出现。语言建模的实验结果表明，Diff Transformer 在扩大模型规模和训练 token 的各种情况下都优于 Transformer。更有趣的是，它在实际应用中具有显著优势，如长上下文建模、关键信息检索、幻觉缓解、上下文学习和减少激活异常值。Diff Transformer 可以减少无关上下文的干扰，从而在问答（QA）和文本摘要中减轻幻觉。在上下文学习方面，Diff Transformer 不仅提高了准确性，而且对被认为是长期鲁棒性问题的顺序变异也更有鲁棒性。

研究结果表明，Diff Transformer 是推进大语言模型（LLM）的一种高效、有潜力的架构。

论文链接：

https://arxiv.org/abs/2410.05258

Presto！: 已知最快的高质量文生音频方法

尽管基于扩散的文生音频（TTM）方法取得了进步，但高效、高质量的生成仍然是一项挑战。来自加利福尼亚大学圣迭戈分校和 Adobe 研究院的研究团队推出了 Presto！，一种通过减少采样步骤和每步成本来加速基于分数的扩散 transformers 推理的方法。

为了减少步骤，他们为 EDM 系列扩散模型开发了一种新的基于分数的分布匹配蒸馏（DMD）方法，这是第一种基于 GAN 的 TTM 蒸馏方法。为了降低每一步的成本，他们对最近的层蒸馏法进行了简单但强大的改进，通过更好地保存隐藏状态方差来提高学习效率。最后，他们将步骤和层蒸馏方法结合在一起，形成了一种双重方法。

他们对步进和层蒸馏法进行了独立评估，结果表明每种方法都能产生同类最佳的性能。他们的综合蒸馏法可以生成具有更好多样性的高质量输出，将他们的基础模型加速 10-18 倍（32 秒单声道/立体声 44.1kHz 的延迟时间为 230/435ms，比同类 SOTA 快 15 倍）——这是已知最快的高质量 TTM。

论文链接：

https://arxiv.org/abs/2410.05167

项目地址：

https://presto-music.github.io/web/.

UC伯克利新研究：agent 的多视角参照交流

加州大学伯克利分校团队推出了在多智能体环境中生成和理解参照表达的任务和数据集。在这项任务中，共享场景中的两个智能体必须考虑到对方的视觉视角（可能与自己的视角不同），以生成和理解场景中物体的参照以及它们之间的空间关系。

他们收集了一个包含 2970 个人类撰写的参考表达的数据集，每个数据集都与人类的理解判断相匹配，并评估了作为说话者和听话者与人类伙伴配对的自动模型的性能，发现模型在参考生成和理解方面的性能都落后于人类智能体配对的性能。最后，他们实验性地训练了一个开放权重的说话者模型，该模型在与听话者配对时具有成功交流的证据，从而使交流成功率从 58.9% 提高到 69.3%，甚至超过了最强的专有模型。

论文链接：

https://arxiv.org/abs/2410.03959

谷歌提出新型注意力机制 Selective Attention

注意力上下文中不需要的元素会降低性能。谷歌研究院团队提出了“选择性注意力”（Selective Attention），这是对标准注意力机制的一种简单的无参数改变，可以减少对不需要元素的注意力。

在各种模型大小和上下文长度条件下，选择性注意力都能提高语言建模性能。例如，在具有选择性注意力的 C4 上以语言建模为目标进行训练的一系列 transformers，其性能与标准 transformer 相当，而标准 transformer 的注意力模块中的头和参数要多出约 2 倍。

选择性注意力还可以减小注意力上下文缓冲区的大小，从而显著降低推理过程中的内存和计算需求。例如，在 C4 上训练的参数为 100M 的 transformer，其上下文大小分别为 512、1024 和 2048，在验证困惑度相同的情况下，如果配备选择性注意力，其注意力模块所需的内存分别比不配备选择性注意力的 transformer 少 16 倍、25 倍和 47 倍。

论文链接：

https://arxiv.org/abs/2410.02703

高能效语言模型只需要一个“加法”

大型神经网络的大部分计算耗费在浮点张量乘法上。BitEnergy AI 研究团队发现浮点乘法器可以用一个高精度的整数加法器来近似。他们提出了线性复杂度乘法 L-Mul 算法，用整数加法运算近似浮点数乘法。与 8 位浮点乘法相比，新算法所耗费的计算资源要少得多，但精度却更高。与 8 位浮点数乘法相比，所提出的方法能达到更高的精度，但所消耗的位级计算资源却大大减少。由于与整数加法运算相比，浮点数乘法需要的能量要高得多，因此在张量处理硬件中应用 L-Mul 运算有可能减少元素浮点张量乘法 95% 的能量成本和点乘法 80% 的能量成本。

他们计算了 L-Mul 的理论误差期望值，并在一系列文本、视觉和符号任务中对该算法进行了评估，包括自然语言理解、结构推理、数学和常识性问题解答。他们的数值分析实验与理论误差估计相吻合，表明具有 4 位尾数的 L-Mul 算法可达到与 float8_e4m3 乘法相当的精度，而具有 3 位尾数的 L-Mul 算法则优于 float8_e5m2。对流行基准的评估结果表明，直接将 L-Mul 应用于注意力机制几乎是无损的。他们进一步证明，在 transformer 模型中，用 3 位尾数的 L-Mul 代替所有浮点乘法，在微调和推理中实现了与使用 float8_e4m3 作为累加精度相当的精度。

论文链接：

https://arxiv.org/abs/2410.00907

港大、字节团队提出分钟级长视频生成模型 Loong

生成内容丰富的分钟级长视频依然充满挑战。在自然语言处理领域，自回归大语言模型（LLM）在生成连贯的长 token 序列方面取得了巨大成功，而自回归 LLM 在视频生成方面的探索却仅限于生成几秒钟的短视频。

在这项工作中，来自香港大学和字节跳动的研究团队深入分析了阻碍基于自回归 LLM 的视频生成器生成长视频的挑战。根据观察和分析结果，他们提出了一种新的基于自回归 LLM 的视频生成器——Loong，其可以生成分钟级长视频。

具体来说，他们将文本 token 和视频 token 建模为自回归 LLM 的统一序列，并从头开始训练模型。他们提出了从短到长的渐进式训练和损失再加权方案，从而缓解长视频训练中的损失不平衡问题。他们还进一步研究了推理策略，包括视频 token 重新编码和采样策略，以减少推理过程中的错误积累。结果表明，Loong 可以在 10 秒视频上进行训练，并可扩展到生成以文本提示为条件的分钟级长视频。

论文链接：

https://arxiv.org/abs/2410.02757

项目地址：

https://epiphqny.github.io/Loong-video/

清华团队提出高效精确的注意力量化方法

Transformer 架构在各种模型中占主导地位。作为 transformer 的核心，注意力的计算复杂度为 O(N^2)，而线性变换的计算复杂度为 O(N)。在处理大长度序列时，注意力成为最耗时的部分。虽然量化已被证明是加速模型推理的有效方法，但现有的量化方法主要侧重于优化线性层。

为此，清华大学团队首先详细分析了注意力量化的可行性。随后，他们提出了一种高效、精确的注意力量化方法 SageAttention。他们方法的 OPS（每秒操作数）分别比 FlashAttention2 和 xformers 高出约 2.1 倍和 2.7 倍。SageAttention 的准确性也优于 FlashAttention3。综合实验证实，他们的方法在包括大语言处理、图像生成和视频生成在内的各种模型中几乎没有端到端指标损失。

论文链接：

https://arxiv.org/abs/2410.02367

项目地址：

https://github.com/thu-ml/SageAttention

加州大学、Meta 提出模型合并新方法

模型合并（如模型汤）是指将具有相同架构的不同模型合并在一起而无需进一步训练的做法。来自加州大学洛杉矶分校和 Meta 的研究团队提出了一种模型合并方法，解决了针对非英语语言的目标任务微调大语言模型（LLMs）的困难，因为在非英语语言中往往无法获得特定任务的数据。

他们将重点放在数学推理上，在没有语言数学数据的情况下，通过组合语言和数学能力来促进跨语言迁移。从同一个预训练模型开始，他们分别对英语数学指令数据和目标语言通用指令数据的“专家”进行微调。然后，他们将数学“专家”的顶部和底部 transformer 层直接替换为语言“专家”层，从而提高了目标语言中的数学成绩。

在数学基准 MGSM 上，合并后的模型在数学教学数据稀缺的四种主要语言中的表现比单个专家和其他合并方法高出 10%。此外，这种层交换简单、成本低廉、直观，因为它是基于对每个“专家”微调过程中最重要参数变化的解释性分析。以这种方式成功地重新组合 LLM 进行跨语言转移的能力，为未来结合模型专业知识、创建模块化解决方案和跨语言转移推理能力提供了可能性。

论文链接：

https://arxiv.org/abs/2410.01335

耶鲁大学团队：智能源于预测复杂性的能力

来自耶鲁大学的研究团队及其合作者通过研究基于规则的系统的复杂性如何影响为预测这些规则而训练的模型的能力，来探索人工系统中智能行为的出现。

他们的研究重点是基本细胞自动机（ECA），这是一种简单但功能强大的一维系统，能产生从琐碎到高度复杂的各种行为。通过在不同的 ECA 上训练不同的大语言模型（LLMs），他们评估了规则行为的复杂性与 LLMs 所表现出的智能之间的关系，这反映在它们在下游任务中的表现上。

研究结果表明，规则的复杂度越高，模型表现出的智能就越高，这一点可以从它们在推理和国际象棋走棋预测任务中的表现得到证明。无论均匀系统还是周期系统，通常还有高度混沌的系统，都会导致较差的下游表现，突出了有利于智能复杂性的“甜点”。他们推测，智能源于预测复杂性的能力，而创造智能可能只需要接触复杂性。

论文链接：

https://arxiv.org/abs/2410.02536

Illustrious：一个 SOTA 动漫图像生成模型

在这项工作中，Onoma AI 团队分享了在他们的文生图动漫图像生成模型 Illustrious 中实现“SOTA”级质量的见解。为了实现高分辨率、动态色彩范围图像和高还原能力，他们重点关注了模型改进的三个关键方法。首先，他们深入研究了 batch 大小和 dropout 控制的意义，这可以更快地学习基于可控 token 的概念激活。其次，他们提高了图像的训练分辨率，这影响了在更高分辨率下对人物解剖结构的准确描绘，通过适当的方法将其生成能力扩展到 2000 万像素以上。最后，他们提出了细化的多级标题，涵盖所有标签和各种自然语言标题，作为模型开发的关键因素。

通过广泛的分析和实验，Illustrious 在动漫风格方面展示了“SOTA”级性能，超越了插图领域中广泛使用的模型，并以开源的特性推动了更简便的定制和个性化。

论文链接：

https://arxiv.org/abs/2409.19946

Embodied-RAG：用于检索和生成的通用非参数具身记忆

机器人的探索和学习能力是无限的，但所有这些知识都需要可搜索和可操作。在语言研究领域，检索增强生成（RAG）已成为大规模非参数知识的工作场所，但现有技术并不能直接应用于多模态、数据高度相关、感知需要抽象化的具身领域。

为了应对这些挑战，卡内基梅隆大学团队推出了 Embodied-RAG，这是一个框架，通过非参数内存系统增强了具身智能体的基础模型，该系统能够自主构建用于导航和语言生成的分层知识。Embodied-RAG 可在不同环境和查询类型中处理各种空间和语义分辨率，无论是特定对象还是环境的整体描述。Embodied-RAG 的核心记忆结构是语义森林，存储不同详细程度的语言描述。这种分层结构使系统能够在不同的机器人平台上高效地生成对上下文敏感的输出。

他们证明，Embodied-RAG 能有效地将 RAG 与机器人领域衔接起来，成功地处理了 19 种环境中的 200 多项解释和导航查询，突出了它作为通用型非参数系统的前景。

论文链接：

https://arxiv.org/abs/2409.18313

项目地址：

https://quanting-xie.github.io/Embodied-RAG-web/

何恺明新作：异构预训练 Transformers

目前，训练通用机器人模型的障碍之一是异质性（heterogeneity）。以往的机器人学习方法通常是收集数据，针对一项任务用一种特定的具身形式进行训练，这种方法成本高昂，而且容易造成过拟合。

在这项工作中，何恺明团队旨在通过对机器人数据进行异构预训练来大规模学习策略表征的问题。他们提出了“异构预训练 Transformers”（HPT），该 Transformers 可对策略神经网络的大型可共享主干进行预训练，以学习与任务和实施无关的共享表征。这种通用架构将来自不同实施方案的特定本体感觉和视觉输入对齐到一个简短的 token 序列，然后对这些 token 进行处理，以映射到不同任务的机器人控制中。

利用最近的大规模多具身真实世界机器人数据集以及模拟、部署机器人和人类视频数据集，他们研究了跨异质性的预训练策略。他们在 52 个数据集的范围内进行实验，研究训练目标的扩展行为。在多个模拟器基准和真实世界设置中，HPT 的表现优于多个基准，并在未见任务上将微调策略性能提高了 20% 以上。

论文链接：

https://arxiv.org/abs/2409.20537

项目地址：

https://liruiw.github.io/hpt/

字节团队提出残差连接替代方案 hyper-connections

字节跳动团队提出了 hyper-connections，这是一种简单而有效的方法，可以替代残差连接。这种方法专门解决了残差连接变体中常见的缺点，例如梯度消失和表征崩溃之间的跷跷板效应。从理论上讲，hyper-connections 允许网络调整不同深度特征之间的连接强度，并动态地重新排列层。

他们进行了大语言模型（包括稠密和稀疏模型）的预训练实验，结果表明 hyper-connections 比残差连接的性能有显著提高。在视觉任务上进行的其他实验也证明了类似的改进。他们预计，这种方法将广泛适用于各种人工智能问题，并从中受益。

论文链接：

https://arxiv.org/abs/2409.19606

苹果团队推出多模态大语言模型 MM1.5

在这项工作中，苹果团队推出了一个全新的多模态大语言模型（MLLM）系列——MM1.5，旨在增强对文本丰富的图像的理解、视觉指代和接地，以及多图像推理的能力。

在 MM1 架构的基础上，MM1.5 采用了以数据为中心的模型训练方法，在整个模型训练生命周期中系统地探索各种数据混合物的影响。其中包括用于持续预训练的高质量 OCR 数据和合成字幕，以及用于监督微调的优化视觉指令微调数据混合物。他们的模型参数范围从 1B 到 30B，包括稠密型和混合专家型（MoE）变体，并证明了精心的数据整理和训练策略即使在小范围内也能产生强大的性能（1B 和 3B）。

此外，他们还介绍了两个专门的变体：MM1.5-Video 专为视频理解而设计，MM1.5-UI 专为移动 UI 理解而定制。通过广泛的实证研究和分析，他们详细了解了最终设计所依据的训练过程和决策，为未来的 MLLM 开发研究提供了经验。

论文链接：

https://arxiv.org/abs/2409.20566

PhysGen：更懂物理的“图生视频”新方法

伊利诺伊大学厄巴纳-香槟分校团队提出了 PhysGen，这是一种新颖的图像到视频生成方法，可转换单个图像和输入条件（例如，施加到图像中对象的力和扭矩），以生成逼真、物理上合理且时间一致的视频。他们的主要见解是将基于模型的物理仿真与数据驱动的视频生成过程集成，从而实现合理的图像空间动力学。

PhysGen 具有三个核心组件：（i）图像理解模块，可有效捕获图像的几何形状、材料和物理参数；（ii）利用刚体物理学和推断参数来模拟真实行为的图像空间动力学仿真模型；（iii）基于图像的渲染和优化模块，该模块利用生成式视频扩散来生成具有模拟运动的逼真视频片段。生成的视频在物理和外观上都是逼真的，甚至可以精确控制，通过定量比较和全面的用户研究，展示了与现有数据驱动的图像到视频生成工作相比的卓越结果。

PhysGen 生成的视频可用于各种下游应用，例如将图像转换为逼真的动画，或允许用户与图像交互并创建各种动态。

论文链接：

https://arxiv.org/abs/2409.18964

项目地址：

https://stevenlsw.github.io/physgen/

智源研究院：基于下一个 token 预测的多模态模型 Emu3

虽然下一个 token 预测被认为是通向通用人工智能（AGI）的一个有前途的路径，但它在多模态任务中却一直难以取得突破，这些任务仍然由扩散模型（如 Stable Diffusion）和组合方法（如结合 LLM 的 CLIP）所主导。

在这项工作中，北京智源人工智能研究院团队提出了一套全新的 SOTA 多模态模型 Emu3，其仅通过下一个 token 预测进行训练。通过将图像、文本和视频 token 化为离散空间，他们在多模态序列的混合上从头开始训练一个 transformer。在生成和感知任务中，Emu3 的表现都优于几种成熟的特定任务模型，超过了 SDXL 和 LLaVA-1.6 等旗舰模型，同时无需使用扩散或合成架构。Emu3 还能通过预测视频序列中的下一个 token 生成高保真视频。他们简化了复杂的多模态模型设计，只关注一个焦点：token，从而在训练和推理过程中释放出巨大的扩展潜力。

研究结果表明，下一个 token 预测是构建语言之外的通用多模态智能的一条有效途径。

论文链接：

https://arxiv.org/abs/2409.18869