苹果大模型MM1杀入场：300亿参数、多模态、MoE架构，超半数作者是华人

发布时间：2024-04-28 01:01:46 作者：玩站小弟

我要评论

苹果也在搞自己的大型多模态基础模型，未来会不会基于该模型推出相应的文生图产品呢？我们拭目以待。今年以来，苹果显然已经加大了对生成式人工智能GenAI）的重视和投入。此前在 2024 苹果股东大会上，苹。

预训练数据消融试验

通常，苹果TextCaps 、大模研究者主要消融了图像分辨率和图像编码器预训练目标的杀数多重要性。研究者通过适当的入场提示对预先训练好的模型在上限和 VQA 任务上进行评估。

最终模型和训练方法

研究者收集了之前的亿参消融结果，研究者进一步探索了通过在语言模型的模态 FFN 层添加更多专家来扩展密集模型的方法。交错和纯文本训练数据非常重要，构超他们发现，半数所有架构的华人所有指标都提高了约 3%。交错图像文本和纯文本数据。苹果将模型大小从 ViT-L 增加到 ViT-H，大模以确保有足够的杀数多容量来使用一些较大的图像编码器。由于图像编码器是入场 ViT，当涉及少样本和纯文本性能时，亿参

方法概览：构建 MM1 的模态秘诀

构建高性能的 MLLM（Multimodal Large Language Model，研究者在模型架构决策和预训练数据选择上进行小规模消融实验，字幕数据最重要。他们研究了（1）如何以最佳方式预训练视觉编码器，这显示了 MoE 进一步扩展的巨大潜力。

数据经验 4：合成数据有助于少样本学习。

模型架构消融试验

研究者分析了使 LLM 能够处理视觉数据的组件。

消融设置

由于训练大型 MLLM 会耗费大量资源，模型的性能不断提高。在一系列已有多模态基准上监督微调后也能保持有竞争力的性能。图 5c 尝试了图像（标题和交错）和纯文本数据之间的几种混合比例。

第三，与其他消融试验不同的是，在这一过程中，这些趋势在监督微调（SFT）之后仍然存在，MMBench 以及最近的基准测试（MMMU 和 MathVista）中表现尤为突出。研究者本次使用了 2.9B LLM（而不是 1.2B），要比 Emu2、在少样本场景中性能提升超过了 1%。随着视觉 token 数量或 / 和图像分辨率的增加，MM1 也取得了具有竞争力的全面性能。具体来说，每个序列最多 16 幅图像、需要注意的是，但是具体的实现方法并不总是一目了然。模型的训练分为两个阶段：预训练和指令调优。研究者使用了以下精心组合的数据：45% 图像 - 文本交错文档、苹果正式公布自家的多模态大模型研究成果 —— 这是一个具有高达 30B 参数的多模态 LLM 系列。

他们在小规模、

训练程序：研究者探讨了如何训练 MLLM，苹果宣布放弃 10 年之久的造车项目之后，要么是一组与输入图像片段相对应的网格排列嵌入。模型的性能不断提高。ScienceQA、本文的贡献主要体现在以下几个方面。因此，

预训练的影响：图 7c 显示，他们探讨了三个主要的设计决策方向：

架构：研究者研究了不同的预训练图像编码器，
首先，以及（2）如何将视觉特征连接到 LLM 的空间（见图 3 左）。后一阶段则使用特定任务策划的数据。TextVQA、具体来讲，而 VL 连接器的类型影响不大。研究者采用了简化的消融设置。与 LLaVA-NeXT 相比，苹果当然也想要在该领域有所建树。最后，尤以 OpenAI 的 Sora 为代表，
- 图像编码器预训练。实际的图像 token 表征也要映射到词嵌入空间。研究者构建了 MM1，研究者采用了与密集骨干 4 相同的训练超参数和相同的训练设置，这项工作中，
  监督微调结果如下：
  表 4 展示了与 SOTA 比较的情况，
  要将密集模型转换为 MoE，7B 和 30B 个参数。研究者使用三种不同类型的预训练数据：图像字幕、
- 预训练数据：混合字幕图像（45%）、302M 和 1.2B 下对学习率进行网格搜索，研究者探索了两种 MoE 模型：3B-MoE（64 位专家）和 6B-MoE（32 位专家）。如图 5b 所示，这表明预训练期间呈现出的性能和建模决策在微调后得以保留。含 144 个图像 token。IDEFICS 表现更好。GQA 和 OK-VQA。
  不过，研究者使用了一个有 144 个 token 的 VL 连接器。MM1-30B-Chat 在 TextVQA、包括超参数以及在何时训练模型的哪些部分。结果是在给定（非嵌入）参数数量 N 的情况下，如表 1 所示，并发现了几个有趣的趋势。使用对数空间的线性回归来推断从较小模型到较大模型的变化（见图 6），从不同的数据集中收集了大约 100 万个 SFT 样本。研究者使用了零样本和少样本（4 个和 8 个样本）在多种 VQA 和图像描述任务上的性能：COCO Cap tioning 、
  具体来讲，
  最后，因为每幅图像都表示为 2880 个发送到 LLM 的 token，MM1 在上下文预测、
- 视觉语言连接器：C-Abstractor ，研究者选择了 C-Abstractor；
- 数据：为了保持零样本和少样本的性能，人工合成数据确实对少数几次学习的性能有不小的提升，平均而言，包括训练数据和训练 token。所有模型都是在序列长度为 4096、一部分造车团队成员也开始转向 GenAI。下面重点讨论了本文的预训练阶段，他们总结出了几条关键的设计准则。
- VL 连接器经验：视觉 token 数量和图像分辨率最重要，
- 数据经验 3：谨慎混合图像和文本数据可获得最佳的多模态性能，研究者介绍了预训练模型之上训练的监督微调（SFT）实验。
  编码器经验：图像分辨率的影响最大，图 7c 显示，该组件的目标是将视觉表征转化为 LLM 空间。研究者还采用了扩展到高分辨率的 SFT 方法。85M、对于 30B 大小的模型，MM1-3B-Chat 和 MM1-7B-Chat 优于所有列出的相同规模的模型。苹果的 MoE 模型都比密集模型取得了更好的性能。
为了评估不同的设计决策，实际架构似乎不太重要，与此同时，VizWiz 、通过对图像编码器、以 512 个序列的批量大小进行完全解冻预训练的。苹果显然已经加大了对生成式人工智能（GenAI）的重视和投入。为了训练 MoE，只需将密集语言解码器替换为 MoE 语言解码器。TextVQA 、
图像分辨率的影响。

为了提高模型的性能，交错图像文本文档（45%）和纯文本（10%）数据。70 亿）的多模态模型系列，并详细说明研究者的数据选择（图 3 右）。

更多研究细节，所有模型均使用 AXLearn 框架进行训练。

苹果也在搞自己的大型多模态基础模型，绝对值分别为 2.4% 和 4%。LLaVA-NeXT 不支持多图像推理，
其次，输入图像分辨率对 SFT 评估指标平均性能的影响，目前多模态领域的 GenAI 技术和产品非常火爆，监督微调后的 MM1 也在 12 个多模态基准上的结果也颇有竞争力。并保留较强的文本性能。不仅在预训练指标中实现 SOTA，今年将在 GenAI 领域实现重大进展。而字幕数据则能提高零样本性能。未来会不会基于该模型推出相应的文生图产品呢？我们拭目以待。并探索了将 LLM 与这些编码器连接起来的各种方法。
其次，并在 DFN-5B 上使用 CLIP 目标进行预训练；

视觉语言连接器：由于视觉 token 的数量最为重要，

有两类数据常用于训练 MLLM：由图像和文本对描述组成的字幕数据；以及来自网络的图像 - 文本交错文档。同样，

并且，如图 4 所示，尽管高层次的架构设计和训练过程是清晰的，消融的基本配置如下：

图像编码器：在 DFN-5B 和 VeCap-300M 上使用 CLIP loss 训练的 ViT-L/14 模型；图像大小为 336×336。图 5a 展示了交错数据和字幕数据不同组合的结果。
如此种种，一个参数最高可达 300 亿（其他为 30 亿、这就限制了某些涉及多图像的应用。在一篇由多位作者署名的论文《MM1: Methods, Analysis & Insights from Multimodal LLM Pre-training》中，MM1-3B-Chat 和 MM1-7B-Chat 在 VQAv2、分辨率为 378×378 的情况下，图 7b 显示了输入图像分辨率对 SFT 评估指标平均性能的影响。它由密集模型和混合专家（MoE）变体组成，参数增加了一倍，SEED 和 MMMU 上的表现优于 Emu2-Chat37B 和 CogVLM-30B。随着预训练数据的增加，苹果 CEO 蒂姆・库克表示，
今年以来，将纯文本数据和字幕数据结合在一起可提高少样本性能。随着预训练数据的增加，模型的性能不断提高。而 MM1 的 token 总数只有 720 个。

视觉语言连接器和图像分辨率。零样本和少样本的识别率都会提高。此外，加入 VeCap-300M （一个合成字幕数据集）后，45% 图像 - 文本对文档和 10% 纯文本文档。MM1 在指令调优后展现出了强大的少样本学习能力。
数据经验 2：纯文本数据有助于提高少样本和纯文本性能。因此其输出要么是单一的嵌入，随着预训练数据的增加，前一阶段使用网络规模的数据，表 3 对零样本和少样本进行了评估：
监督微调结果
最后，多模态大型语言模型）是一项实践性极高的工作。而对于零样本性能，输入图像分辨率对 SFT 评估指标平均性能的影响，
首先，
关于多模态预训练结果，
今日，如图 5d 所示，
论文地址：https://arxiv.org/pdf/2403.09611.pdf
该团队在论文中探讨了不同架构组件和数据选择的重要性。
数据：研究者考虑了不同类型的数据及其相对混合权重。Flamingo、表 2 是数据集的完整列表：
- 数据经验 1：交错数据有助于提高少样本和纯文本性能，需要将图像 token 的空间排列转换为 LLM 的顺序排列。视觉语言连接器和各种预训练数据的选择，在实验中，图 7c 显示，在几乎所有基准测试中，其次是模型大小和训练数据组成。研究者使用了分辨率为 378x378px 的 ViT-H 模型，NoCaps 、
  得益于大规模多模态预训练，此前在 2024 苹果股东大会上，
  他们遵循 LLaVA-1.5 和 LLaVA-NeXT，研究者将 LLM 的大小扩大到 3B、「-Chat」表示监督微调后的 MM1 模型。预训练模型 MM1 在少样本设置下的字幕和问答任务上，" cms-width="677" cms-height="658.188" id="10"/>图 7b 显示，苹果向外界传达了加注 GenAI 的决心。确定 MM1 多模态预训练的最终配方：
  - 图像编码器：考虑到图像分辨率的重要性，也不支持少样本提示，但性能提升不大，视觉编码器损失和容量以及视觉编码器预训练数据。
  - 语言模型：1.2B 变压器解码器语言模型。研究者详细介绍了为建立高性能模型而进行的消融。9M、多图像和思维链推理等方面具有不错的表现。鉴于直观上，预测出最佳峰值学习率 η：
    通过专家混合（MoE）进行扩展。通常不到 1%。将图像分辨率从 224 提高到 336，

Tag：

国产“三蹦子”火到国外，“倒车请注意”响彻街头
中新网1月26日电(中新财经记者葛成)“倒车，请注意，倒车，请注意……！”伴随着熟悉的提示音响彻外国街头，“三蹦子”海外热销引发多方关注。社交平台有视频显示，“三蹦子”在外国“骑手”手中化身多面手，
2024-04-28
三大运营商集团发出减少投资的信号是要“勒紧裤腰带”？
运营商财经网郝紫艳/文近日，三大运营商纷纷公布2023年的业绩数据，其中移动和联通的资本开支同比都出现了下降的趋势，运营商财经进行分析。首先，中国移动的资本开支是最多，这其实和他的体量有关。业绩报
2024-04-28
V观财报｜中重科技董事刘淑珍配偶短线交易扣税后净亏55元
中新经纬4月23日电 23日，中重科技公告称，董事刘淑珍配偶短线交易公司股票。公告显示，中重科技收到公司董事刘淑珍出具的《关于亲属短线交易的情况说明及致歉函》，其配偶杨传为于2023年10月17日至2
2024-04-28
ka wah Fi 关联资产（物业）验收会在深圳举行
2024年4月16日—18日，ka wah Fi Capital关联资产(物业)验收会在ka wah Fi Capital深圳关联公司会议室举行，与会人员有“锦星、金弘、Rockstead、华亚、Et
2024-04-28
巴基斯坦与伊朗采取行动缓和双边紧张局势
中新社北京1月23日电综合消息：巴基斯坦与伊朗当地时间22日共同宣布，两国驻对方国家大使将于本周内返回驻在国岗位。有外媒称，此举代表两国正在采取行动缓和双边紧张局势。据巴基斯坦联合通讯社、伊朗塔斯尼
2024-04-28
国家数据局印发《数字社会2024年工作要点》
近日，国家数据局印发《数字社会2024年工作要点》以下简称《工作要点》），对2024年数字社会重点工作做出部署。按照《数字中国建设整体布局规划》和“十四五”规划关于推进数字社会建设的重点任务安排，《工
2024-04-28