声明:本文来自微信公众号 机器之心(ID:almosthuman2014),作者:机器之心,授权站长之家转载发布。
苹果也在推出自己的大型多模态基础模型。未来会根据这个模型推出相应的文生图产品吗?我们拭目以待。
自今年以来,苹果显然增加了生成式人工智能(GenAI)关注和投资。在2024年苹果股东大会上,苹果 CEO 蒂姆・库克说,今年将在这里 GenAI 该领域取得了重大进展。此外,在苹果宣布放弃10年的汽车制造项目后,一些汽车制造团队成员也开始转向 GenAI。
苹果向外界传达了各种各样的加注 GenAI 决心。目前多模态领域的决心。 GenAI 技术和产品非常受欢迎,尤其是 OpenAI 的 Sora 当然,苹果也想在这一领域取得成就。
今天,在一篇由多位作者签署的论文《MM1》中: Methods, Analysis & Insights from Multimodal LLM Pre-training》苹果正式宣布其多模态大模型研究成果 —— 这是一个高达30B的 多模态参数 LLM 系列。
论文地址:https://arxiv.org/pdf/2403.09611.pdf
该团队讨论了不同架构组件和数据选择的重要性。此外,通过选择图像编码器、视觉语言连接器和各种预训练数据,他们总结了几个关键的设计指南。具体来说,本文的贡献主要体现在以下几个方面。
首先,研究人员在模型架构决策和预训练数据选择方面进行了小规模的消融实验,并发现了几个有趣的趋势。建模设计的重要性按照图像分辨率、视觉编码器损失和容量、视觉编码器预训练数据等顺序排列。
其次,研究人员使用图像字幕、交错图像文本和纯文本数据三种不同类型的预训练数据。当涉及到少样本和纯文本性能时,交错和纯文本训练数据非常重要,而字幕数据对于零样本性能是最重要的。这些趋势正在监督微调(SFT)之后依然存在,说明微调后保留了预训练期间呈现的性能和建模决策。
最后,研究人员建造了 MM1,一个参数最高多模态模型系列可达300亿(其他为30亿、70亿), 它由密集模型和混合专家组成(MoE)不仅在预训练指标中实现了变体组成 SOTA,监督微调后,一系列具有竞争力的性能也可以在一系列多模态基准上保持。
具体来说,预训练模型 在少样本设置下的字幕和问答任务上,MM1比 Emu2、Flamingo、IDEFICS 表现更好。监督微调后的监督。 MM1在12个多模态基准上也很有竞争力。
由于大规模的多模态预训练,MM1在上下文预测、多图像和思维链推理方面表现良好。同样,MM1在指令调整后也表现出了较强的少样本学习能力。
方法概述:构造 MM1的秘诀
构建高性能 MLLM(Multimodal Large Language Model,多模态大型语言模型) 这是一种实践极高工作。虽然高水平的结构设计和培训过程很清楚,但具体的实现方法并不总是一目了然。在这项工作中,研究人员详细介绍了建立高性能模型的融合。他们讨论了三个主要的设计决策方向:
结构:研究人员研究了不同的预训练图像编码器,并探索了将军 LLM 各种与这些编码器连接的方法。
数据:研究人员考虑不同类型的数据及其相对混合权重。
研究人员讨论了如何训练 MLLM,包括超参数以及何时训练模型的哪些部分。
消融设置
因为训练规模大 MLLM 研究人员采用简化的消融设置,将消耗大量资源。消融的基本配置如下:
图像编码器:在 DFN-5B 和 VeCap-300M 上使用 CLIP loss 训练的 ViT-L/14模型;图像大小为336×336。
视觉语言连接器:C-Abstractor ,含144个图像 token。
预训练数据:混合字幕图像(45%)、交错图像文本文档(45%)和纯文本(10%)数据。
语言模型:1.2B 变压器解码器语言模型。
为了评估不同的设计决策,研究人员在各种设计中使用了零样本和少样本(4个和8个样本) VQA 以及图像描述任务的性能:COCO Cap tioning 、NoCaps 、TextCaps 、VQAv2、TextVQA 、VizWiz 、GQA 和 OK-VQA。
模型架构消融试验
研究人员分析了使 LLM 能够处理视觉数据的组件。具体来说,他们研究了如何(1)最佳对视觉编码器进行预训练,以及如何连接视觉特征 LLM 空间(见图3左)。
图像编码器预训练。在此过程中,研究人员主要消除了图像分辨率和图像编码器预训练目标的重要性。值得注意的是,与其他消融试验不同,研究人员使用了2.9B LLM(而不是1.2B),使用一些较大的图像编码器,以确保有足够的容量。
编码器经验:图像分辨率的影响最大,二是模型尺寸和训练数据的组成。如表1所示,图像分辨率从224提高到336,所有架构的所有指标都提高了约3%。将模型尺寸从 ViT-L 增加到 ViT-H,参数增加了一倍,但性能没有提高,通常不到1%。最后,添加 VeCap-300M (合成字幕数据集)后,在少样本场景中性能提高了1%以上。
视觉语言连接器和图像分辨率。该组件的目标是使用视觉表征转化为 LLM 空间。因为图像编码器是 ViT,因此,其输出要么是单一嵌入,要么是一组与输入图像片段对应的网格排列嵌入。因此,图像需要 token 将空间排列转换为 LLM 顺序排列。同时,实际图像 token 表征也应映射到嵌入空间中的单词。
VL 连接器体验:视觉 token 数量和图像分辨率最重要, VL 连接器的类型几乎没有影响。如图4所示,伴随着视觉 token 数量或 / 随着图像分辨率的增加,零样本和少样本的识别率将会增加。
预训练数据消融试验
一般来说,模型训练分为两个阶段:预训练和指令调整。前一阶段使用网络规模数据,后一阶段使用具体任务规划数据。以下是本文的预训练阶段,并详细说明了研究人员的数据选择(图3右)。
训练中常用的两种数据 MLLM:由图像和文本对描述组成的字幕数据;以及来自网络的图像 - 交错文档。表2是数据集的完整列表:
数据经验1:交错数据有助于提高少样本和纯文本的性能,而字幕数据可以提高零样本的性能。图5a 结果显示了交错数据和字幕数据的不同组合。
数据经验2:纯文本数据有助于提高少样本和纯文本性能。图5b 将纯文本数据与字幕数据相结合,可以提高少样本性能。
数据经验3:仔细混合图像和文本数据可以获得最佳多模态性能,保留较强的文本性能。图5c 在图像(标题和交错)和纯文本数据之间尝试了几个混合比例。
数据经验4:合成数据有助于学习少样本。图5d 所示,人工合成数据确实提高了几次学习的性能,绝对2.4%的价值分别为2.4% 和4%。
最后的模型和训练方法
研究人员收集了以前的消融结果,以确定 MM1多模态预训练的最终配方:
图像编码器:考虑到图像分辨率的重要性,研究人员使用378x378px 的 ViT-H 模型,并在 DFN-5B 上使用 CLIP 目标预训练;
因为视觉语言连接器: token 最重要的是,研究人员使用了144个 token 的 VL 连接器。实际架构似乎不太重要,研究人员选择了它 C-Abstractor;
数据:为了保持零样本和少样本的性能,研究人员使用了以下精心组合的数据:45% 图像 - 文本交错文档,45% 图像 - 文本对文档和10%的文本 纯文本文档。
为了提高模型的性能,研究人员将 LLM 大小扩大到3B、7B 和30B 所有模型的序列长度为4096、每个序列最多16幅图像,分辨率为378×在378的情况下,以512个序列的批量大小进行完全解冻预训练。使用所有模型 AXLearn 训练框架。
它们在小规模,9M、85M、302M 和1.2B 网格搜索学习率,利用对数空间的线性回归来推断从小模型到大模型的变化(见图6),结果是给定(非嵌入式)参数的数量 N 在这种情况下,预测最佳峰值学习率 η:
专家混合(MoE)扩展。在实验中,研究人员通过语言模型进一步探索 FFN 增加更多专家来扩展密集模型的方法。
将密集模型转换为 MoE,用密集语言解码器代替密集语言解码器 MoE 语言解码器。训练 MoE,研究人员采用与密集骨干4相同的训练参数和相同的训练设置,包括训练数据和训练 token。
关于多模态预训练的结果,研究人员通过适当的提示将预训练的模型放在上限和上限 VQA 评估任务。表3评估了零样本和少样本:
监督微调结果
最后,研究人员介绍了对预训练模型上方训练的监督微调(SFT)实验。
他们遵循 LLaVA-1.5和 LLaVA-NeXT,大约有100万人从不同的数据集中收集 SFT 样本。从直觉上看,更高的图像分辨率会带来更好的性能,研究人员也使用扩展到高分辨率的方法 SFT 方法。
监督微调结果如下:
表4展示了与 SOTA 比较情况,「-Chat」表示监督微调后 MM1模型。
首先,平均而言,MM1-3B-Chat 和 MM1-7B-Chat 优于所有列出的相同规模的模型。MM1-3B-Chat 和 MM1-7B-Chat 在 VQAv2、TextVQA、ScienceQA、MMBench 以及最近的基准测试(MMMU 和 MathVista)中等表现尤为突出。
其次,研究人员探索了两种方法 MoE 模型:3B-MoE(64位专家)和6B-MoE(32位专家)。苹果在几乎所有的基准测试中 MoE 模型比密集模型具有更好的性能。这表明 MoE 巨大的进一步扩张潜力。
第三,30B MM1-30B大小模型-Chat 在 TextVQA、SEED 和 MMMU 表现优于 Emu2-chat37BBBB 和 CogVLM-30B。与 LLaVA-NeXT MM1也取得了具有竞争力的综合性能。
不过,LLaVA-NeXT 不支持多图像推理,也不支持少样本提示,因为每个图像都表示发送到2880 LLM 的 token,而 MM1的 token 总数只有720个。这限制了一些涉及多图像的应用。
图7b 显示,输入图像分辨率 SFT 图7c评估指标平均性能的影响 随着预训练数据的增加,模型的性能不断提高。
图像分辨率的影响。图7b 输入图像分辨率显示了输入图像分辨率 SFT 评价指标平均性能的影响。
预训练的影响:图7c 随着预训练数据的增加,模型的性能不断提高。
更多研究细节,请参考原论文。
Copyright © 2013-2025 bacaiyun.com. All Rights Reserved. 八彩云 版权所有 八彩云(北京)网络科技有限公司 京ICP备2023023517号
本站文章全部采集于互联网,如涉及版权问题请联系我们删除.联系QQ:888798,本站域名代理为阿里云