要点:
苹果多模态大型语言模型发布MM1,采用MoE架构,超过一半的作者是中国人,参数达到300亿。
MM1详细讨论了模型架构、预训练数据选择和训练方法,并在多项基准测试中表现出竞争力。
微调结果显示,MM1的预训练和监督可以通过不同的数据和训练策略获得更好的性能,MOE模型进一步扩大了潜力。
站长之家(ChinaZ.com)3月15日 消息:苹果公司最新发布了一款名为MM1的大型多模态基础模型,参数300亿,采用MOE结构,作者中有一半以上是中国人。该模型在多模态领域具有重要意义,这可能表明苹果未来将推出与此相关的产品。
自今年以来,苹果显著增加了生成人工智能(GenAI)该领域的投资反映了苹果在GenAI领域取得重大进展的决心。据报道,一些苹果转向GenAI的团队最初从事汽车制造项目,但现在他们也开始致力于GenAI领域的研发。
论文地址:https://arxiv.org/pdf/2403.09611.pdf
MM1的发布引起了广泛的关注。根据论文,该模型采用了MOE变体,并在预训练指标和多个多模态基准测试中处于领先水平。研究人员通过一些金融测试,讨论了模型架构、预训练数据选择和训练程序的重要性。他们发现图像分辨率、视觉编码器损失和预训练数据在建模设计中起着关键作用。
在选择预训练数据方面,研究人员发现了几个重要的经验:交错数据有助于提高少样本和纯文本性能,而字幕数据对提高零样本性能起着重要作用。
此外,纯文本数据对于提高少样本和纯文本性能也非常重要。通过合理混合图像和文本数据,可以获得最佳多模态性能,保留较强的文本性能。研究人员还发现,合成数据有助于学习少样本。
最后,研究人员确定了MM1的最终配方,包括图像编码器、视觉语言连接器和预训练数据的选择。它们还将LLM扩展到3B、通过专家混合7B和30B参数(MoE)模型进一步扩展。在监督微调实验中,MM1在多项基准测试中具有竞争力,MOE模型在几乎所有基准测试中都优于密集型模型。
MM1的发布标志着苹果在多模态领域的重要进展,也为苹果未来可能推出的相关产品奠定了技术基础。该研究的结果对促进生成人工智能领域的发展具有重要意义,值得业界密切关注。
Copyright © 2013-2025 bacaiyun.com. All Rights Reserved. 八彩云 版权所有 八彩云(北京)网络科技有限公司 京ICP备2023023517号
本站文章全部采集于互联网,如涉及版权问题请联系我们删除.联系QQ:888798,本站域名代理为阿里云