关于我们

质量为本、客户为根、勇于拼搏、务实创新

< 返回新闻公共列表

华中科技大学开源多模态大模型Monkey

发布时间:2023-12-09 15:33:04

要点:

1、Monkey 它是一种高性能多模态大模型,在处理复杂场景和视觉细节方面可以提供出色的性能。

2、Monkey 基于现有的视觉编辑器,无需从0预训练就可以构建大模型的输入分辨率能力,提高到896x1344像素。

3、Monkey 多层次描述生成方法可以为模型提供丰富的上下文信息,指导模型学习场景与对象之间的关系。

站长之家(ChinaZ.com)12月9日 消息:Monkey 它是华中科技大学和金山软件联合推出的高性能多模式大型模型。通过提高输入分辨率和引入多级描述生成方法,解决了现有模型在处理复杂场景和视觉细节方面的挑战。Monkey 它可以建立在现有视觉编辑器的基础上,不需要0预训练,大大提高了研发效率。

Monkey 多级描述生成方法可以为模型提供丰富的语境信息,指导模型学习场景和对象之间的关系。在16个不同的数据集中进行测试,Monkey 在图像字幕、视觉问答、文档分类等多模态任务方面取得了优异的成绩。Monkey 它具有超微妙的视觉信息感知和复杂的场景理解能力,具有广泛的应用空间。

image.png

开源地址:https://github.com/Yuliang-Liu/Monkey

论文地址:https://arxiv.org/abs/2311.06607v1

Monkey 培训数据集的质量是提高其能力的关键。研究人员生成数十万个高质量的图像描述数据,使用多个模型自动生成文本描述,整合不同模型的输出,提高大模型对图像细节的理解。

在模型选择方面,Monkey 采用开源模型 Qwen-VL 作为语言解码器和20亿参数 ViT-BigHuge 作为一种视觉编码器,它避免了重复预训练的资源浪费。为了提升 Monkey 采用多级描述生成、高分辨率编码和多任务训练三个训练阶段,生成更丰富的图像描述和理解复杂场景的能力。

Monkey 对图像字幕、通用视觉问答、文档导向问答等16个不同数据集进行了全面验证。在通用视觉问答任务中,Monkey 在多个数据集中显示出明显的优势。图像字幕任务,Monkey 在 TextCaps 数据集也表现出色,证明了其对图片中文本元素的多模态理解能力。

以文档为导向的问答任务,Monkey 在多个文档图像理解数据集中取得了良好的成绩。研究人员说,Monkey 广泛应用于医学影像、卫星图像等领域,并将继续优化 Monkey 模型的感知、联想、推理和泛化能力。

综上所述,Monkey 通过提高输入分辨率和引入多级描述生成方法,解决了复杂场景和视觉细节处理的挑战。Monkey 基于现有的视觉编辑器,无需从0开始预训练,具有高效、广泛的应用空间。在多个数据集中进行测试,Monkey 在多模态任务中取得了优异的成绩,表现出了超强的视觉信息感知和场景理解能力。未来,Monkey 将继续优化模型的感知、联想、推理和泛化能力,进一步提高模型在各个领域的应用价值。


/template/Home/Zkeys/PC/Static