华科大发布了人工智能大型猴子，部分超过GPT-4

新闻公告

发布时间：2023-12-25 11:01:29

快速技术12月12日消息，华中科技大学官方发文称，该校软件学院一队发布了多模态大模型Monkey。

该模型擅长图像描述和视觉问答，可以实现对世界的观察”，并对图像进行深入的问答交流和准确的描述。

华科大发布AI大模型猴子：部分超越GPT-4

据官方介绍，华科大Monkey模型在18个数据集的实验中表现出色，尤其是在图像描述和视觉问答任务方面，它超越了微软LLAVAVA等许多现有知名模型、谷歌的PALM-E、阿里的Mplug-owl等。

此外，Monkey在文本密集的问答任务中表现出显著的优势，甚至在某些样本中超越了GPT-4V，这是业界公认的领导者。

Monkey的一个显著特点是它出色的看图和说话能力。在详细描述任务中，Monkey展示了感知图像细节的能力，可以检测到其他多模态大模型忽略的内容。

另一个亮点是可以处理高达1344的分辨率 x 896像素图像，是目前其它多模态大型模型所能处理的最大尺寸的6倍。

据悉，目前业内能够处理的图片最大分辨率为448448像素。

值得一提的是，该团队已经在世界上最大的代码托管服务平台GitHub上开源了Monkey代码。