快速技术12月12日消息,华中科技大学官方发文称,该校软件学院一队发布了多模态大模型Monkey。
该模型擅长图像描述和视觉问答,可以实现对世界的观察”,并对图像进行深入的问答交流和准确的描述。
据官方介绍,华科大Monkey模型在18个数据集的实验中表现出色,尤其是在图像描述和视觉问答任务方面,它超越了微软LLAVAVA等许多现有知名模型、谷歌的PALM-E、阿里的Mplug-owl等。
此外,Monkey在文本密集的问答任务中表现出显著的优势,甚至在某些样本中超越了GPT-4V,这是业界公认的领导者。
Monkey的一个显著特点是它出色的看图和说话能力。在详细描述任务中,Monkey展示了感知图像细节的能力,可以检测到其他多模态大模型忽略的内容。
另一个亮点是可以处理高达1344的分辨率 x 896像素图像,是目前其它多模态大型模型所能处理的最大尺寸的6倍。
据悉,目前业内能够处理的图片最大分辨率为448448像素。
值得一提的是,该团队已经在世界上最大的代码托管服务平台GitHub上开源了Monkey代码。
Copyright © 2013-2025 bacaiyun.com. All Rights Reserved. 八彩云 版权所有 八彩云(北京)网络科技有限公司 京ICP备2023023517号
本站文章全部采集于互联网,如涉及版权问题请联系我们删除.联系QQ:888798,本站域名代理为阿里云