新书8月30日消息,阿里通义千问发布第二代视觉语言模型Qwen-VL。其中,旗舰模型Qwen2-VL-72BAPI已推出阿里云百炼平台。
据了解,Qwen2-VL在多个权威评估中刷新了多模态模型的最佳结果,甚至超过了GPT-4o、Claude3.5-Sonnet等闭源模型。
2023年8月,通义千问开源第一代视觉语言理解模型Qwen-VL,成为开源社区最受欢迎的多模态模型之一。
短短一年,模型下载量就超过1000万次。目前,手机、终端等各种视觉识别场景中的多模式模型正在加速,开发人员和应用企业也特别关注Qwen-VL的升级迭代。
与上一代模型相比,Qwen2-VL的基本性能得到了全面提升。您可以阅读不同分辨率和长宽比的图片,Mathvista、DocVQA、RealWorldQA、MTVQA等基准测试创造了世界领先的表现。
此外,Qwen2-VL可以理解20分钟以上的长视频,支持基于视频的问答、对话、内容创作等应用。同时,凭借强大的视觉智能能力,可以独立操作手机和机器人。借助复杂的推理和决策能力,Qwen2-VL可以集成到手机、机器人等设备中,并根据视觉环境和文本指令自动操作。
该模型还可以理解图像视频中的多语言文本,包括汉语、英语、大多数欧洲语、日语、韩语、阿拉伯语、越南语等。
通义千问团队从大学综合题目、数学能力、文档表多语言文字图像理解、通用场景问答、视频理解六个方面对模型能力进行了评价,Agent 能力。
Qwen2-VL-72B 大部分指标都达到了最优,甚至超过了 GPT-4o 和 Claude3.5-Sonnet 等闭源模型在文档理解方面具有明显的优势,仅在综合性大学题目和GPT-4o方面 存在差距。
用户可通过阿里云百炼平台调用Qwen2-VL-72B的API:https://help.aliyun.com/zh/model-studio/developer-reference/qwen-vl-api
[本文结尾]如需转载,请务必注明出处:新书
责任编辑:朝晖
文章内容报告
还没有评论,来说两句吧...