阿里通义千问发布最强视觉理解模型Qwen2-VL-72B！可理解20分钟以上长视频-新书

新书8月30日消息，阿里通义千问发布第二代视觉语言模型Qwen-VL。其中，旗舰模型Qwen2-VL-72BAPI已推出阿里云百炼平台。

据了解，Qwen2-VL在多个权威评估中刷新了多模态模型的最佳结果，甚至超过了GPT-4o、Claude3.5-Sonnet等闭源模型。

2023年8月，通义千问开源第一代视觉语言理解模型Qwen-VL，成为开源社区最受欢迎的多模态模型之一。

短短一年，模型下载量就超过1000万次。目前，手机、终端等各种视觉识别场景中的多模式模型正在加速，开发人员和应用企业也特别关注Qwen-VL的升级迭代。

与上一代模型相比，Qwen2-VL的基本性能得到了全面提升。您可以阅读不同分辨率和长宽比的图片，Mathvista、DocVQA、RealWorldQA、MTVQA等基准测试创造了世界领先的表现。

此外，Qwen2-VL可以理解20分钟以上的长视频，支持基于视频的问答、对话、内容创作等应用。同时，凭借强大的视觉智能能力，可以独立操作手机和机器人。借助复杂的推理和决策能力，Qwen2-VL可以集成到手机、机器人等设备中，并根据视觉环境和文本指令自动操作。

该模型还可以理解图像视频中的多语言文本，包括汉语、英语、大多数欧洲语、日语、韩语、阿拉伯语、越南语等。

通义千问团队从大学综合题目、数学能力、文档表多语言文字图像理解、通用场景问答、视频理解六个方面对模型能力进行了评价，Agent 能力。

Qwen2-VL-72B 大部分指标都达到了最优，甚至超过了 GPT-4o 和 Claude3.5-Sonnet 等闭源模型在文档理解方面具有明显的优势，仅在综合性大学题目和GPT-4o方面存在差距。

用户可通过阿里云百炼平台调用Qwen2-VL-72B的API：https://help.aliyun.com/zh/model-studio/developer-reference/qwen-vl-api

阿里通义千问发布最强视觉理解模型Qwen2-VL-72B！可理解20分钟以上长视频

[本文结尾]如需转载，请务必注明出处：新书

责任编辑：朝晖

文章内容报告

阿里通义千问发布最强视觉理解模型Qwen2-VL-72B！可理解20分钟以上长视频