根据SuperCLUE发布的中文大模型基准评价最新报告,新书7月10日消息,阿里通义千问开源模型Qwen2-72B-Instruct以其出色的表现在国内通用能力中排名第一,成为世界上最强的开源模型。
SuperClue报告详细披露了国内外33个大型模型的综合评价结果,Qwen2-72B在一级总分上以77分的高分与Claude-3.5-Sonnet并列第二,仅次于OpenAI的GPT-4o。
这个分数超过了百度文心一言4.0、讯飞星火V4.0、Llama-3-70B等开闭源大模型。
具体来说,Qwen2-72B在理科、文科、Hard三个维度的具体评价中表现出全面均衡的能力。
特别是在理科任务上,Qwen2-72B与GPT-4o的分差仅为5分,显示出其在计算、逻辑推理和代码评价方面的强大实力。
Qwen2-72B在文科任务和Hard任务上也表现不错,得分均达到76分,与GPT-4o的得分几乎相同。
特别值得一提的是,在端侧小模型评价中,Qwen2-7B的模型规模超过了上一代320亿参数的Qwen1.5-32B和130亿参数的Llama-3-8B-Instruct,获得排名第一的宝座。
这一结果不仅证明了Qwen2-7B在小尺寸模型中的终极性能,而且大大提高了端侧小模型着陆的可行性。
数据显示,到目前为止,Qwen系列模型的下载量已经超过2000万次,其应用场景涵盖了工业、金融、医疗、汽车等垂直领域。
[本文结尾]如需转载,请务必注明出处:新书
责任编辑:黑白
文章内容报告
还没有评论,来说两句吧...