什么?很多大模型的文科成绩超过一线,还是河南省最卷????
△图源:极客公园
是的,最近有这么一个大模型“高考大摸底”评价很受欢迎。
今年河南高考文科一线521分。根据这个评价,共有四个大模型大于或等于这个分数,其中前两个最值得关注:
GPT-4o:562分
字节豆包:542.5分
……
从结果上看,GPT-4o的表现仍处于领先状态,而在国产大模型方面,更显眼的成绩属于豆包。
而且语文、历史等科目的成绩甚至超过了GPT-4o。
这也让不少网友纷纷感慨:
人工智能文科成绩这么好,似乎在处理语言和逻辑方面还是很有优势的。
然而,毕竟,国内大型模型的竞争是如此激烈。这个评价的排名真的可靠吗?发布仅几个月的豆包真的有这样的力量吗?还有这个数学……又是怎么回事?
先看评价单
要回答上述问题,我们不妨先检查豆包在最新权威评估名单中的表现是否一致。
首先是由智源研究院发布的FlagEval(天秤座)。
其评价方法如下:
对于开源模型, FlagEval将综合概率选择和自由生成两种方式进行评价,对于闭源模型, FlagEval只采用自由生成的方式进行评价,两种评价方式不同参考。
在主观评价中,一些闭源模型拒绝回答少数问题,这些问题不包括在能力分数的计算中。
在“客观评测”在这个维度上,列表的结果如下:
不难看出,在这个维度下的FlagEval中,前四名的成绩与FlagEval相同“高考大摸底”排名一致。
大型模型仍然来自OpenAI。、字节跳动、百度和百川智能。
并且豆包在“知识运用”和“数学能力”GPT-4在两个维度上仍高于第一名。
如果将评估方法调整到评估方法“主观评测”,所以结果是这样的:
此时,百度的大模型跃居第一,而字节豆包依然稳居第二。
由此可见,无论是主观维度还是客观维度,前几名的排名都是和“高考大摸底”结果比较接近。
接下来,我们将邀请另一个权威评估——OpenCompass(司南)。
在最新的5月份榜单中,豆包的成绩也仅次于Opena家族的大模型。
同样,在细分中“语言”和“推理”在这两个维度中,豆包仍然超过了GPT-4o和GPT-4 Turbo。
还没有评论,来说两句吧...