豆包文科成绩超了一本线：为什么理科不行(为什么文科录取率不到理科的一半?)-新书

什么？很多大模型的文科成绩超过一线，还是河南省最卷？？？？

豆包文科成绩超了一本线：为什么理科不行
△图源：极客公园

是的，最近有这么一个大模型“高考大摸底”评价很受欢迎。

今年河南高考文科一线521分。根据这个评价，共有四个大模型大于或等于这个分数，其中前两个最值得关注:

GPT-4o：562分

字节豆包：542.5分

……

从结果上看，GPT-4o的表现仍处于领先状态，而在国产大模型方面，更显眼的成绩属于豆包。

而且语文、历史等科目的成绩甚至超过了GPT-4o。

这也让不少网友纷纷感慨：

人工智能文科成绩这么好，似乎在处理语言和逻辑方面还是很有优势的。

豆包文科成绩超了一本线：为什么理科不行

然而，毕竟，国内大型模型的竞争是如此激烈。这个评价的排名真的可靠吗？发布仅几个月的豆包真的有这样的力量吗？还有这个数学……又是怎么回事？

先看评价单

要回答上述问题，我们不妨先检查豆包在最新权威评估名单中的表现是否一致。

首先是由智源研究院发布的FlagEval(天秤座)。

其评价方法如下：

对于开源模型， FlagEval将综合概率选择和自由生成两种方式进行评价，对于闭源模型， FlagEval只采用自由生成的方式进行评价，两种评价方式不同参考。

在主观评价中，一些闭源模型拒绝回答少数问题，这些问题不包括在能力分数的计算中。

在“客观评测”在这个维度上，列表的结果如下：

豆包文科成绩超了一本线：为什么理科不行

不难看出，在这个维度下的FlagEval中，前四名的成绩与FlagEval相同“高考大摸底”排名一致。

大型模型仍然来自OpenAI。、字节跳动、百度和百川智能。

并且豆包在“知识运用”和“数学能力”GPT-4在两个维度上仍高于第一名。

如果将评估方法调整到评估方法“主观评测”，所以结果是这样的:

豆包文科成绩超了一本线：为什么理科不行

此时，百度的大模型跃居第一，而字节豆包依然稳居第二。

由此可见，无论是主观维度还是客观维度，前几名的排名都是和“高考大摸底”结果比较接近。

接下来，我们将邀请另一个权威评估——OpenCompass（司南）。

豆包文科成绩超了一本线：为什么理科不行

在最新的5月份榜单中，豆包的成绩也仅次于Opena家族的大模型。

同样，在细分中“语言”和“推理”在这两个维度中，豆包仍然超过了GPT-4o和GPT-4 Turbo。

豆包文科成绩超了一本线：为什么理科不行(为什么文科录取率不到理科的一半?)