AI参加2024高考，他们都是什么水平

塔林

2024-6-28

科技

看来把AI放在高考大省的河南，上个文科二本还是不成问题的。

但是理科水平真的上个大专都费劲。我们可以看到数学的成就就很差，突破60分的就只有三个。

让我们看看理综，几个都难。

大模型对语言的理解看来是进化了很多，但是对逻辑的分析能力还是差强人意，但这要不之前还是好多了，据说最初的AI大模型连小学应用题都做不出来。

2024年6月24日，在极客公园最新发布的高考新课标Ⅰ卷大模型评测报告中，字节跳动旗下的豆包在文科考试中取得了542.5分的成绩。本次大模型高考评测与河南省考卷完全相同，河南高考文科本科一批录取分数线为521分，豆包成功冲上一本线。

在此次评测中，国内外多款大模型参与。其中，GPT-4o以562分排名文科总分第一，其后依次是豆包的542.5分、百度文心一言4.0的537.5分、百川智能“百小应”的521分。

不过，与文科相比，大模型的理科成绩要差很多，最高分还不到480分，多数大模型的理科总分在400分以下。相比河南理科511分的一本线，大模型尚有较大差距。

具体到各学科，在由历史、地理、政治组成的新课标文综考卷评测中，GPT-4o获得237分的成绩，平均分达到79分，优于多数人类考生。国产大模型产品中，豆包的文综成绩最高，分数达到224.5分，其中历史科目拿到82.5分，在所有9款大模型中得分第一。

在语文、英语的语言类考试中，凭借中文语言的“主场优势”，三款国产大模型产品获得了语文考试前三名，分别是百小应、字节豆包和腾讯元宝，得分依次为128分、125.5分和120.5分。但各家大模型主要丢分在语文写作上。英语写作同样是大模型的一大难题，在40分的写作考试中，最高分只有29分，分别由GPT-4o和百小应获得，各家模型的英语写作主要丢分在表达空泛、缺少细节上。

而在数理学科上，各模型的表现差距极大，包括 GPT-4o在内的所有大模型都无法达到及格水平。例如在数学试卷中，9款大模型产品里仅 GPT-4o、文心一言4.0和豆包获得60分以上成绩（满分150分）；化学和物理试卷的各模型平均分更是只有34分和39分（满分为100和110）。化学单项最高分由豆包获得，成绩为49.5分，GPT-4o仅有42分。此外，大模型在应对考试的灵活性上也不如人类。

总体而言，国产 AI 技术能力在过去一年多时间里获得了长足进步，目前已经接近国际顶尖大模型的水平。但要学会像人类一样思考和解决问题，大模型还有很长的路要走。

当前文章作者名：塔林
当前文章标题：AI参加2024高考，他们都是什么水平
当前文章地址：https://2109.love/928/
文章版权归作者所有，未经允许请勿转载。
转载及其他合作需求请微信联系博主

THE END

笔灵AI——论文写作帮手，轻松整理大纲，专业方向论文生成润色

<<上一篇

Gemma 2——谷歌发布轻量、低成本大模型产品

下一篇>>