大模型做高考卷,猜猜它得了多少分?
6 月 19 日,上海人工智能实验室发布首个 AI 高考全卷评测结果,月初开源的阿里通义千问大模型 Qwen2-72B 排名第一,在语数外三科 420 分的满分中获得 303 分。
上海人工智能实验室分析认为,高考覆盖各类学科及题型,这一综合性测试,目前普遍被研究者用于考察大模型的智能水平。2024 年全国高考甫一结束,上海人工智能实验室的司南评测体系 OpenCompass 就选取 6 个开源模型及 GPT-4o 进行高考 " 语数外 " 全卷能力测试。因无法确定闭源模型的更新时间,为公平起见,此次评测没有纳入商用闭源模型,仅引入 GPT-4o 作为评测参考。
本次评测采用全国新课标 I 卷,参与评测的所有开源模型,开源时间均早于高考,确保评测 " 闭卷 " 性。全卷试题既包含选择、填空等 " 答案唯一性 " 题目,也包括简答、阅读理解及作文等主观题,在更加接近真实高考的环境中测试模型能力。大模型的成绩由具有高考评卷经验的教师人工评判,更加接近真实阅卷标准。
评测结果显示,Qwen2-72B 以语数外 303 分的总成绩,成为本次大模型高考 " 状元 ",领先于 GPT-4o(296 分)及书生 · 浦语 2.0 文曲星(InternLM2-20B-WQX,295.5)。本次评测的另外三位大模型选手分别是法国 AI 创业公司 Mistral 的 Mixtral 8x22B 模型、零一万物公司的 Yi-1.5-34B 模型、智谱 AI 的 GLM-4-9B、阿里巴巴的通义千问 Qwen2 系列的混合专家(MoE)模型 Qwen2-57B-A14B,通义千问的 MoE 模型同样表现不俗,总分(254 分)位列第四名。
上海人工智能实验室指出,大部分模型考生的语文、英语科目表现良好,但在数学方面还有很大的提升空间。InternLM2-20B-WQX 取得了数学单科的最高分,但仍未达到及格水平,表明大模型的数学能力存在较大提升空间。据悉,本次 " 大模型高考 " 答案生成脚本、各模型答卷、教师评分细节全部公开。后续,研究团队将在评测中引入多模态大模型,以考察模型应对更多题型的能力,并陆续发布覆盖不同学科和地区的完整高考评测。
免责声明:本文由用户上传,与本网站立场无关。财经信息仅供读者参考,并不构成投资建议。投资者据此操作,风险自担。 如有侵权请联系删除!
-
【南宁申请滴滴代驾司机条件】在南宁,想要成为滴滴代驾司机,需要满足一定的基本条件和要求。这些条件不仅保...浏览全文>>
-
【南宁理工学院是大专吗】“南宁理工学院是大专吗”是许多考生和家长在选择学校时经常提出的问题。为了帮助大...浏览全文>>
-
【南宁卷筒粉米浆调法】南宁卷筒粉是广西南宁地区非常受欢迎的传统小吃,其口感软糯、香滑,关键在于米浆的调...浏览全文>>
-
【南宁公立医院有哪些】在南宁,公立医院是市民就医的重要选择之一。它们通常具有较强的医疗技术实力和完善的...浏览全文>>
-
【南冠指什么】2、原标题“南冠指什么”生成的“南冠”是一个具有历史和文化内涵的词语,常出现在古诗词和文学...浏览全文>>
-
【南冠客思侵南冠指的是】一、“南冠客思侵南冠”这一短语出自古代文学作品,其中“南冠”是一个具有特定文化...浏览全文>>
-
【南瓜籽的作用和功效禁忌】南瓜籽,又称南瓜子、瓜子,是南瓜果实中的种子,常被当作零食食用。它不仅味道香...浏览全文>>
-
【南瓜子怎么炒好吃又香】南瓜子是一种营养丰富的小零食,不仅味道香脆,还含有丰富的蛋白质、维生素和矿物质...浏览全文>>
-
【南瓜子有什么功效和作用】南瓜子,又称南瓜仁,是南瓜果实中的种子,不仅味道香脆可口,还具有多种营养价值...浏览全文>>
-
【南瓜煮汤怎么做】南瓜煮汤是一道简单又营养的家常菜,尤其适合秋冬季节食用。它不仅口感香甜,还能补充多种...浏览全文>>