开云(中国)Kaiyun·体育官方网站-/app下载/IOS/登录入口+

2024-08-03

开云AI参加高考，为何偏科严重—新闻—科学网

年夜模子到场高考，能考几多分？近日，科技立异交流平台极客公园发布高考新课标Ⅰ卷年夜模子评测陈诉，于参试年夜模子中，GPT-4o以562分的成就排名文科第一。到场评测的8款国产年夜模子中，字节跳动旗下的豆包成就是542.5分，其后依次是baidu文心一言4.0的537.5分以及百川智能“百小应”的521分。本次年夜模子高考评测与河南省考卷彻底不异，以上3款国产年夜模子均跨越河南文科一本线521分。GPT-4o的562分于河南文科考生中可排名8811名，相称在前2.45%；豆包处在前4.27%，靠近顶尖年夜模子的程度。

文综评测中，GPT-4o获237分，优在大都人类考生。国产年夜模子中，豆包文综成就最高，患上分224.5分，此中汗青到达82.5分，于所有9款年夜模子中排第一。地舆考卷有年夜量图片考题，图象理解威力较强的GPT-4o获得最高分，但仅有68分。

语文、英语评测中，多家年夜模子于主观题上拿满分。但写作文是弱项。屡次到场天下高评语文阅卷的北京市级主干西席、怀柔区语文学科带头人夏教员是本次评测的作文阅卷人。她以为，“AI作文有清楚完备的布局，有逻辑性，言语通顺流利，但缺少情感以及传染力”。同理，于40分的英语写作测验中，年夜模子的最高分只要29分，重要丢分于表达空泛、缺乏细节上。

值患上留意的是，年夜模子高考出现出严峻的偏科征象：数学、物理、化学等数理学科全线不迭格，总分最高分不到480。而河南理科一本线是511分。最顶尖的年夜模子没法进入理科考生的前��30%。

数学评测中，仅GPT-4o、文心一言4.0以及豆包得到60分以上成就（满分150分）。年夜模子能正确应用求导公式以及三角函数定理，但面临较为繁杂的推导以及证实问题就很可贵分。物理有一道送分的选择题，人类考生按照“时间不会倒流”可以容易选对于谜底，年夜模子则三军覆没。

“今朝的年夜言语模子素质上是文字接龙，基在海量资料，猜测下一个最可能呈现的文句。经由过程不停猜测，天生联贯以及完备的文本。应答文科测验，年夜模子的用词禁绝或者用了近义词，不太影响评分。但理科测验磨练推理以及计较，好比一道题有五步推理，年夜模子走偏一步，谜底就全错。并且年夜模子的练习数据中，文科语料要远弘远在理科语料。”海内一名年夜模子研发专家告诉科技日报记者。

近期，有一些海内外年夜模子于奥数题评测（非奥数现场角逐）上拿到不错的成就。对于此，该专家注释，用各人都练习过的公然数据集评测，年夜模子的正确率很高；但用比力新的数据集去测试，正确率就年夜年夜降落。最新的高考题是哪家年夜模子都没有练习过的，磨练的是数学推理以及计较的泛化威力，这就袒露了年夜模子的短板。

北京年夜学计较言语学研究所传授穗志方近日也暗示，年夜模子于中国高考、公事员测验以及美国SAT测验等尺度化测验中的体现是好坏兼具的。一些年夜模子于SAT数学测试中体现优秀，但于繁杂推理或者特定常识范畴中的体现不敷精彩。

“于年夜模子内涵机理没有探究清晰的环境下，咱们今朝的评测路径只能依赖从外部体现来猜度内涵威力。”穗志方说，将来应成长更体系的评测纲领、更具应战的评测使命、更科学的评测要领。AI是否比人类更合适测验？还没有可定论。
出格声明：本文转载仅仅是出在流传信息的需要，其实不象征着代表本消息网不雅点或者证明其内容的真实性；如其他媒体、消息网或者小我私家从本消息网转载使用，须保留本消息网注明的“来历”，并自大版权等法令义务；作者假如不但愿被转载或者者接洽转载稿费等事宜，请与咱们联系。/开云

上一篇:开云曾被考古圈壕送50斤大礼包的北大女孩本科毕业：好奇与勇气将指引前方—新闻—科学网下一篇:开云中央美术学院设计学院原院长宋协伟接受监察调查—新闻—科学网

0755-83434511

服务热线（早8:30-晚17:30）