Math24o:SuperCLUE开源的高中奥数推理测评基准,85.71分屠榜

本文涉及的产品
模型训练 PAI-DLC,100CU*H 3个月
模型在线服务 PAI-EAS,A10/V100等 500元 1个月
交互式建模 PAI-DSW,每月250计算时 3个月
简介: Math24o是首个针对高中奥林匹克数学竞赛的中文大模型测评基准,采用2024年预赛真题实现自动化评估,为模型数学推理能力提供客观衡量标准。

❤️ 如果你也关注 AI 的发展现状,且对 AI 应用开发感兴趣,我会每日分享大模型与 AI 领域的开源项目和应用,提供运行实例和实用教程,帮助你快速上手AI技术!

🥦 AI 在线答疑 -> 智能检索历史文章和开源项目 -> 丰富的 AI 工具库 -> 每日更新 -> 尽在微信公众号 -> 搜一搜:蚝油菜花 🥦


💡 「高中老师惊了!这个AI测评工具竟用奥赛真题给大模型『批改作业』」
大家好,我是蚝油菜花。当教育界还在争论AI能否解数学题时,SuperCLUE已经用奥赛题给大模型办了场「高考」!你是否也好奇:

  • 📊 号称全能的大模型,遇到函数迭代和几何证明会不会当场死机?
  • 🧮 不同模型的数学推理能力差距,究竟像学霸vs学渣还是教授vs小学生?
  • ⚡ 那些动辄千亿参数的怪物,在21道奥赛题面前会不会原形毕露?

今天深度解析的 Math24o 测评基准,正在用最硬核的方式检验AI的数学脑!这套由2024奥赛预赛真题组成的「照妖镜」:

  • 题题到肉:函数/数列/几何全涵盖,难度对标省级竞赛
  • 判卷无情:答案必须装进\boxed{},差0.1分都算错误
  • 开源透明:评估脚本全公开,杜绝「黑箱操作」

目前OpenAI的o3-mini以85.71分领跑,而某些明星模型竟不及格——你的模型准备好迎接这场数学审判了吗?

🚀 快速阅读

Math24o是首个针对高中奥数竞赛的中文大模型测评基准。

  1. 功能:通过21道奥赛真题实现模型数学推理能力的自动化评估
  2. 技术:基于Python开发标准化评估流程,支持答案唯一性校验

Math24o 是什么

Math24o

Math24o 是由中文大模型测评机构 SuperCLUE 开源的高中奥林匹克数学竞赛级别测评基准。该基准精选2024年全国高中数学竞赛预赛真题,包含函数、数列、几何等领域的21道高难度解答题,所有答案均为唯一整数或小数。

通过标准化提示词要求模型将最终答案放入\boxed{}格式,配合自动化评估脚本,可客观量化不同模型在复杂数学推理任务上的表现。当前测评结果显示,头部模型正确率差距可达28.57%,为模型优化提供了明确改进方向。

Math24o 的主要功能

  • 高难度题库:采用2024年奥赛预赛真题,涵盖函数迭代、组合数学等竞赛级题型
  • 标准化评估:通过\boxed{}格式强制规范输出,程序自动比对参考答案
  • 可视化结果:输出Excel格式详细得分表,支持横向对比多模型表现
  • 开源可复现:完整评估代码公开,支持自定义题目扩展

Math24o 的技术原理

  • 命题设计:题目选自中国数学会官方竞赛,确保专业性和难度梯度
  • 评估架构:基于Python构建自动化流水线,实现答案提取→格式校验→得分计算全流程
  • 提示工程:采用特殊格式\boxed{}约束输出,避免模型解释性文本干扰判卷

如何运行 Math24o

1. 安装依赖

pip install -r requirements.txt

2. 执行评估

将模型回答保存至model_answers文件后运行:

python auto_evaluation.py

3. 查看结果

评估结果将输出至output.xlsx文件,包含每题详细得分与总分统计。

资源


❤️ 如果你也关注 AI 的发展现状,且对 AI 应用开发感兴趣,我会每日分享大模型与 AI 领域的开源项目和应用,提供运行实例和实用教程,帮助你快速上手AI技术!

🥦 AI 在线答疑 -> 智能检索历史文章和开源项目 -> 丰富的 AI 工具库 -> 每日更新 -> 尽在微信公众号 -> 搜一搜:蚝油菜花 🥦

相关实践学习
使用PAI+LLaMA Factory微调Qwen2-VL模型,搭建文旅领域知识问答机器人
使用PAI和LLaMA Factory框架,基于全参方法微调 Qwen2-VL模型,使其能够进行文旅领域知识问答,同时通过人工测试验证了微调的效果。
机器学习概览及常见算法
机器学习(Machine Learning, ML)是人工智能的核心,专门研究计算机怎样模拟或实现人类的学习行为,以获取新的知识或技能,重新组织已有的知识结构使之不断改善自身的性能,它是使计算机具有智能的根本途径,其应用遍及人工智能的各个领域。 本课程将带你入门机器学习,掌握机器学习的概念和常用的算法。
相关文章
|
7月前
|
人工智能 编解码 异构计算
Neo-1:全球首个原子级生成式AI模型!这个AI模型把10年药物研发周期压缩到1个月
VantAI推出的Neo-1是全球首个统一分子生成与原子级结构预测的AI模型,采用潜在空间扩散技术,结合大规模训练和定制数据集,显著提升药物研发效率。
334 15
Neo-1:全球首个原子级生成式AI模型!这个AI模型把10年药物研发周期压缩到1个月
|
8月前
|
机器学习/深度学习 人工智能
ObjectMover:港大联合Adobe打造图像编辑黑科技,移动物体光影自动匹配
香港大学与Adobe联合研发的ObjectMover模型,通过视频生成先验迁移技术,实现图像中物体的自然移动、删除和插入,自动保持光影一致性。
178 21
ObjectMover:港大联合Adobe打造图像编辑黑科技,移动物体光影自动匹配
|
8月前
|
人工智能 API 语音技术
EmotiVoice:网易开源AI语音合成黑科技,2000+音色情感可控
EmotiVoice是网易有道开源的多语言语音合成系统,支持中英文2000多种音色,通过提示词控制情感输出,提供Web界面和API接口,具备语音克隆等先进功能。
844 43
EmotiVoice:网易开源AI语音合成黑科技,2000+音色情感可控
|
8月前
|
人工智能 图形学
PhysGen3D:清华等高校联合推出,单图秒变交互式3D场景
PhysGen3D是清华等高校联合开发的创新框架,通过单张图像重建3D场景并模拟物理行为,实现从静态图像到动态交互的突破性转换。
172 15
PhysGen3D:清华等高校联合推出,单图秒变交互式3D场景
|
8月前
|
人工智能 搜索推荐 图形学
ChatAnyone:阿里通义黑科技!实时风格化肖像视频生成框架震撼发布
阿里巴巴通义实验室推出的ChatAnyone框架,通过高效分层运动扩散模型和混合控制融合技术,实现高保真度、自然度的实时肖像视频生成。
296 13
ChatAnyone:阿里通义黑科技!实时风格化肖像视频生成框架震撼发布
|
7月前
|
人工智能
Hi3DGen:2D照片秒变高精度模型,毛孔级细节完爆Blender!港中文×字节×清华联手打造3D生成黑科技
Hi3DGen是由香港中文大学、字节跳动和清华大学联合研发的高保真3D几何生成框架,通过法线图中间表示实现细节丰富的3D模型生成,其双阶段生成流程显著提升了几何保真度。
675 32
Hi3DGen:2D照片秒变高精度模型,毛孔级细节完爆Blender!港中文×字节×清华联手打造3D生成黑科技
|
8月前
|
人工智能 前端开发 算法
Vibe Draw:涂鸦秒变3D模型!开源AI建模神器解放创意生产力
Vibe Draw 是一款基于AI技术的开源3D建模工具,通过Next.js和FastAPI构建,能将用户绘制的2D草图智能转化为3D模型,并支持文本提示优化和场景构建。
482 35
Vibe Draw:涂鸦秒变3D模型!开源AI建模神器解放创意生产力
|
8月前
|
机器学习/深度学习 人工智能 自然语言处理
Cosmos-Reason1:物理常识觉醒!NVIDIA 56B模型让AI懂重力+时空法则
Cosmos-Reason1是NVIDIA推出的多模态大语言模型系列,具备物理常识理解和具身推理能力,支持视频输入和长链思考,可应用于机器人、自动驾驶等场景。
301 8
Cosmos-Reason1:物理常识觉醒!NVIDIA 56B模型让AI懂重力+时空法则
|
8月前
|
机器学习/深度学习 人工智能 Rust
MoshiVis:语音视觉实时交互开源!7B模型秒懂图像,无障碍革命来袭
MoshiVis 是 Kyutai 推出的开源多模态语音模型,结合视觉与语音输入,支持实时交互,适用于无障碍应用、智能家居控制等多个场景。
363 28
MoshiVis:语音视觉实时交互开源!7B模型秒懂图像,无障碍革命来袭
|
9月前
|
机器学习/深度学习 人工智能 算法
ProtGPS:MIT再造生命科学新基建!蛋白质AI一键预测定位+设计新序列,登Nature子刊
ProtGPS 是麻省理工学院和怀特黑德研究所联合开发的蛋白质语言模型,能够预测蛋白质在细胞内的亚细胞定位,并设计具有特定亚细胞定位的新型蛋白质。
687 17
ProtGPS:MIT再造生命科学新基建!蛋白质AI一键预测定位+设计新序列,登Nature子刊

热门文章

最新文章