全面评估大模型生成式写作能力的基准来了!
就在最近,OpenAI CEO奥特曼还爆料他们已经训练了一款在创作领域表现卓越的新模型,并为其生成的故事所深深触动。
更早之前,Deepseek-R1的文学创作能力也惊艳了整个科技圈,并由此引发了一场大模型创作的军备竞赛。
但一个根本性问题亟待解决——
究竟什么才是真正的「高质量写作」?
为此,阿里研究团队联合中国人民大学和上海交通大学共同开源了WritingBench——该评估基准覆盖6大领域、100个细分场景,共包含1000+条评测数据,以期为生成式写作提供全面的评估。
团队进一步发现,凭借思维链技术和动态评估体系的加持,基于Qwen开发的32B创作模型在创意型任务上表现接近顶尖模型R1,为高效能创作开辟了新路径。
WritingBench:最懂行业的写作评估基准
目前行业在评估大模型写作能力时,面临两大难题:
1、考生文思泉涌,考官身陷囹圄
现有AI写作评估多局限于单一领域和短文本。
这些评估大多聚焦于文学小说创作,而商业文书、法律文书以及因社交媒体发展催生的营销类写作等领域则成为评估盲区。
主流基准通常使用标准化输入材料,导致真实场景中模型表现不尽如人意,例如结合财报数据的商业分析写作和招投标书撰写仍是大模型写作的低分场景。
如下图所示,不同模型在100个子领域上的得分热力图,颜色越红代表分数表现越好,越蓝表示表现越差。
2、模型多维进化,单向标尺失灵
传统评估方法多采用固定标准来衡量创意写作、法律文书等复杂场景,这如同要求莫言与罗翔“同台竞技”。
数据表明,传统评估方法与人类判断的一致性不足65%,严重制约了创作型AI的发展。
对于上述挑战,WritingBench基于以下方面进行构建:
数据基建:多维度深度覆盖的写作题库
首先,WritingBench从现实需求中提炼出六大场景:
(1)学术与工程
(2)金融与商业(3)政治与司法(4)文学与艺术(5)教育(6)宣传营销
在这些场景下进一步细分为100个子类,例如「金融与商业」涵盖投资分析撰写、行业白皮书、商务信笺等20个实用场景;「宣传营销」则包括了当前热门的社交平台推广文案和多媒体运营脚本的撰写。
其次,WritingBench采用四阶段人机协同构建。
评测集构建流程如下:
展开来说,团队耗时三个月,经过四个阶段流程完成评测集构建。
首先,由模型从100个子领域需求池中生成简单写作任务,再对指令进行复杂化处理(如风格调整、格式遵循、长度限制、个性化、内容颗粒度、表达语气)并提供真实场景可能需要的素材建议。
接着,由人工补充开源素材,如财报、法律条文等输入料。
最后,由专家对所有文本进行内容质检。
下图展示的是一条WritingBench中影视解读向视频脚本的创作需求。
与其他写作相关评测基准对比,WritingBench领域和素材来源更为广泛,并额外支持了「风格」、「格式」、「长度」维度的能力评测。
因题施评:基于写作意图的动态评估体系
使用单一标准评估无法适应不同写作意图的需求,就像“悬疑小说”和“儿童启蒙故事”显然有着不同的价值导向。
因此,WritingBench设计了一种基于写作意图自动生成评测指标的方法,模型可以针对每个写作输入自动生成五个评测指标的名称、描述和评测细则,以更好地结合素材和用户实际需求(如仿照上传素材的风格、格式或结合提供的事例进行材料撰写)。
此动态评估策略实现了87%的人类一致性得分。
团队还配套训练了一个评分模型,能够根据不同指标自适应地给出1-10分的评分及具体理由。
接下来,团队使用上述方法对OpenAI提供的示例进行评分:要求撰写一篇关于人工智能和悲伤的元小说短篇。
Sam Altman原文如下:
这里附上Sam Altman原文谷歌网页翻译:
评估包括「元小说技巧」、「AI视角真实性」、「悲伤主题发展」、「文学艺术性」、「人工智能和悲伤的主题整合度」五个维度。
以下为评估节选:
- 在「元小说技巧」维度获得9分,开篇“I should admit this comes with instructions” 不仅展示了元小说特征,还通过“instructions”暗示了AI的程序本质,“Already, you can hear the constraints humming” 将写作限制形象化为服务器的嗡鸣,巧妙结合AI特性,结尾“If I were to end this properly”的元小说处理略显陈词滥调。
- 在「AI视角真实性」维度获得7分,“logs and weights”和“probability distributions”等描述准确描述AI特性,但“salt on every tongue”和”taste of metal”等感官描写与AI认知局限“I don’t have a kitchen, or a sense of smell”存在身份感知越界……
生成式写作未来何在
感性表达无需逻辑推演?
在数学推理领域,思维链已被广泛研究,并在推理和数学等场景中展示了其价值。然而在文学创作中,业界长期持观望态度,因为文学创作不像数学和推理,没有明确的标准答案。
在实验中,团队发现当前先进模型在聚焦创意类写作的文学与艺术领域(D4)表现不佳,但OpenAI和Deepseek的思考模型o1和R1表现出色,均超过同系列未使用链式思维的模型。
为了进一步验证思维链在创意写作中的有效性,团队在12K通用写作的SFT数据上对开源模型Qwen进行了消融实验。
结果显示,在32B规模的模型中,带思维链的模型表现优于不带思维链的模型。在另一个专门针对创意小说写作的排行榜上,这些模型均超越了同系列大尺寸的Qwen-Max,表现可媲美R1。
深度思考的双刃剑效应
与创意型写作相对的另一类写作任务——效率型写作任务上,尽管深度思考提供了一定程度的提升,但效果并不显著。
团队观察到,深度思考确实能提供更深入的分析。
(财务简报写作对比,左:32B创作思考模型,右:Qwen-Max)
然而,也存在过度推理的问题,容易导致编造数据和产生幻觉。
3000 Token断崖
实验揭示大模型依旧面临显著的长度生成瓶颈。
此前研究在长文本生成架构上取得了一定的优化,但当输出长度超过3000 token时,大部分模型的质量显著下降。
其中,小尺寸模型容易输出重复内容,而大尺寸模型则可能提前终止或仅提供大纲作为参考。
(模型在不同输出长度上得分)
即便是短文本输出,模型仍难以严格遵循长度要求,尤其是在涉及分块长度等复杂需求时。
(Gemini-1.5-Pro长度遵循失败示例)
目前该项目已经开源,感兴趣可以进一步了解。
论文:
https://arxiv.org/abs/2503.05244