摘要:依托跨语种海量高质量数据、20 B 参数的双通道 MMDiT 架构,以及由浅入深的课程式多任务训练策略,Qwen‑Image 将开源扩散模型在文字渲染上的字符准确率提升到 95 %以上,并保持段落级排版一致性。下文将从数据、模型、训练、评测四个维度拆解这一结果的技术原理,并给出快速复现与未来展望。
1 数据层:三段式多语种数据管线
- 阶段 A – 网页抓取:覆盖 26 + 语种原始图文;通过 OCR 纠错、语言识别与去重压缩,确保“不缺字、不重字”。
- 阶段 B – 合成增强:自研排版引擎生成竖排、RTL、渐变背景等复杂布局,补足长段落与少数脚本。
- 阶段 C – 人机闭环:自动评测挑错 → 人工微调 → 数据回流,强化极难样本,避免“鬼畜提示”翻车。
简而言之:从量到质、从通用到极端,一层层把文字“打磨”得更像文字而不是图形。从量到质、从通用到极端,一层层把文字“打磨”得更像文字而不是图形。
2 模型层:给文字开绿灯的 MMDiT 设计
在源码里,Qwen‑Image 采用了 20 B 参数的 MMDiT 框架(Diffusion × Transformer)。关键改动集中在两点:
- 双通道编码
- 语义编码:借助 Qwen‑VL,将“这句话该写什么”变成稠密向量;
- 重建编码:用 VAE 牢牢保存笔画、字距等细节。
双通道协同让模型既理解句子意思,又不会把字形抹平。
- 段落级注意力门
- 在高层加入版式感知门控,显式告诉网络哪些空隙属于行距、哪些属于图案留白,避免把“字间距”拉得参差不齐。
结果就是:不论体验站点示例图多长、多语言混排,字与字依旧排列得像排版软件输出。
3 训练层:课程式多任务组合拳
- Warm‑up(无文字)— 字符损失 0:先学绘图基础。
- Level 1(单字/单词)— 权重 0.3:掌握笔画、粗细与对齐。
- Level 2(≤ 15 字短句)— 权重 0.6:学会控制行距、标点与简短 logo。
- Level 3(整段落)— 权重 1.0:保持段落排版一致。
4 评测:把“体验站点体验”数字化
体验站点看得见的流畅体验,离不开实验室里的硬指标。
| 数据集 | 指标 | Qwen‑Image | Midjourney V6 | SDXL‑ControlNet |
| LongText‑Bench | 字符准确率 | 97.2 % | 63.5 % | 54.8 % |
| ChineseWord | 字形完整度 | 96.4 % | 70.1 % | 68.9 % |
| TextCraft | 版式一致性 | 0.92 | 0.61 | 0.58 |
这些成绩对应到体验站点体验,就是“几乎不用二次修字”。
5 动手试试:本地三步复现
- 环境:单卡 24 GB GPU + Diffusers 0.27 及以上。
- 加载:
pipe = AutoPipeline.from_pretrained("Qwen/Qwen-Image")
- 推理:
img = pipe(prompt="¡Hola, 世界!", width=1024, height=1024).images[0] img.save("demo.png")
放入 OCR 工具即可重现体验站点级别的高准确率。
6 仍待攻关的角落
- 极端艺术字体:哥特体、霓虹手写仍偶有形变,需要更多风格迁移数据;
- 多方向混排:RTL 与竖排同屏排版处于 Beta;
- 生态缺位:Prompt 库与 LoRA 市场才刚起步,仍需社区共建。
7 结语
想亲自体验文字渲染效果,可直接访问 qwen‑image.ai;键入任意多语种段落,即可获取排版工整的成图。