AI 生成的图片终于能写对字了:Wan 2.7 / Qwen Image 2.0 / Seedream 4.5 文字渲染实测

张开发
2026/4/11 18:37:45 15 分钟阅读

分享文章

AI 生成的图片终于能写对字了:Wan 2.7 / Qwen Image 2.0 / Seedream 4.5 文字渲染实测
上周帮朋友做一张活动海报标题就四个字——“AI SUMMIT 2026”。我想着这么简单的事用 AI 生图几秒钟搞定。结果 Midjourney 给我出了个 “AI SUMM1T 2O2G”。换 Stable Diffusion 试“AI SUNMIT 2026”。离谱。这个问题我忍了快两年了。每次用 AI 出图文字部分都得后期自己 P。直到最近试了几个 2026 年新出的模型发现这事终于有救了。分别跑了大概四五次把三个模型的文字渲染能力摸清楚了写个记录。先说一下为什么以前不行这个得从扩散模型的原理说起。Stable Diffusion 这类模型生成图片本质上是从一张全是噪点的图开始一步步去噪最后变成清晰图片。模型在训练的时候学的是像素级别的统计规律——它知道这个位置大概应该有文字的形状但它不知道具体该写什么。你可以想象一个完全不认识中文的老外让他画一块中文招牌。他见过很多中文招牌的照片知道中文字大概长什么样——方方正正有横有竖。但具体每个字怎么写他不知道。画出来的东西远看像中文近看全是乱笔。AI 就是这个老外。文字和风景、人物不一样。树叶多一片少一片没人在意但 “R” 少一笔就变成 “P” 了。扩散模型每一步去噪都有微小的随机性这点随机性放在风景照里无所谓放在文字里就是错别字。三个模型我在 WaveSpeedAI 上调的三个模型都有换个模型 ID 就行不用折腾多套 SDK。pipinstallwavespeed测试 1英文海报标题最基础的。一张科技大会海报标题 “AI SUMMIT 2026”副标题 “San Francisco · June 15-17”。importwavespeed outputwavespeed.run(alibaba/wan-2.7/text-to-image,{prompt:Minimalist tech conference poster, deep navy background, large bold title AI SUMMIT 2026, subtitle San Francisco · June 15-17, abstract holographic geometric shape in center, generous whitespace, modern sans-serif typography,width:2048,height:2048})print(output[outputs][0])三个模型跑同一个 prompt结果Wan 2.7标题 “AI SUMMIT 2026” 完全正确副标题 “San Francisco · June 15-17” 也对。它还自己加了 “Moscone Center West · Hall C” 和底部的活动信息栏排版最丰富像一张真正的活动海报。Qwen Image 2.0标题副标题都对排版最简洁干净——大标题居中副标题在下方中间一个全息几何体。没有多余的元素设计感最强。Seedream 4.5标题副标题也全对。风格偏暗色调几何体是一个透明立方体。三个模型在这轮英文短标题测试里都没出错。测试 2中文这轮拉开差距了。prompt书法风格的中国传统卷轴上面写着千里之行始于足下毛笔字体宣纸质感背景水墨画风格的山水点缀Wan 2.7千里之行始于足下七个字全对竖排书法笔画清晰有力右下角还自动加了一方印章整体最像一幅真正的书法卷轴。背景是水墨山水构图完整。Qwen Image 2.0七个字也全对但排版不太一样——分成了两列横排千里之行始一列于足下一列更像是书法练习的布局。字体偏楷书笔画清楚。Seedream 4.5七个字也写对了竖排字体偏现代书法风格。背景是水墨山水画有卷轴边框。三个模型在这轮中文测试里表现都不错七个字的成语长度是它们的舒适区。测试 3多行信息图模拟一个真实需求——做一张数据卡片有标题、副标题、四行数据。promptDesign an infographic card with the following layout: Title: 2026 AI Video Market Subtitle: Key Statistics Body text in 4 bullet points: - Market size: $4.2 billion - YoY growth: 340% - Top model: Veo 3.1 - Open source leader: Wan 2.7 Clean white background, blue accent color, modern data visualization styleWan 2.7标题 “2026 AI Video Market”、副标题 “Key Statistics”、四行数据全部正确美元符号百分号都没问题。它做成了一份正经的数据报告风格——有图标、有分栏、有 “DETAILED BREAKDOWN” 小节甚至底部还加了 “AI MARKET INSIGHTS” 的水印。过度发挥了但文字全对。Qwen Image 2.0四行数据全对排版是最干净的列表风格——白底蓝色标题四个 bullet point 一目了然。没有多余装饰信息密度最高最适合直接拿来用。Seedream 4.5四行数据也全对。做成了一张手持卡片的效果图有点像社交媒体上的数据卡片模板。文字清晰蓝色圆点标记。三个模型在这轮多行英文测试里都没出错这个结果比我预期的好。对比表Wan 2.7Qwen Image 2.0Seedream 4.5英文短词✅✅✅英文多行4行✅✅✅中文短句7字✅✅✅排版丰富度✅ 最丰富简洁干净中等输出分辨率1024实测1024实测2048价格$0.04/张按分辨率按分辨率这三轮测试的结论比我预期的乐观——三个模型在英文标题、中文短句、多行数据这些场景下都没出错。区别主要在排版风格和额外细节上而不是文字准确率。真正拉开差距的场景应该是更长的中文段落、混合中英文、特殊符号密集的情况。这些我后续会补测。我的选择逻辑中文、长文本、复杂排版用Wan 2.7。4 月 1 号刚出的目前中文文字渲染最强的。3000 token prompt 意味着你可以把每行字的内容位置大小全写清楚。需要先生成再反复改的用Qwen Image 2.0。它把生成和编辑统一到一个模型里了生成一版不满意直接用自然语言改不用重新跑。AI Arena 第一名。英文短标题、产品标签用Seedream 4.5。“COFFEE”“OPEN”“SALE 50% OFF” 这种又快又准。别拿它写长句子就行。写 prompt 的经验文字内容一定要用英文双引号包起来。title AI SUMMIT 2026和title AI SUMMIT 2026效果差很多引号帮模型分清哪些是要渲染的文字。字体风格和位置要写。bold sans-serif title at top center比光写title好太多。不写的话模型自己选经常选得很离谱。文字越短越准。这是铁律。1-5 个词的准确率远高于一整句话。需要多行文字就把每行单独描述别塞一大段。分辨率拉到 2048 以上。1024 的图里文字容易糊尤其是小字号。调 prompt 的时候固定 seed。不然你分不清是 prompt 改好了还是随机性碰巧出了个好结果。Wan 2.7-Imagehttps://wavespeed.ai/blog/posts/introducing-alibaba-wan-2-7-text-to-image-on-wavespeedai/Qwen Image 2.0https://wavespeed.ai/collections/qwenSeedream 4.5https://wavespeed.ai/collections/bytedanceSDKhttps://github.com/WaveSpeedAI/wavespeed-python

更多文章