科学网—GPT Image 2让图文并茂不再稀罕

速读：

GPT Image 2 让图文并茂不再稀罕

精选

已有 1699 次阅读

2026-5-3 09:38

| 系统分类: 科普集锦

惊喜说一个你或许有过的经历。

上学的时候，班上总有那么一两个人，笔记做得特别好看。重点用彩色笔标出来，旁边配着手绘的小示意图，逻辑分块清清楚楚。你翻开自己的笔记本 —— 密密麻麻一片横划拉出来的字，像加密电报。

不是你不想做好看，是大部分人做不到。画图要时间，排版要审美，配色要天赋。一边听老师讲，一边能这样同步输出，这是天分。

这道门槛拦了我很多年。直到 4 月 21 号那天，我把自己最近一篇公众号文章扔进 GPT Image 2，让它生成笔记卡片。

结果是这样的：

中文没有发现明显瑕疵。模块切分逻辑清晰连贯。我让它做什么，它就做什么，当真是如臂使指。

我当时发了条动态慨叹：「从前上学时候羡慕学霸们图文并茂的笔记，如今这项技能飞入寻常百姓家。」

用了十多天之后，我越来越确定这个判断。

试探笔记卡片只是开始。我想知道 GPT image 2 的中文处理能力到底有多扎实，于是换了个方向试 —— 书法。

4 月 21 号，GPT Image 2 全量推送当天，我让它用草书写了一副对联。内容是我的保留测试项目：「一行蒸雁向南方，两只烤鸭往北走。」这个「对联」，来自 90 年代中期脍炙人口的电视剧《宰相刘罗锅》。之所以总用这个例子，一是怀旧；二是每每想起，都觉得好玩儿，哈哈。

有人在帖子底下问：「请问王老师，这是用 AI 工具生成的书法作品吗？」

是的。纯 AI 生成。草书的连笔、飞白、墨色浓淡，都像模像样。

我本来以为它也就这一把刷子了 —— 草书嘛，笔画连在一起，容易蒙混过关。楷书方正、隶书舒展，对笔画精确度要求高得多。

4 月 25 号，我让它用隶书写曹操的《龟虽寿》。

这不是那种「长得像隶书的印刷体」。蚕头燕尾都到了位。我当时在动态里写的是：「我原以为它只会草书和楷书的，没想到啊，这居然也行。」

两种字体、两种完全不同的结构逻辑，它都能处理。这就不是运气了，这是系统性的中文渲染能力提升。

越界如果只是「中文写得好」，那故事讲到这里就可以结束了。但 GPT Image 2 让我真正感到不安的，是它在中文文本之外的能力。

4 月 21 号，我做了另一个实验。那天下雨，我站在室外，随手拍了一张 —— 表情不太开心，背景灰扑扑的：

然后我给 GPT Image 2 的指令是：把这个人放在一个抖音直播间里，榜一大哥刚刷完火箭。

喏，这是结果。

抖音界面的 UI 元素、弹幕、礼物特效、排行榜 —— 全部中文，全部清晰可读，全部丝滑融入。它不是把一个人 P 到一张背景上，而是把一张照片「融入」了一个社交 App 的界面逻辑里。

我发那条笔记的时候写了一句话：「更要命的是，可能从今后某一个时刻起，所谓的『真相』再无法奢望用图片来保证了。」这涉及安全问题，题目太大，此处咱们暂且不展开。眼下更值得关注的是 —— 这种「融入式」设计能力，以前只有专业设计师才能做到。

迁移 4 月 24 号，我又往另一个方向试了试。我让 GPT Image 2 用清明上河图的笔法，绘制 17 世纪的荷兰。

中国传统绘画的散点透视、工笔白描的屋舍人物，用来表现荷兰黄金时代的运河、风车、商队。两种完全不同的视觉语言系统，它给揉到一起了。这是跨文化视觉风格的迁移。

而既然风格可以迁移，那做点儿正经事儿行不行？

例如 5 月 1 号，我做了个调用 GPT image 2 的 Skill。然后把刚在知网网络首发的一篇论文扔进去，让它端到端地做成学术海报。也就是我希望它能够把文本内容向着学术海报风格「迁移」。

这是论文的基本信息。链接在这里。

这是 Youmind 调用该 Skill 端到端直出的效果。

从论文内容里提取核心观点、设计版面布局、配色排版、中文标题和正文，全都一步到位。以前做一张像样的学术海报，得开 PowerPoint 或者 Illustrator 折腾大半天。现在嘛，你看，一句话的事。

这个过程，既有 GPT image 2 本身绘图能力提升的结果，也有聪明的 Agent 思考分析能力加持，缺一不可。我对这个效果很满意，所以把它封装为 YouMind 技能。如果你也想试试把自己的论文做成海报，可以点击这个链接安装使用。

门槛看到这里，你可能会问：AI 画图不是早就有了吗？就算不提 Midjourney 那些老工具，最近的 Nano Banana（Gemini 的图像生成）中文也不错啊？

确实不错。但用过的人应该有体感：Nano Banana 的中文大部分时候是对的，可它总会在不经意间给你一些瑕疵 —— 文字重复、笔画多一笔少一笔、标点位置偏了。如果你不逐字检查，这些东西混在成品里、展现在大屏幕上，那就是事故了。别问我怎么知道的。

所以你每次都得盯着 Nano Banana 给出的结果一遍一遍检查，心里总绷着一根弦。

GPT Image 2 的区别在这里：中文文本渲染的准确率高到了你可以信任它。不是百分之百，但从「每张都得仔细盯」变成了「偶尔瞄一眼确认」。这个差别听起来不大，体感上却是天壤之别。它决定了你会不会把「做张图」当成一个随手就干的事情。如果每次都得花五分钟复核文字，你就不会随手干 —— 你会攒着，等有空再说，最后对于我这样的懒人来说，大概率就搁置了。

除了中文准确，GPT image 2 还有一个变化是命令遵从。我说用隶书写曹操的诗，它就用隶书写曹操的诗。我说放在抖音直播间，它就做出一个完整的抖音界面。以前你跟 AI 说「放在左边」，它可能放在右上角；你说「草书」，它可能给你行书。GPT Image 2 则可以用「听话」来形容。

于是 4 月 24 号那天，我给自己的若干 Skill 定了一条新规则：以后生成图片默认都用 GPT Image 2，只有在自动检查出问题的时候，才降级为 Nano Banana Pro。注意这不是因为 GPT image 2 免费，是因为它的产出质量已经超过了我花五分钟复核 Nano Banana 输出的体验。当一个工具好用到连工作流规则都要为它改写的时候，说明它触到了某个重要临界点。

小结彩色标注、手绘示意图、逻辑分块…… 那种「图文并茂」的能力，以前确实是少数人的特权。因为掌握它，需要的是高昂成本投入（甚至还得需要天赋）。

现在这个成本几乎归零了。

你不需要学设计软件，不需要有审美天赋，不需要花钱请人。你只需要知道自己想要什么，用一句话告诉它。一张笔记卡片、一幅书法、一张学术海报、甚至一个逼真的社交媒体界面，分分钟搞定。

如果你还没试过，现在就可以在官网、Dessix, Youmind 或者 Listenhub 中尝试。把你最近写的一段文字扔进去，告诉它「用 GPT image 2 帮我做成一张笔记卡片」。看看出来的效果，希望你也能体会到我第一次这样用时的喜悦。

祝 AI 辅助绘图愉快。

如果你觉得本文有用，请点击文章底部的「推荐到博客首页」按钮。

如果本文可能对你的朋友有帮助，请转发给他们。

欢迎关注我的专栏，以便及时收到后续的更新内容。

延伸阅读 • 品味还是技能？ChatGPT 引发的能力培养变革

• 未来的写作长啥样？LEX 用 GPT-3 AI 给你点儿颜色看看

• Midjourney 能识图了，这是个好事儿吗？

• Claude Skill 快照：给你的 AI 技能迭代加个「后悔药」

• AI 真要成精了？ChatGPT 上手体验

转载本文请联系原作者获取授权，同时请注明本文来自王树义科学网博客。链接地址： https://blog.sciencenet.cn/blog-377709-1533208.html

上一篇： AI 比你懂太多时，还能「人机协同」吗？

主题：GPTImage2|GPTImage2让图文并茂|模块切分逻辑清晰连贯