科学网—GPT Image 2让图文并茂不再稀罕
精选
已有 1699 次阅读
2026-5-3 09:38
| 系统分类: 科普集锦
惊喜 说一个你或许有过的经历。
上学的时候,班上总有那么一两个人,笔记做得特别好看。重点用彩色笔标出来,旁边配着手绘的小示意图,逻辑分块清清楚楚。你翻开自己的笔记本 —— 密密麻麻一片横划拉出来的字,像加密电报。
不是你不想做好看,是大部分人做不到。画图要时间,排版要审美,配色要天赋。一边听老师讲,一边能这样同步输出,这是天分。
这道门槛拦了我很多年。直到 4 月 21 号那天,我把自己最近一篇公众号文章扔进 GPT Image 2,让它生成笔记卡片。
结果是这样的:
中文没有发现明显瑕疵。模块切分逻辑清晰连贯。我让它做什么,它就做什么,当真是如臂使指。
我当时发了条动态慨叹:「从前上学时候羡慕学霸们图文并茂的笔记,如今这项技能飞入寻常百姓家。」
用了十多天之后,我越来越确定这个判断。
试探 笔记卡片只是开始。我想知道 GPT image 2 的中文处理能力到底有多扎实,于是换了个方向试 —— 书法。
4 月 21 号,GPT Image 2 全量推送当天,我让它用草书写了一副对联。内容是我的保留测试项目:「一行蒸雁向南方,两只烤鸭往北走。」这个「对联」,来自 90 年代中期脍炙人口的电视剧《宰相刘罗锅》。之所以总用这个例子,一是怀旧;二是每每想起,都觉得好玩儿,哈哈。
有人在帖子底下问:「请问王老师,这是用 AI 工具生成的书法作品吗?」
是的。纯 AI 生成。草书的连笔、飞白、墨色浓淡,都像模像样。
我本来以为它也就这一把刷子了 —— 草书嘛,笔画连在一起,容易蒙混过关。楷书方正、隶书舒展,对笔画精确度要求高得多。
4 月 25 号,我让它用隶书写曹操的《龟虽寿》。
这不是那种「长得像隶书的印刷体」。蚕头燕尾都到了位。我当时在动态里写的是:「我原以为它只会草书和楷书的,没想到啊,这居然也行。」
两种字体、两种完全不同的结构逻辑,它都能处理。这就不是运气了,这是系统性的中文渲染能力提升。
越界 如果只是「中文写得好」,那故事讲到这里就可以结束了。但 GPT Image 2 让我真正感到不安的,是它在中文文本之外的能力。
4 月 21 号,我做了另一个实验。那天下雨,我站在室外,随手拍了一张 —— 表情不太开心,背景灰扑扑的:
然后我给 GPT Image 2 的指令是:把这个人放在一个抖音直播间里,榜一大哥刚刷完火箭。
喏,这是结果。
抖音界面的 UI 元素、弹幕、礼物特效、排行榜 —— 全部中文,全部清晰可读,全部丝滑融入。它不是把一个人 P 到一张背景上,而是把一张照片「融入」了一个社交 App 的界面逻辑里。
我发那条笔记的时候写了一句话:「更要命的是,可能从今后某一个时刻起,所谓的『真相』再无法奢望用图片来保证了。」这涉及安全问题,题目太大,此处咱们暂且不展开。眼下更值得关注的是 —— 这种「融入式」设计能力,以前只有专业设计师才能做到。
迁移 4 月 24 号,我又往另一个方向试了试。我让 GPT Image 2 用清明上河图的笔法,绘制 17 世纪的荷兰。
中国传统绘画的散点透视、工笔白描的屋舍人物,用来表现荷兰黄金时代的运河、风车、商队。两种完全不同的视觉语言系统,它给揉到一起了。这是跨文化视觉风格的迁移。
而既然风格可以迁移,那做点儿正经事儿行不行?
例如 5 月 1 号,我做了个调用 GPT image 2 的 Skill。然后把刚在知网网络首发的一篇论文扔进去,让它端到端地做成学术海报。也就是我希望它能够把文本内容向着学术海报风格「迁移」。
这是论文的基本信息。 链接在这里 。
这是 Youmind 调用该 Skill 端到端直出的效果。
从论文内容里提取核心观点、设计版面布局、配色排版、中文标题和正文,全都一步到位。以前做一张像样的学术海报,得开 PowerPoint 或者 Illustrator 折腾大半天。现在嘛,你看,一句话的事。
这个过程,既有 GPT image 2 本身绘图能力提升的结果,也有聪明的 Agent 思考分析能力加持,缺一不可。我对这个效果很满意,所以把它封装为 YouMind 技能。如果你也想试试把自己的论文做成海报, 可以点击这个链接安装使用 。
门槛 看到这里,你可能会问:AI 画图不是早就有了吗?就算不提 Midjourney 那些老工具,最近的 Nano Banana(Gemini 的图像生成)中文也不错啊?
确实不错。但用过的人应该有体感:Nano Banana 的中文大部分时候是对的,可它总会在不经意间给你一些瑕疵 —— 文字重复、笔画多一笔少一笔、标点位置偏了。如果你不逐字检查,这些东西混在成品里、展现在大屏幕上,那就是事故了。别问我怎么知道的。
所以你每次都得盯着 Nano Banana 给出的结果一遍一遍检查,心里总绷着一根弦。
GPT Image 2 的区别在这里:中文文本渲染的准确率高到了你可以信任它。不是百分之百,但从「每张都得仔细盯」变成了「偶尔瞄一眼确认」。这个差别听起来不大,体感上却是天壤之别。它决定了你会不会把「做张图」当成一个随手就干的事情。如果每次都得花五分钟复核文字,你就不会随手干 —— 你会攒着,等有空再说,最后对于我这样的懒人来说,大概率就搁置了。
除了中文准确,GPT image 2 还有一个变化是命令遵从。我说用隶书写曹操的诗,它就用隶书写曹操的诗。我说放在抖音直播间,它就做出一个完整的抖音界面。以前你跟 AI 说「放在左边」,它可能放在右上角;你说「草书」,它可能给你行书。GPT Image 2 则可以用「听话」来形容。
于是 4 月 24 号那天,我给自己的若干 Skill 定了一条新规则:以后生成图片默认都用 GPT Image 2,只有在自动检查出问题的时候,才降级为 Nano Banana Pro。注意这不是因为 GPT image 2 免费,是因为它的产出质量已经超过了我花五分钟复核 Nano Banana 输出的体验。当一个工具好用到连工作流规则都要为它改写的时候,说明它触到了某个重要临界点。
小结 彩色标注、手绘示意图、逻辑分块…… 那种「图文并茂」的能力,以前确实是少数人的特权。因为掌握它,需要的是高昂成本投入(甚至还得需要天赋)。
现在这个成本几乎归零了。
你不需要学设计软件,不需要有审美天赋,不需要花钱请人。你只需要知道自己想要什么,用一句话告诉它。一张笔记卡片、一幅书法、一张学术海报、甚至一个逼真的社交媒体界面,分分钟搞定。
如果你还没试过,现在就可以在官网、Dessix, Youmind 或者 Listenhub 中尝试。把你最近写的一段文字扔进去,告诉它「用 GPT image 2 帮我做成一张笔记卡片」。看看出来的效果,希望你也能体会到我第一次这样用时的喜悦。
祝 AI 辅助绘图愉快。
如果你觉得本文有用,请 点击文章底部的「推荐到博客首页」按钮 。
如果本文可能对你的朋友有帮助,请 转发 给他们。
欢迎 关注 我的专栏 ,以便及时收到后续的更新内容。
延伸阅读 • 品味还是技能?ChatGPT 引发的能力培养变革
• 未来的写作长啥样?LEX 用 GPT-3 AI 给你点儿颜色看看
• Midjourney 能识图了,这是个好事儿吗?
• Claude Skill 快照:给你的 AI 技能迭代加个「后悔药」
• AI 真要成精了?ChatGPT 上手体验
转载本文请联系原作者获取授权,同时请注明本文来自王树义科学网博客。 链接地址: https://blog.sciencenet.cn/blog-377709-1533208.html
上一篇: AI 比你懂太多时,还能「人机协同」吗?