亲测:GPT-4o们,离成精还有多远?

在不同的场景下,GPT-4o们有着相当亮眼的表现,但离“成精”还有多远?

只需上传照片到GPT-4o,并输入“转换为XX风格的图像”,几分钟的时间,GPT-4o便能将日常场景瞬间转为符合用户期望的写真图像。

同时,走红的不只是GPT-4o,从字节旗下的即梦AI、快手旗下的可灵AI,到上个月刚刚发布,誉为“AI图像生成新标杆”的Reve Image等等,一大批文生图大模型正雨后春笋般出现。

所以,这些工具之间有哪些功能差别?又有哪些真的可以为我所用?结合上手的实际体验,我为大家整理了一些应用案例,通过不同模型生成结果的对比,帮助大家在不同的应用场景里,去解锁图像生成AI从入门到进阶的N种新姿势。

由于这次我尝试的模型功能相对比较简单,后期大家还想看哪些AI模型功能的效果对比,可以在评论区留言,我会挑选出比较有代表性的模型来继续做对比测试。

生成/转为XXX风格的图像

先拿最火的吉卜力风格来说,用户只需输入“把这个图片转为吉卜力风格“,并上传图片,GPT-4o便可以将一张极具写实风格的照片转换为宫崎骏笔下的治愈系童话。

无论笔触、调色都让人感觉来自真实的艺术家之手,这是最近一段时间里,大家都在跟风尝试的方式。

例如,我随便选一张善友教授的照片,发送给GPT-4o并要求转为吉卜力风格图像,结果显示:即梦AI生成的效果似乎还不错,再比如我选一张教授与其他同学家属互动的照片:

GPT-4o一次生成的完成度已经相当不错了,同样的内容再分别由即梦AI处理,生成的结果如下所示:

整体而言,即梦的处理速度相当快,真实体感在3-5秒的时间内便能生成内容相近的四张图。

如果用户认可某一张的细节,可以再次要求就某一张生成高清的版本,响应速度方面即梦非常有优势。

但也可以明显发现,即梦对于吉卜力风格的把握依然不够成熟,这或许与模型能够参考的数据有关系。

即梦AI生成的图片更偏向通俗意义上的漫画风格,而非辨识度很高的吉卜力风格,在依据用户提示词的生成效果上是打了折扣的。

除了转换图片的风格外,GPT-4o文生图的能力也相当亮眼,同样以吉卜力风格为例:(来源:网络)

结果很不错,GPT-4o生成的海边小镇场景是很有代表性的吉卜力风格,治愈系的气息以及色彩、纹理、街景,都是宫崎骏系列电影中常见的笔触。

再用相同的提示词来询问即梦AI:

相对而言,完成度也很不错,但同样的问题再次显现——吉卜力的风格特征相对并不充分,与GPT-4o相比效果还是打了折扣的。

再来看进阶一些的玩法,例如上传一张图并给出提示词:“以XXX风格重新设计图像并保留所有细节”:

一句话就能切换吉卜力、粘土风、皮克斯3d动画风、像素风、漫画风等等,不需要额外的描述。

同样的内容即梦AI也可以实现,大体上的特征还是遵循了提示词的要求,但效果确实不够精细。

即梦AI对于图片风格有一定的把握,但的确不够——同一风格生成的不同图片差异度甚至比生成不同风格的图片还要大,说明识别、生成能力与稳定性都有待提高。

艺术功能应用

简单的风格转换功能测试过后,我们再来看文生图模型最重要的功能之一——对于艺术创作工作的实现程度。

GPT-4o作漫画的能力同样也是大家津津乐道的地方,我们拿一段网上的资料来对比。

例如给出提示词:制作一个4格漫画的图像:第一格:小老鼠在家里无聊极了,打电话给小牛,小老鼠问小牛“你在做什么”,小牛说“在做草莓果酱”第二格:小老鼠又和小老虎打电话,小老鼠问小老虎“你在做什么“,小老虎说“在和弟弟一起剪纸帽子“第三格:小老鼠又和小兔子打电话,小老鼠问小兔子“你在做什么“,小兔子说“在做胡萝卜汤“第四格:小老鼠又和小羊打电话,小老鼠问小羊“你在做什么“,小兔子说“在青青草原吃草”

输出结果显示:(提示词及生成图源自网络)

同样的内容我们交给即梦AI来处理:

文本的遵循效果并不太好,对话内容还是比较混乱,但画面风格相较于GPT-4o而言更为丰富,且每一张图风格各有不同,在创意的效果上来说是有优势的。

更进一步创作的话可以发现,如果想要更经典的黑白漫画,也只需要给GPT-4o追加提示:应用黑白日漫风格,即可得到:

即梦AI虽然也能创作出符合要求的作品,但漫画比较简单,还无法达到类似人工创作的精细程度。

除此以外,还有一些有意思的图片效果,例如给老画填充颜色:(图源自网络)

再例如生成一些海报,提示词:创作一张关于不同种类鲸鱼的教育海报,采用活泼的水彩风格。背景设为纯白色。

“左边为GPT-4o的输出结果,右边为同样提示词的即梦AI输出的结果:

相对而言,即梦的内容更为丰富一些,但种类不算齐全,但在后续的测试中可以修改提示词继续丰富鲸鱼种类。

也就是说,在海报生成一方面上,二者能力基本相当。

GPT-4o也可以直接做解剖图:(上图为GPT-4o生成,图源自网络)(上图为即梦AI创作,提示词:生成一幅蜜蜂的解剖图并用中文注释)

即梦AI也可以生成不同样式的解剖图,但标注的文字比较混乱,这种情况在很多需要文字描述的图片中广泛出现。

除了海报和插图,还有网友发现可以用GPT-4o给自己家的房子生成装修效果图:

这种情况,我也在即梦AI中引入了简单的毛坯房图片并进行了应用,结果如下:

在不加以限制的情况下,它对于装修方案的生成还是较为不错的,同样的户型不同的风格有了一个概念效果。

而当我同样将要求作为提示词输入后,生成效果如下所示,其结果还是很令人惊喜的。

装修效果图效果还不错,家装行业的设计师估计坐不住了。

而坐不住的不仅仅是家装行业,实际上做广告图也不需要模特了。(GPT-4o结合昂跑商品图生成的模特展示,注:源自网络)

GPT-4o在商品模特上身图上,生成的效果还比较好,而在即梦AI的体验上就比较糟糕了:

在不同的提示词下,只要提供了参考图,即梦AI生成的效果图中基本还是以参考图的展示为主,而且经测试,AI的逻辑还无法立体理解一个物体的样貌,当然,或许也是参考图的权重过重导致。

类似的问题,还出现在以下关于项链的佩戴示图上:

项链的佩戴效果惨不忍睹,已经出现了明显错误,这一点确实很影响使用体验。

再比如把古人像作转为清晰拍摄的照片:

提示词:把这个场景变成一张照片。用数码单反相机 (DSLR) 拍摄。输入图片并得到反馈:

在这里我还想介绍一个新的AI模型工具:Reve Create,它对于真实图片的生成效果相当不错,比如我希望它能为我生成杜甫的真实照片,可以得到:

甚至于,前几天混沌学园公众号发布了一篇以查理·芒格角度解读关税政策的文章,我也用这个模型生成了一张特朗普和查理芒格交谈的照片,结果显示:

画面逼真程度几乎以为拍摄完成。

但该工具还无法上传参考图,对于图片的生成完全依赖文字描述,这一点上确实会限制其功能的发挥。

比如,生成一幅菜谱:(上图来自GPT-4o,下图来自即梦AI)

经测试,即梦AI离开完整的提示词,很难直接生成一份菜谱,生成的均为菜品的效果图。

小结:

此次模型功能的对比主要是由GPT-4o和即梦AI完成,可灵AI在图片转视频的效果上相当出色,但由于相对较久的排队等待情况不利于生成图片的测试,所以整体测试还是由即梦AI完成。(可灵AI图片生成的效果)

需要注意的是,即梦AI和可灵AI均为创意激发AI,它们集成了较多的AI功能——图文、视频、数字人等。本次测试主要用到的是图文功能,不能代表模型的完整水平,有需要的同学还要自己上手测试才能看到真实、有针对性的效果。

从测试的结果来看,GPT-4o的图文能力要超越国内主流图文AI,但就功能效果而言,国内对应AI基本能够实现下位替代。

目前图文模型间也存在一些通病,比如在一些文字内容复杂度较高的图片中,文字的展示效果相当不理想,这一点在GPT-4o上也不例外。

下图所生成的长图以及元素周期表都可以看到文字效果的问题:

在GPT-4o的官方文档中,开发者列举出了一些详细的模型缺陷,而这几乎也是所有图文模型共性的存在:

  1. 裁剪:GPT-4o有时会错误地裁剪较长的图像(如海报),尤其是靠近底部的部分。
  2. 编造信息:与其他文本模型一样,图像生成模型也可以编造信息,尤其是在上下文提示较少时。
  3. 高结合问题:当生成图像需要依赖于其知识库时,它可能难以同时准确地呈现 10-20 多个不同的概念,例如完整的元素周期表。
  4. 精确绘图:模型可能在绘制涉及数据的图表时不准确。
  5. 多语言文本渲染:模型有时难以渲染非拉丁语言,并且字符可能不准确或产生幻觉,尤其是在更复杂的情况下。
  6. 编辑精度:当要求编辑图像生成的特定部分(例如拼写错误)时,结果并不总是有效,还可能出现在没有请求的情况下更改图像的其他部分或引入更多错误的情况。另一个错误是模型难以保持用户上传的人脸在编辑中的一致性,但OpenAI 预计将在一周内修复该错误。
  7. 小文本信息密集:众所周知,当被要求以非常小的尺寸呈现详细信息时,模型会遇到困难。

参考资料:1.GPT-4o 引爆全球吉卜力风格生图潮流!附10+玩法与教程2.Alan李厂长:《AI不无聊》第2期|GPT-4o 的生图能力,正在颠覆创意产业链的“底层逻辑3.新智元:不止吉卜力!GPT-4o新玩法全网疯传,网友:AI成精了4. https://openai.com/index/introducing-4o-image-generation/

读完同学Z的这篇文章后,我们不难发现,无论是GPT-4o的吉卜力童话、即梦AI的秒级出图,或是Reve lmage近乎真实的场景生成,这场AI图像革命早已超越了"技术秀场"的范畴,它正在悄然重构企业与用户之间的创造力边界。

对每一位混沌同学而言,这不仅是工具的迭代,更是一次重新定义创意生产关系的机遇。未来已来,未来的竞争一定会属于AI与人工协同的模式,这一点,混沌的同学需要早有意识,也要尽早布局。

2025李善友开年大课门票售卖倒计时6天:今天,我们站在旧时代和新时代的晨昏线上,移动互联网的大船已开到了世界尽头。

今天,所有不用AI的企业都成了传统企业,所有不用AI的人都成了传统从业者。

今天,混沌大课呼应AI时代蜕变重生,我们要陪伴万分之一的先锋者,一起提前半步,走入AI的黎明。

课已经10年,如果说过去我是在迭代,那么今年我可能会重构,因为时代变了,AI的黎明呼啸而来。

“第一批iPhone的使用者,最早在移动互联网创业成功”。没有人愿意错过AI,混沌已经All in。

今年大课,我想站在AI世界的基座上去讲述,这三年,我们亲身探索关于AI的一切,AI和创新将开启一个什么样的文明。

我想邀请地球上最硬核、最新锐、最有梦想的创造者们,一起来走入混沌,走出混沌。

在时代混沌的转折期,你的一个想法,可能就是未来文明的火种。——李善友 混沌创办人

4月25日-4月26日,在杭州大会展中心,善友教授会用2天时间,为混沌同学做闭门分享。

如果你正好有时间,千万不要错过善友教授的年度分享,它会帮助你在AI时代找寻新的机会和方向。

现场没有直播,是与善友教授面对面地流淌。

现在,我们诚挚地邀请你来参加,这场面向未来的AI盛会。

点击下方购票链接,可以了解到更多票务信息。

常见问题

GPT-4o的文生图功能有哪些亮点?

GPT-4o可以将日常场景转换为吉卜力风格图像,笔触和调色都像真实艺术家创作。它还能制作4格漫画、生成海报、解剖图、装修效果图等,只需简单提示词就能切换不同风格,生成完成度相当高。

国内AI模型与GPT-4o相比表现如何?

即梦AI处理速度很快(3-5秒生成4张图),但风格把握不够成熟,吉卜力风格特征不充分。可灵AI在图片转视频上出色,但排队等待时间长。整体上国内AI能实现基本功能替代,但精细度和稳定性有待提高。

AI图像生成模型存在哪些共性问题?

所有图文模型都存在文字渲染问题,复杂文字内容展示不理想。GPT-4o官方列出7大缺陷:错误裁剪长图、编造信息、难以同时呈现多个概念、绘图不准确、非拉丁文字渲染困难、编辑精度差、小文本密集信息处理困难。

Reve Create模型有什么特色功能?

Reve Create对真实图片生成效果出色,能生成杜甫真实照片或特朗普与查理·芒格交谈的逼真图像,几乎像拍摄完成。但该工具无法上传参考图,完全依赖文字描述生成图片。

AI图像生成对哪些行业可能产生影响?

家装行业设计师可能受影响,AI能快速生成装修效果图;广告行业不再需要真人模特,GPT-4o可结合商品图生成模特上身效果;创意产业如漫画创作、海报设计等都将被AI重构。