奥特曼亲自叫板Midjourney，GPT有了图像生成神器，免费用户也能用

出品 | 搜狐科技

作者 | 梁昌均

编辑 | 杨锦

深夜放大招，这次OpenAI在图像生成上开始发力了。

3月26日凌晨，OpenAI宣布在ChatGPT和Sora中推出原生图像生成功能。这次，OpenAI CEO山姆·奥特曼也现身直播，称这是“最有趣、最酷炫的产品之一”和“巨大的进步”。

据介绍，OpenAI此次推出的图像生成功能，借助GPT-4o原生多模态模型，能够实现精确、准确、逼真的输出。

“我们一直认为图像生成应是语言模型的一项主要功能，因此我们将最先进的图像生成器集成到GPT-4o 中。”奥特曼表示，这意味着自由创作达到了新高度。

图像文本合体输出，多轮对话能保持一致性

奥特曼认为，图像生成已经出现一段时间，但它并没有发挥出真正的力量，在处理人们用于分享和创造信息的图像生成方面显得力不从心。

此次GPT-4o更新的图像生成功能在准确渲染文本、精确遵循指令，以及多轮对话保持一致性方面表现突出。

“一图胜千言，但有时在正确的位置生成几个词可以提升图像的意义。”GPT-4o可以将语言文字与图像结合，使图像生成成为一种视觉交流的工具。

根据将这句话分成七行，并让人物左右手分别拿有单词的指令，GPT-4o生成了如下照片，可以说精准完成文字在图像中的呈现。

在OpenAI的示例里，光影等细节也能在生成的图像中呈现出来，甚至还可以用它来画漫画。比如要求GPT-4o制作一幅四格漫画，四周留有一些边距，然后每格都有对应的文字内容。

可以说，GPT-4o最后生成的图片基本完成了指令的要求，尤其是漫画中对文字的输出基本没有错误，这下漫画师又要瑟瑟发抖了。

2025 03/26 13:58 搜狐科技