奥特曼亲自叫板Midjourney，GPT有了图像生成神器，免费用户也能用

具体来说，OpenAI根据图像和文本的联合分布对模型进行了训练，不仅学习了图像与语言的关系，还学习了图像之间的关系。同时，结合后训练，使得最终模型具有不错的视觉流畅性，并能够生成有用且上下文一致的图像。

免费用户要再等等，OpenAI多模态融合向前一步走

GPT-4o图像生成功能将从今天开始将作为ChatGPT中的默认图像生成器推出，优先每月200美元的Pro订阅用户，并在不久后提供给Plus和免费用户、企业用户和开发者。

同时，它也可以在Sora中使用。此前，OpenAI专门推出了图像生成应用DALL·E，而这款产品的用户同样也可以通过专用的DALL·E GPT访问。

这意味着，ChatGPT在多模态融合趋势方面又向前迈出了一步，此前大家对它的认知多是对话式的语言聊天工具，现在它已经具备音视频对话、图像理解和生成等多模态能力。

“随着我们的模型越来越强大，它对世界的了解也在加深。此前只能通过文本或代码来表达，现在这些模型可以将所知道的内容可视化，并以视觉方式呈现出来。”奥特曼说。

他希望，ChatGPT将向每个人提供创建工作图像的能力，让人们能够创造他们需要和想要的东西，使其不仅成为想象力的工具，也成为学习和交流的工具。

“这代表OpenAI正在朝着真正的多模态模型迈进，ChatGPT可以做一切事情，并给了用户更多的控制权。”奥特曼表示，“这代表我们在允许创作自由方面达到了新的高度”。

但从OpenAI的直播演示来看，图像生成等待的时间会比较长，往往需要长达一分钟，甚至更长时间。“我们的模型并不完美，目前存在多个限制，我们将通过模型改进来解决这些问题。”OpenAI表示。

“我们希望该工具不会创造令人反感的东西，将知识自由和控制权交到用户手中是正确的做法，但我们会观察进展并倾听社会的声音。”奥特曼还呼吁，为AI设定非常宽泛界限是正确的，而且随着越来越接近通用人工智能，这一点变得越来越重要。

在安全标准方面，OpenAI发布了多项举措。GPT-4o生成的图像会具备C2PA标示，这将识别图像是否来自GPT-4o，并构建了内部搜索工具，以验证内容是否来自该模型。同时，开发推理模型，对文本和输出图像进行审核，以符合政策。

目前，多模态融合是大模型发展的趋势之一。随着OpenAI在图像理解和生成层面完成布局，下一步可能就是集成Sora，实现视频的理解和生成的大一统。

此前预告的GPT-5作为融合大模型，是否会在多模态层面实现完整布局，又是值得期待的更新了。返回搜狐，查看更多

2025 03/26 13:58 搜狐科技

相关推荐: 小米：目前仅能确定事故车并非部分网传的“自燃”; 全球首个！宇树人形机器人G1带货直播：1分钟卖货100万元媲美头部主播; 长期抹黑中国新能源蔚来法务部：“车曝台”一审败诉; 孟晚舟称华为拒绝机会主义：不焦虑、不迷失、不冒进; 小米SU7 Ultra女车主：家里的第18台车全面胜过法拉利、保时捷