东方新闻  >   体育频道  >  正文

奥特曼亲自叫板Midjourney,GPT有了图像生成神器,免费用户也能用

具体来说,OpenAI根据图像和文本的联合分布对模型进行了训练,不仅学习了图像与语言的关系,还学习了图像之间的关系。同时,结合后训练,使得最终模型具有不错的视觉流畅性,并能够生成有用且上下文一致的图像。

免费用户要再等等,OpenAI多模态融合向前一步走

GPT-4o图像生成功能将从今天开始将作为ChatGPT中的默认图像生成器推出,优先每月200美元的Pro订阅用户,并在不久后提供给Plus和免费用户、企业用户和开发者。

同时,它也可以在Sora中使用。此前,OpenAI专门推出了图像生成应用DALL·E,而这款产品的用户同样也可以通过专用的DALL·E GPT访问。

这意味着,ChatGPT在多模态融合趋势方面又向前迈出了一步,此前大家对它的认知多是对话式的语言聊天工具,现在它已经具备音视频对话、图像理解和生成等多模态能力。

“随着我们的模型越来越强大,它对世界的了解也在加深。此前只能通过文本或代码来表达,现在这些模型可以将所知道的内容可视化,并以视觉方式呈现出来。”奥特曼说。

他希望,ChatGPT将向每个人提供创建工作图像的能力,让人们能够创造他们需要和想要的东西,使其不仅成为想象力的工具,也成为学习和交流的工具。

“这代表OpenAI正在朝着真正的多模态模型迈进,ChatGPT可以做一切事情,并给了用户更多的控制权。”奥特曼表示,“这代表我们在允许创作自由方面达到了新的高度”。

但从OpenAI的直播演示来看,图像生成等待的时间会比较长,往往需要长达一分钟,甚至更长时间。“我们的模型并不完美,目前存在多个限制,我们将通过模型改进来解决这些问题。”OpenAI表示。

“我们希望该工具不会创造令人反感的东西,将知识自由和控制权交到用户手中是正确的做法,但我们会观察进展并倾听社会的声音。”奥特曼还呼吁,为AI设定非常宽泛界限是正确的,而且随着越来越接近通用人工智能,这一点变得越来越重要。

在安全标准方面,OpenAI发布了多项举措。GPT-4o生成的图像会具备C2PA标示,这将识别图像是否来自GPT-4o,并构建了内部搜索工具,以验证内容是否来自该模型。同时,开发推理模型,对文本和输出图像进行审核,以符合政策。

目前,多模态融合是大模型发展的趋势之一。随着OpenAI在图像理解和生成层面完成布局,下一步可能就是集成Sora,实现视频的理解和生成的大一统。

此前预告的GPT-5作为融合大模型,是否会在多模态层面实现完整布局,又是值得期待的更新了。返回搜狐,查看更多

2025 03/26 13:58 搜狐科技

联系我们|eastday.com All Right Reserve 版权所有

奥特曼亲自叫板Midjourney,GPT有了图像生成神器,免费用户也能用

(5/6)
明珠号