奥特曼亲自叫板Midjourney,GPT有了图像生成神器,免费用户也能用
具体来说,OpenAI根据图像和文本的联合分布对模型进行了训练,不仅学习了图像与语言的关系,还学习了图像之间的关系。同时,结合后训练,使得最终模型具有不错的视觉流畅性,并能够生成有用且上下文一致的图像。
免费用户要再等等,OpenAI多模态融合向前一步走
GPT-4o图像生成功能将从今天开始将作为ChatGPT中的默认图像生成器推出,优先每月200美元的Pro订阅用户,并在不久后提供给Plus和免费用户、企业用户和开发者。
同时,它也可以在Sora中使用。此前,OpenAI专门推出了图像生成应用DALL·E,而这款产品的用户同样也可以通过专用的DALL·E GPT访问。
这意味着,ChatGPT在多模态融合趋势方面又向前迈出了一步,此前大家对它的认知多是对话式的语言聊天工具,现在它已经具备音视频对话、图像理解和生成等多模态能力。
“随着我们的模型越来越强大,它对世界的了解也在加深。此前只能通过文本或代码来表达,现在这些模型可以将所知道的内容可视化,并以视觉方式呈现出来。”奥特曼说。
他希望,ChatGPT将向每个人提供创建工作图像的能力,让人们能够创造他们需要和想要的东西,使其不仅成为想象力的工具,也成为学习和交流的工具。
“这代表OpenAI正在朝着真正的多模态模型迈进,ChatGPT可以做一切事情,并给了用户更多的控制权。”奥特曼表示,“这代表我们在允许创作自由方面达到了新的高度”。
但从OpenAI的直播演示来看,图像生成等待的时间会比较长,往往需要长达一分钟,甚至更长时间。“我们的模型并不完美,目前存在多个限制,我们将通过模型改进来解决这些问题。”OpenAI表示。
“我们希望该工具不会创造令人反感的东西,将知识自由和控制权交到用户手中是正确的做法,但我们会观察进展并倾听社会的声音。”奥特曼还呼吁,为AI设定非常宽泛界限是正确的,而且随着越来越接近通用人工智能,这一点变得越来越重要。
在安全标准方面,OpenAI发布了多项举措。GPT-4o生成的图像会具备C2PA标示,这将识别图像是否来自GPT-4o,并构建了内部搜索工具,以验证内容是否来自该模型。同时,开发推理模型,对文本和输出图像进行审核,以符合政策。
目前,多模态融合是大模型发展的趋势之一。随着OpenAI在图像理解和生成层面完成布局,下一步可能就是集成Sora,实现视频的理解和生成的大一统。
此前预告的GPT-5作为融合大模型,是否会在多模态层面实现完整布局,又是值得期待的更新了。返回搜狐,查看更多
-
浅 浅语科技
iPhone 16e开售1个月价格暴跌:3699元起
-
浅 浅语科技
华人掌管英特尔后:壮士断腕!
-
浅 浅语科技
如果不幸掉进黑洞会发生什么 研究有了新发现
-
浅 浅语科技
一年净赚8亿多!胖东来基层员工平均月薪9886元 店长7.8万元
-
浅 浅语科技
沈阳联通实现全省首个万兆家宽自动开通:实测速率达1GB/s
-
浅 浅语科技
新能源汽车领域夸大宣传亟待纠偏 专家痛批:自动驾驶不是卖点 应重罚
-
浅 浅语科技
蔚来李斌回应600亿投入:资金究竟花在哪了
-
浅 浅语科技
阔折叠能有多不同 华为Pura X让我有了新的理解
-
浅 浅语科技
比亚迪两船同框!“西安号”汽车滚装船正式下水
-
浅 浅语科技
台积电迎接2nm订单:每片晶圆卖出天价 客户排队抢
-
浅 浅语科技
从智驾到司机接管 专家:最少需10秒才能唤回分心的驾驶员
-
浅 浅语科技
雅迪电动车也有百度地图导航了:支持红绿灯倒计时
-
大 大众报业·齐鲁壹点
小米SU7高速上碰撞爆燃?雷军评论区沦陷,客服回应:全力配合调查
-
北 北青网
游戏《凝渊》开启付费测试:国产女性向二次元手游探索叙事新边界
-
浅 浅语科技
Switch 2终于来了!京东推1元6大权益:回收Switch旧机至高补320元
-
浅 浅语科技
小米回应车祸致3死事件6大质疑:为何不联系家属、车会起火、车门是否能打开
-
人 人民网-河北频道,供稿:人民资讯
工行河北省分行多维发力助推科技型民营企业攀高峰
-
浅 浅语科技
对人类与生俱来的恐惧 是非洲大型动物的生存之道
-
浅 浅语科技
机器哮天犬登上婺剧舞台:“二郎神”和“哪吒”差点绷不住笑
-
浅 浅语科技
国产新势力围攻失败!特斯拉一季度国内销量13.72万台 创三年来新高
-
浅 浅语科技
小车高速雨天失控连翻5圈!安全带保住司机性命 仅受轻伤
-
浅 浅语科技
3年增长2倍!比亚迪研发人员数量首次超过华为
-
浅 浅语科技
Switch 2游戏带头涨价