奥特曼亲自叫板Midjourney，GPT有了图像生成神器，免费用户也能用

OpenAI还提到，其它模型在处理5-8个对象时会遇到困难，但GPT-4o可以处理多达10-20个不同的对象，且能体现对象与其特征的关系，使得控制更加精确，并呈现出细节。

比如酒杯里面的一滴红酒，GPT-4o生出来的图像看起来确实只有一滴红酒。对于数学方程的复杂描述，也能准确生成图像。

此外，GPT-4o还可以分析和学习用户上传的图像，将其详细信息无缝集成到其上下文中，为图像生成提供信息。OpenAI还强调，由于是在大量多样化的图像风格上进行训练，GPT-4o生成的图片逼真度和风格更为自然。

奥特曼表示，GPT-4o的图像生成能力得益于用全模态模型进行训练。“它不仅是一个语言模型，还是一个图像、音频等所有模态的模型，可以理解和生成，可以在模态之间无缝切换。”

2025 03/26 13:58 搜狐科技