OpenAI并未让DeepSeek惊出一身冷汗

2025-04-17 23:25 浅语科技

“OpenAI的创新好像到瓶颈期了。”一位业界人士这样说道。

今日凌晨，预热了很久的OpenAI o3模型完整版终于面世，且与以往直播“挤牙膏”式的依次、慢吞发布方式不同的是，这次o3和o4-mini是同时发布。

在OpenAI官方的陈述中，o3和o4-mini的亮点主要在于可以组合调用ChatGPT中的各个工具，像是网络搜索、Python、图像分析、文件解释和图像生成等。这可以看作是OpenAI开始后发补足自身在Agent能力上的探索。

其中，o3作为推理模型，在编程、数学、科学、视觉感知等多个维度的基准测试中都刷新了纪录。比如在Codeforces、SWE-bench、MMMU基准测试中，视觉任务准确率高达87.5%，而MathVista达到75.4%。

其实分数、榜单，这些都是常规操作。相较于以往，这次的最大不同在于，o3和o4-mini将上传的图像直接集中到思维链中，这就意味着，图像不仅仅是被看到，还能被用来作为思考过程中的一部分。

从OpenAI团队成员、中科大校友Jiahui Yu发布的帖文来看，“用图像思考”应该是OpenAI去年9月发布o系列模型以来，就在研发计划中，之前还悄悄推出了o1 Vision并进行了初步预览，但并没有取得很好的效果，也没有引起关注，直到这次在o3和o4-mini上实现了这一能力。

根据外部专家评估，o3作为o1系列模型的继任者，其在复杂问题上的错误率要比后者低20%，适合在生物学、数学和工程领域的复杂问题查询。

针对这一点，国外一位医学博士在测评后发帖表示，这一点确实有很大进步，当他向o3来提问一些颇具挑战性的临床或医学问题时，回答精准、全面，符合对一位该领域真正专家的期望。

1 2 3 下一页