很强也很贵！OpenAI12天12场直播收官，官宣最新推理模型o3

2024-12-21 12:10 澎湃新闻

ARC-AGI（通用人工智能抽象与推理语料库）发起者、Keras（用Python编写的高级神经网络API）之父弗朗索瓦·肖莱（Francois Chollet）在o3发布后公布了一篇测试报告。

报告显示，o3在高计算量模式下获得了87.5%的分数，在低计算量模式下，性能是o1的三倍。成本方面，低计算量模式下，每个任务需要花费20美元，而在高计算量模式中每个任务需要数千美元。

肖莱表示：“它非常昂贵，但并不只是‘蛮干’——这些能力是全新的领域，需要科学界的认真关注。”

弗朗索瓦·肖莱对于o3不同计算模式的测试结果

肖莱认为，虽然o3给人留下了深刻印象，是迈向AGI的一个重要里程碑，但并不就是AGI，仍然有相当多非常简单的ARC-AGI-1的任务是o3无法解决的，同时还有迹象表明ARC-AGI-2对o3来说仍极具挑战性，“这表明在不涉及专业知识的情况下，创建对人类来说容易但对人工智能来说不可能的不饱和、有趣的基准仍然是可行的。当创建这样的测试变得完全不可能时，我们将拥有AGI”。

当然，ARC-AGI只是AI领域的重要基准之一，对AGI的定义只是其中之一。

肖莱称，主要需要解决的问题是o3背后技术的扩展瓶颈在哪。如果人类标注的CoT数据（Chain-of-Thought，思维链）是一个主要瓶颈，那么它的能力就会像大模型一样迅速达到顶峰（直到下一个架构出现）。如果唯一的瓶颈是测试时间搜索（Test-Time Search），那么未来我们将看到持续的扩展。

值得一提的是，除了OpenAI，各家AI公司近期也纷纷发布推理模型。

11月16日，月之暗面（Moonshot AI）Kimi推出新一代数学推理模型k0-math；11月20日，DeepSeek发布了首个推理模型DeepSeek-R1-Lite预览版。11月28日，阿里云通义团队发布全新AI推理模型QwQ-32B-Preview；在当地时间12月19日，谷歌发布首个推理模型Gemini 2.0 Flash Thinking。

英伟达CEO黄仁勋在10月的一次访谈中曾表达了对于推理的看好。他认为：“现在我们在后训练和推理阶段看到了扩展，预训练再也不被视为艰难，推理也变得复杂。推理方面即将因推理链的出现而大幅增长……这是一场智能生产的革命，推理的增长将达到亿倍的规模，这就像上学是为了将来在社会中有所贡献，训练模型很重要，但最终的目标是推理”。

月之暗面Kimi创始人杨植麟也在11月表示，推理的占比必然会远超训练，AI产品包括AI技术接下来的发展，很重要的能力就是更加深度的推理，能够把现在只是短链路的简单的问答，变成更长链路的组合式任务的操作。

上一页 1 2 3

很强也很贵！OpenAI12天12场直播收官，官宣最新推理模型o3

今日热点

小编精选

视角