OpenAI o3在软件工程能力测试中表现如何？

在软件工程考试（SWE-Bench Verified）中，OpenAI o3取得了71.7%的成绩，比o1模型的表现更强，这证明了其具备像一流软件工程师一样写出高质量代码的能力。

OpenAI o3在数学推理方面有什么突破？

在FrontierMath基准测试中，OpenAI o3达到了25.2%的成功率。该测试由60多位顶尖数学家合作开发，题目均为原创且未发布过，此前GPT-4等模型的成功率不足2%，o3的表现标志着其在高级数学推理上进入了新的层次。

ARC-AGI基准测试是什么，o3表现如何？

ARC-AGI是一个旨在通过抽象和推理任务测试AI系统通用智能的基准，其任务要求识别模式并解决新问题。OpenAI o3在该测试中取得了87.5%的分数，首次超过了85%的人类阈值，从2024年初的5%到年底的87.5%，进展神速。

OpenAI o3目前是否向公众开放？

OpenAI o3目前尚未向公众开放，仅对红队（Red Team）开放测试。不过，基于o3训练的三个小尺寸模型（如o3-mimi）预计在1月底可能对外开放，但很可能是Pro会员专属的模型。

OpenAI 12天直播主要发布了哪些产品？

OpenAI 12天直播发布了多项重要产品，包括：满血o1上线及Pro会员、Sora正式发布、4o实时视频理解、ChatGPT Search全量开放、o1的API、实时语音API、偏好微调能力（PFT），以及最终压轴的o3模型。

2025，将是AI行业真正的星辰大海？

12月21日凌晨2点，OpenAI的12天直播，终于来到了最终章。奥特曼，也在一片圣诞的气息中终于回归。为大家带来了最后的压轴大戏。OpenAI o3。又一次超群，又一次把模型的能力，推到了新的高度。也向全世界证明了，OpenAI，依然在铁王座上牢不可摧。

而OpenAI直播一完，X上基本就沸腾了。o3的能力，对现在所有模型，几乎都直接是降维打击。

看下o3的能力吧。一些粗的评测集简单过一下。

左边的是软件工程考试（SWE-Bench Verified），这就像是一个考写程序的考试，比如你写一个软件要它快速、准确，还不能有 bug（小错误）。这是考察 o3 是否能像一流的软件工程师一样写出完美的代码。o3 的成绩：71.7%，比o1还强了不少。

右边的那个基准比较猛，Codeforces，一个全球著名的编码竞赛平台。o3的得分是2727，这个得分，相当于整个榜单的第175名，已经超越了99.99%的人类了。o1的代码能力已经强到爆炸了，而o3，又向AGI的山顶，前进了一大步。

FrontierMath，Epoch AI 开发的一个数学基准测试，由60多位顶尖数学家的合作开发，旨在评估人工智能在高级数学推理方面的能力。而且为了避免数据污染，所有的题目都是原创的且从来没有发布过的新题目。之前GPT-4 和 Gemini 1.5 Pro这种模型去评估的时候，成功功率不足2%，与其他传统数学基准（如 GSM-8K 和 MATH）中超过90%的成功率形成鲜明对比。

而这一次，o3直接达到了25.2。当各大其他模型都还在卷传统数学基准的时候，o3真的已经进入了另一个世界了。就像大家还在大斗师阶段互相卷，你是五星大斗师，我是八星大斗师。两者争论不休，正准备要比试比试，忽然就看到一个斗宗强者踏空而行。

然后，就是我觉得，整个基准里，最有趣的一个基准了：ARC-AGI。

先说说这是个啥玩意。ARC-AGI于2019年首次提出，旨在通过一系列抽象和推理任务来测试AI系统的能力。主要是因为传统的技能测量方法并不能有效代表智能，因为它们往往依赖于先前知识和经验，而真正的智能应体现在广泛的适应能力和通用性上。

所以，ARC-AGI诞生了，里面的这些任务要求AI识别模式并解决新问题，每个任务由输入输出示例组成。这些任务以网格形式呈现，每个方块可以是十种颜色中的一种，网格的大小可以从1x1到30x30不等。参与者需要根据给定的输入生成正确的输出，测试其推理和抽象能力。可以简单的理解成，找规律。大概就是这样的。非常的难且抽象。

过去几代模型的评分在此：

GPT-2 (2019): 0%
GPT-3 (2020): 0%
GPT-4 (2023): 2%
GPT-4o (2024): 5%
o1-preview (2024): 21%
o1 (2024): 32%
o1 Pro (2024): ~50%

但是今天，o3的分数，达到了恐怖的87.5%。从0%到5%，整整花了5年的时间，而如今，从5%到87.5%，仅仅只花了半年。

而对应的，人类的阈值分数，是85%。我们通往AGI的路上，已经没有任何阻碍了。

不过o3强归强，但是又是一个期货，OpenAI目前只对红队开放，如果是巨佬的话，可以去申请试试。目前不知道o3什么时候放出，但是OpenAI又基于o3，训了3个小尺寸的o3模型。目前o3-mimi，预估在1月底可以对外开放，但是感觉到时候，肯定又是pro会员专属的模型了。

我越来越期待，2025年AI行业的进化了。推理模型、Agent、AI硬件、世界模型。每一个都是比这个中间态的2024，都更让人兴奋的东西。2025，必是AI行业，真正的星辰大海。

我们也在最后，回顾一下这12天的直播吧。

Day 1：满血o1上线，ChatGPT Pro会员上线，o1 pro推出。
Day 2：基于o1的强化微调。
Day 3：Sora正式发布。
Day 4：ChatGPT Canvas全员开放以及小功能更新。
Day 5：给苹果站台，宣传苹果全系接入GPT。
Day 6：4o的实时视频理解上线。
Day 7：ChatGPT发布新建文件夹“项目”功能。
Day 8：ChatGPT Search全量开放，搜索体验大幅优化。
Day 9：发布了o1的API、更新了实时语音的API、发布了偏好微调能力（PFT）。
Day 10：物理意义上的可以给ChatGPT打电话了。
Day 11：炒冷饭，ChatGPT 桌面版能读到别的应用。
Day 12：OpenAI o3正式发布。

《潘多拉魔盒or阿拉丁神灯：OpenAI连续12场发布会将如何改变2025？》

OpenAI连续12场发布会，每一次都带来了振聋发聩的技术突破与产品创新，究竟是扩大技术焦虑还是真解决问题？是在用概念画饼还是真科技落地？2025年的AI行业究竟是少数人狂欢还是真全民受益？

12月28号，不仅一场关于AI技术趋势的分享，更是一场关于个人未来发展的启示。AI带来的不仅是工具的进化，更是思维的迭代与格局的重塑。

老师信息：

主讲人：田渊栋卡耐基梅隆大学机器人研究所博士、硅谷知名华人AI科学家、科幻小说《破晓之钟》作者

圆桌嘉宾：林凡脉脉创始人兼CEO、懂AI且最懂中国职场的男人

支涛云迹科技创始人、人工智能机器人行业先行者、混沌学园校友

任鑫云九资本合伙人、AI炼金术主理人、混沌创新领教

张雷混沌合伙人、混沌在线业务负责人/AI产品负责人、混沌创新领教

【重磅直播】2025，将是AI行业真正的星辰大海？

常见问题

OpenAI o3在软件工程能力测试中表现如何？

OpenAI o3在数学推理方面有什么突破？

ARC-AGI基准测试是什么，o3表现如何？

OpenAI o3目前是否向公众开放？

OpenAI 12天直播主要发布了哪些产品？