【重磅直播】2025,将是AI行业真正的星辰大海?

12月21日凌晨2点,OpenAI的12天直播,终于来到了最终章。奥特曼,也在一片圣诞的气息中终于回归。为大家带来了最后的压轴大戏。OpenAI o3。又一次超群,又一次把模型的能力,推到了新的高度。也向全世界证明了,OpenAI,依然在铁王座上牢不可摧。

而OpenAI直播一完,X上基本就沸腾了。o3的能力,对现在所有模型,几乎都直接是降维打击。

看下o3的能力吧。一些粗的评测集简单过一下。

左边的是软件工程考试(SWE-Bench Verified),这就像是一个考写程序的考试,比如你写一个软件要它快速、准确,还不能有 bug(小错误)。这是考察 o3 是否能像一流的软件工程师一样写出完美的代码。o3 的成绩:71.7%,比o1还强了不少。

右边的那个基准比较猛,Codeforces,一个全球著名的编码竞赛平台。o3的得分是2727,这个得分,相当于整个榜单的第175名,已经超越了99.99%的人类了。o1的代码能力已经强到爆炸了,而o3,又向AGI的山顶,前进了一大步。

FrontierMath,Epoch AI 开发的一个数学基准测试,由60多位顶尖数学家的合作开发,旨在评估人工智能在高级数学推理方面的能力。而且为了避免数据污染,所有的题目都是原创的且从来没有发布过的新题目。之前GPT-4 和 Gemini 1.5 Pro这种模型去评估的时候,成功功率不足2%,与其他传统数学基准(如 GSM-8K 和 MATH)中超过90%的成功率形成鲜明对比。

而这一次,o3直接达到了25.2。当各大其他模型都还在卷传统数学基准的时候,o3真的已经进入了另一个世界了。就像大家还在大斗师阶段互相卷,你是五星大斗师,我是八星大斗师。两者争论不休,正准备要比试比试,忽然就看到一个斗宗强者踏空而行。

然后,就是我觉得,整个基准里,最有趣的一个基准了:ARC-AGI。

先说说这是个啥玩意。ARC-AGI于2019年首次提出,旨在通过一系列抽象和推理任务来测试AI系统的能力。主要是因为传统的技能测量方法并不能有效代表智能,因为它们往往依赖于先前知识和经验,而真正的智能应体现在广泛的适应能力和通用性上。

所以,ARC-AGI诞生了,里面的这些任务要求AI识别模式并解决新问题,每个任务由输入输出示例组成。这些任务以网格形式呈现,每个方块可以是十种颜色中的一种,网格的大小可以从1x1到30x30不等。参与者需要根据给定的输入生成正确的输出,测试其推理和抽象能力。可以简单的理解成,找规律。大概就是这样的。非常的难且抽象。

过去几代模型的评分在此:

  • GPT-2 (2019): 0%
  • GPT-3 (2020): 0%
  • GPT-4 (2023): 2%
  • GPT-4o (2024): 5%
  • o1-preview (2024): 21%
  • o1 (2024): 32%
  • o1 Pro (2024): ~50%

但是今天,o3的分数,达到了恐怖的87.5%。从0%到5%,整整花了5年的时间,而如今,从5%到87.5%,仅仅只花了半年。

而对应的,人类的阈值分数,是85%。我们通往AGI的路上,已经没有任何阻碍了。

不过o3强归强,但是又是一个期货,OpenAI目前只对红队开放,如果是巨佬的话,可以去申请试试。目前不知道o3什么时候放出,但是OpenAI又基于o3,训了3个小尺寸的o3模型。目前o3-mimi,预估在1月底可以对外开放,但是感觉到时候,肯定又是pro会员专属的模型了。

我越来越期待,2025年AI行业的进化了。推理模型、Agent、AI硬件、世界模型。每一个都是比这个中间态的2024,都更让人兴奋的东西。2025,必是AI行业,真正的星辰大海。

我们也在最后,回顾一下这12天的直播吧。

  1. Day 1:满血o1上线,ChatGPT Pro会员上线,o1 pro推出。
  2. Day 2:基于o1的强化微调。
  3. Day 3:Sora正式发布。
  4. Day 4:ChatGPT Canvas全员开放以及小功能更新。
  5. Day 5:给苹果站台,宣传苹果全系接入GPT。
  6. Day 6:4o的实时视频理解上线。
  7. Day 7:ChatGPT发布新建文件夹“项目”功能。
  8. Day 8:ChatGPT Search全量开放,搜索体验大幅优化。
  9. Day 9:发布了o1的API、更新了实时语音的API、发布了偏好微调能力(PFT)。
  10. Day 10:物理意义上的可以给ChatGPT打电话了。
  11. Day 11:炒冷饭,ChatGPT 桌面版能读到别的应用。
  12. Day 12:OpenAI o3正式发布。

《潘多拉魔盒or阿拉丁神灯:OpenAI连续12场发布会将如何改变2025?》

OpenAI连续12场发布会,每一次都带来了振聋发聩的技术突破与产品创新, 究竟是扩大技术焦虑还是真解决问题?是在用概念画饼还是真科技落地?2025年的AI行业究竟是少数人狂欢还是真全民受益?

12月28号,不仅一场关于AI技术趋势的分享,更是一场关于个人未来发展的启示。AI带来的不仅是工具的进化,更是思维的迭代与格局的重塑。

老师信息:

主讲人:田渊栋 卡耐基梅隆大学机器人研究所博士、硅谷知名华人AI科学家、科幻小说《破晓之钟》作者

圆桌嘉宾:林凡 脉脉创始人兼CEO、懂AI且最懂中国职场的男人

支涛 云迹科技创始人、人工智能机器人行业先行者、混沌学园校友

任鑫 云九资本合伙人、AI炼金术主理人、混沌创新领教

张雷 混沌合伙人、混沌在线业务负责人/AI产品负责人、混沌创新领教

常见问题

OpenAI o3在软件工程能力测试中表现如何?

在软件工程考试(SWE-Bench Verified)中,OpenAI o3取得了71.7%的成绩,比o1模型的表现更强,这证明了其具备像一流软件工程师一样写出高质量代码的能力。

OpenAI o3在数学推理方面有什么突破?

在FrontierMath基准测试中,OpenAI o3达到了25.2%的成功率。该测试由60多位顶尖数学家合作开发,题目均为原创且未发布过,此前GPT-4等模型的成功率不足2%,o3的表现标志着其在高级数学推理上进入了新的层次。

ARC-AGI基准测试是什么,o3表现如何?

ARC-AGI是一个旨在通过抽象和推理任务测试AI系统通用智能的基准,其任务要求识别模式并解决新问题。OpenAI o3在该测试中取得了87.5%的分数,首次超过了85%的人类阈值,从2024年初的5%到年底的87.5%,进展神速。

OpenAI o3目前是否向公众开放?

OpenAI o3目前尚未向公众开放,仅对红队(Red Team)开放测试。不过,基于o3训练的三个小尺寸模型(如o3-mimi)预计在1月底可能对外开放,但很可能是Pro会员专属的模型。

OpenAI 12天直播主要发布了哪些产品?

OpenAI 12天直播发布了多项重要产品,包括:满血o1上线及Pro会员、Sora正式发布、4o实时视频理解、ChatGPT Search全量开放、o1的API、实时语音API、偏好微调能力(PFT),以及最终压轴的o3模型。