开云体育(中国)官方网站但可能连试管齐拿不稳-Kaiyun网页版·「中国」开云官方网站登录入口

发布日期：2025-01-06 09:17 点击次数：166

The following article is from AI 深度相干员 Author AI 职责坊开云体育(中国)官方网站

作家 | AI 职责坊

起原 | AI 深度相干员管千里着简略慧

洽商和谐 | 13699120588

著述仅代表作家本东说念主不雅点

就在刚刚，OpenAI 第 12 天发布会上的一则重磅音信让寰球科技圈爽气：新一代 AI 模子 o3 过甚 o3-mini 端庄亮相。这不是一场闲居的居品发布会，而是一次足以转变 AI 程度的重要事件。

让寰球为之瞩规画是，o3 展现出了超越前代的惊东说念主智力。在编程鸿沟，它展示出了失色顶级法子员的实力；在科学推理方面，它创造了多项新记录；更令东说念主期待的是，它的精简版 o3-mini 将在 1 月底向公众绽放，这意味着这项立异性时间很快就将走入闲居东说念主的生存。

究竟 o3 有哪些突破性的创新？它又将怎么转变咱们的将来？让咱们一齐来望望这场发布会上的八大看点，非常是第五点，它可能会再行影响咱们对东说念主工智能的通盘融会。

看点 1. 冲突东说念主类极限的 AI 天才

许多东说念主齐在问：o3 到底有多强？让我用最直不雅的姿色告诉你——它几乎强得离谱！这个全新的 AI 模子在各个鸿沟齐展现出了惊东说念主的实力（如下图），其中最引东说念主注规画是它在编程鸿沟的推崇。

（多个环节鸿沟测试，非常是在编程和数学推明智力）

在编程界，有一个叫 CodeForces 的平台，这就像是法子员的奥林匹克竞赛。o3 在这个平台上的预期评分越过 2700 分！对闲居东说念主来说，这个数字可能没什么嗅觉，但请听我说完：一个闲居法子员，可能悉力一辈子齐够不上 2000 分。而 2700 分，这也曾是宇宙顶尖水平了！

不仅是编程，o3 在 GPQA 测试中拿到了 87.7% 的钻石级收获。这个收获比谷歌的 Gemini Flash 2 高出了整整 25.7 个百分点！要知说念，在 AI 鸿沟，1% 的普及齐吊唁常艰苦的，而 o3 一下子率先这样多，几乎便是降维打击！这种差距就像是高考状元和闲居考生之间的差距，几乎是降维打击。

而在软件工程鸿沟，o3 创下了 71.7% 的新记录。关于一个 AI 来说，这意味着它也曾大致泄露、遐想和罢了复杂的软件系统。这就像一个机器东说念主不仅会作念菜，还能遐想和筹办一通盘米其林餐厅！

看点 2. AI 超越传统念念维智力

o3 最一鸣惊人的场合在于它的 " 念念考姿色 "。传统的 AI 就像是一个超等贵寓库，而 o3 更像是一个大致寂寥念念考的大脑。它接收了一种叫作念 " 深度学习驱动的法子搜索系统 " 的时间，这种时间让它大致像东说念主类相同进行创造性念念考。

说到这里，我不得不共享一个意旨的类比：传统 AI 就像是一个死记硬背的学生，测验时只会照搬讲义上的谜底。而 o3 则像是一个着实泄露学问的学霸，大致交融判辨，举一反三。它使用了雷同于 AlphaZero 的蒙特卡罗树搜索门径，这使得它大致像东说念主类相同进行创造性念念考。

比如说，迎面临一个从未见过的问题时：

传统 AI 会像翻字典相同，在数据库里寻找雷同的谜底

而 o3 会像东说念主类相同，先分析问题的实质，然后一步步推理出解决决策

这种念念维姿色的突破，让 o3 大致解决更多复杂和创新性的问题。它不仅能复兴 " 是什么 "，还能诠释 " 为什么 "，致使能建议 " 怎么更好 "。这种智力的突破，让它大致应答多样前所未见的挑战。

看点3. 令东说念主惊羡的腾贵贪图本钱

不外，这种强劲的智力也带来了广宽的贪图本钱。说到 o3 的本钱，许多东说念主齐被吓到了：解决一个复杂问题可能需要破耗数千好意思元，铺张数千万个贪图象征。但我要告诉你一个不相同的视角。

让咱们作念个通俗的贪图：

一个高档法子员的年薪可能在 50 万以上

解决一个复杂问题可能需要几周致使几个月

而 o3 可能几个小时就能处置

从这个角度来看，o3 的本钱其实吊唁常合算的！况兼，OpenAI 也曾示意，将来代币价钱有望下跌。这就像往常的贪图机，从最初的天价到当今东说念主手一台，o3 的使用本钱也会变得越来越亲民。

看点 4. 不得不承认的 " 短板 "

o3 也有它的局限性，况兼这些局限性相配意旨，致使有点 " 可儿 "。它最大的局限在于短少与现实宇宙的告成互动智力。

早先，它有点像一个 " 表面家 "。天然能给出完好的解决决策，但便是没法切身脱手作念。这让我想起了那些在实验室里指引山河的科学家，能遐想出完好的实验决策，但可能连试管齐拿不稳。o3 便是这样，它能告诉你奈何作念，但不行着实 " 脱手 " 去作念。

更非凡念念的是，它还离不开 " 东说念主类淳厚 "。它需要依赖众人标注的念念维链数据来学习，就像一个恒久长不大的学生，总需要淳厚在独揽指挥。这少许和围棋 AI AlphaZero 酿成了昭着对比，AlphaZero 不错通过自我对弈饱和自主学习，而 o3 还作念不到这少许。

看点5. 距离 " 通用东说念主工智能 " 有多远？

（AGI 测试：东说念主类是 85%VS o3 是 87.5%，东说念主类完败）

许多东说念主认为 o3 如斯强劲，是不是就意味着咱们罢了了传奇中的 " 通用东说念主工智能 "（AGI）？我要说：别急，事情没那么通俗。

让我告诉你一个意旨的惬心：在行将发布的 ARC-AGI-2 测试中，o3 即使开足马力，展望得分也就 30 分不到。通俗说，咱们在学校测验时，频繁会有不同难度的试卷。有基础题，也有大致侦察学生着实泄露智力的概述题。ARC-AGI-2 测试就像是为东说念主工智能准备的一个异常 " 测验 "。

这个 " 测验 " 相配非凡念念。它不是考 AI 背诵了些许学问，而是测试 AI 是否果然具备 " 泄露力 " 和 " 念念考力 "。打个比喻：

闲居测验可能会问："1+1=？"

而 ARC-AGI-2 会问雷同这样的问题：" 淌若你有一个苹果，一又友又给你一个苹果，你该奈何贪图总和？为什么要这样贪图？淌若是梨子呢？"

这种测试非常好坏的场合在于，它侦察的是 AI 是否果然 " 懂 "，而不是通俗的 " 记着 "。就像隔离一个背题的学生和着实泄露学问的学生相同。

意旨的是，在这个测试中，o3 这个超等好坏的 AI，展望只可得到 30 分傍边，而闲居东说念主类随敷衍便就能得 95 分以上。这阐发什么呢？这说来日然 o3 在某些方面很好坏（比如编程），但在着实泄露和念念考问题的智力上，还远远比不上东说念主类。这就像一个学霸，数学考 100 分，英语也考 100 分，但让他处理一些生存中的现实问题时，反而不如一个闲居东说念主来得如臂使指。

这个惬心告诉咱们什么？

AI 的 " 智能 " 和东说念主类的 " 智能 " 是不同的

o3 天然在某些鸿沟超越了东说念主类，但在通用性方面还远远不够

着实的 AGI 应该具备更全面的智力，而不是只在特定鸿沟推崇出色

是以，这个 ARC-AGI-2 测试就像是一面镜子，它明晰地告诉咱们：AI 当今到底发展到了什么水平，还有哪些不及需要改良。这关于通盘 AI 鸿沟的发展齐相配紧迫。

看点6. AI 进化史上的里程碑时辰！

回归 AI 的发展经由，从 GPT-3 到 o3 的每一步进展齐澄澈可见：

GPT-3：ARC-AGI 测试得分为 0

GPT-4：接近 0 分

GPT-4o：达到 5 分

o3：罢了重要突破

这短短几年的进化史，展现了 AI 时间突飞大进的发展速率。最早的 GPT-3 就像是一个懵懂的学前儿童，在 ARC-AGI 这个专门磨真金不怕火 AI 真实泄露力的测试中，饱和无法应答，拿了个令东说念主莫名的零分。这个阶段的 AI 天然也曾能和东说念主类对话，但在着实需要深度念念考的问题眼前却显得安坐待毙。

当 GPT-4 登场时，AI 界迎来了第一缕晨曦。它在测试中天然只赢得了接近于零的收获，但这轻飘的朝上却让相干东说念主员看到了但愿。这就像一个孩子终于迈出了踉跄的第一步，天然还很不屈稳，却预示着更大的突破行将到来。GPT-4o 的出现则标记着 AI 驱动着实具备了初步的推明智力。5 分的收获看似微不及说念，但却代表着质的飞跃。

而今天，o3 的横空出世透彻改写了 AI 的历史程度。这种朝上就像东说念主类从会步碾儿到会跑步，再到会开车，临了告成会飞相同！况兼，这个朝上主要体当今两个中枢智力上：

学问储备更强劲了：就像给大脑装了个超等硬盘

学问期骗更生动了：不仅会背，还会用，还能创新！

看点 7. o3 的开源规画

当今告诉你一个超等慷慨东说念主心的音信：OpenAI 规画在 2025 年股东 o3 的开源复现！这是什么主见？

这就像把一个超等天才的大脑复制给全宇宙的科学家相干。通过开源，更多的相干者和建立者将大致参与到 o3 的改良中来，这可能会催生出更多令东说念主惊喜的创新应用。

同期，相干团队正在建立全新的 ARC-AGI-2 基准测试，这将为通盘 AI 行业制定新的圭臬。这种圭臬的普及，将股东 AI 时间向更高水平发展。

看点 8. 想参与转变历史吗

临了要说的是，OpenAI 当今绽放了红队测试央求！这意味着什么？这意味着你有契机：

成为首批体验 o3 的东说念主

参与塑造 AI 的将来

为 AI 安全性作出孝顺

这就像参与了一场转变东说念主类历史的伟大实验，何等可贵的契机啊！

加入一语气 https://openai.com/index/early-access-for-safety-testing/

写在临了：

o3 的出现不单是是一个新址品的发布，而是通盘东说念主类社会上前迈出的一大步。天然它还不完好，还不是着实的 AGI，但它也曾向咱们展示了 AI 的无穷可能。

将来已来，环节是咱们怎么与之共处，怎么利用它来创造更好意思好的宇宙。

PS：你对 o3 有什么目的？迎接在斟酌区留言谋划！

原视频一语气：https://openai.com/index/early-access-for-safety-testing/

开云体育(中国)官方网站但可能连试管齐拿不稳-Kaiyun网页版·「中国」开云官方网站 登录入口

友情链接：

开云体育(中国)官方网站但可能连试管齐拿不稳-Kaiyun网页版·「中国」开云官方网站登录入口