• 丝袜 龟责 OpenAI追究发布o3 - 通往AGI的路上,如故莫得了任何禁绝

    发布日期:2024-12-24 00:10    点击次数:122

    丝袜 龟责 OpenAI追究发布o3 - 通往AGI的路上,如故莫得了任何禁绝

    点击收听本新闻听新闻

    今天凌晨2点丝袜 龟责,OpenAI的12天直播,终于来到了最终章。

    奥特曼,也在一派圣诞的气味中终于记忆。

    为行家带来了终末的压轴大戏。

    OpenAI o3。

    又一次轶群,又一次把模子的才智,推到了新的高度。

    也向全寰宇证实了,OpenAI,依然在铁王座上牢不可摧。

    我也念念起了OpenAI参谋员在发布o1之前的那句话:

    “咱们通往AGI的路上,如故莫得任何禁绝了”

    之是以OpenAI获胜发布o3莫得o2,原因也挺节略的。

    因为跟英国电信处事提供商O2可能存在版权或商标破坏,是以获胜跳过了。。。

    获胜到o3。

    而OpenAI直播一完,X上基本就欢快了。

    o3的才智,对目下统统模子,险些王人获胜是降维打击。

    看下o3的才智吧。

    一些粗的评测集节略过一下。

    左边的是软件工程训诫(SWE-Bench Verified),这就像是一个考写设施的训诫,比如你写一个软件要它快速、准确,还不可有 bug(小不实)。这是窥察 o3 是否能像一流的软件工程师通常写出完整的代码。

    o3 的收货:71.7%,比o1还强了不少。

    右边的阿谁基准相比猛,Codeforces,一个全球着名的编码竞赛平台。

    o3的得分是2727,这个得分,寥落于通盘榜单的第175名,如故卓绝了99.99%的东说念主类了。

    o1的代码才智如故强到爆炸了,而o3,又向AGI的山顶,前进了一大步。

    数学竞赛AIEM 2024和博士级科学训诫GPQA Diamond。

    AIEM 2024接近满分,如果我没记错的话,这应该亦然第一次AI能达到有AIEM接近满分的水平。

    博士级科学训诫有进化,但没数学和编程进化的这样猛。

    接下来的这个数学基准相比道理少许。

    FrontierMath,Epoch AI 竖立的一个数学基准测试,由60多位顶尖数学家的协作竖立,旨在评估东说念主工智能在高档数学推理方面的才智。

    况兼为了幸免数据混浊,统统的题目王人是原创的且从来莫得发布过的新题目。

    之前GPT-4 和 Gemini 1.5 Pro这种模子去评估的时候丝袜 龟责,成效功率不及2%,与其他传统数学基准(如 GSM-8K 和 MATH)中越过90%的成着力造成昭彰对比。

    而这一次,o3获胜达到了25.2。

    当各大其他模子王人还在卷传统数学基准的时候,o3确切如故干预了另一个寰宇了。。。

    就像行家还在大斗师阶段相互卷,你是五星大斗师,我是八星大斗师。

    两者争论不息,正准备要比试比试,忽然就看到一个斗宗强人踏空而行,留住一地的卧槽。

    这还比个鬼。

    然后,即是我合计,通盘基准里,最道理的一个基准了:

    ARC-AGI。

    先说说这是个啥玩意。

    ARC-AGI于2019岁首次建议,旨在通过一系列空洞和推理任务来测试AI系统的才智。

    主若是因为传统的妙技测量步骤并不可灵验代表智能,因为它们常常依赖于先前常识和教授,而实在的智能应体目下平日的相宜才智和通用性上。

    是以,ARC-AGI出身了,内部的这些任务条件AI识别模式并管制新问题,每个任务由输入输出示例构成。这些任务以网格形状呈现,每个方块不错是十种神采中的一种,网格的大小不错从1x1到30x30不等。参与者需要把柄给定的输入生成正确的输出,测试其推理和空洞才智。

    不错节略的相识成,找章程。

    大略即是这样的。

    相等的难且空洞。

    畴昔几代模子的评分在此:

    * GPT-2 (2019): 0%

    * GPT-3 (2020): 0%

    * GPT-4 (2023): 2%

    * GPT-4o (2024): 5%

    * o1-preview (2024): 21%

    * o1 (2024): 32%

    * o1 Pro (2024): ~50%

    然则今天,o3的分数,达到了恐怖的87.5%。

    从0%到5%,整整花了5年的时辰,而如今,从5%到87.5%,只是只花了半年。

    而对应的,东说念主类的阈值分数,是85%。

    咱们通往AGI的路上,如故莫得任何禁绝了。

    不外o3强归强,然则又是一个期货,OpenAI目下只对红队盛开,如果是巨佬的话,不错去央求试试。

    网址在此:https://openai.com/index/early-access-for-safety-testing/

    目下不知说念o3什么时候放出,然则OpenAI又基于o3,训了3个小尺寸的o3模子。

    目下o3-mimi,预估在1月底不错对外盛开,然则嗅觉到时候,细目又是pro会员专属的模子了。

    我越来越期待,2025年AI行业的进化了。

    推理模子、Agent、AI硬件、寰宇模子。

    每一个王人是比这个中间态的2024,王人更让东说念主感奋的东西。

    2025,必是AI行业,实在的星辰大海。

    咱们也在终末,回首一下这12天的直播吧。

    Day 1:满血o1上线,ChatGPT Pro会员上线,o1 pro推出。

    Day 2:基于o1的强化微调。

    Day 3:Sora追究发布。

    Day 4:ChatGPT Canvas全员盛开以及小功能更新。

    Day 5:给苹果站台,宣传苹果全系接入GPT。

    Day 6:4o的及时视频相识上线。

    色吧小说

    Day 7:ChatGPT发布新建文献夹“容貌”功能。

    Day 8:ChatGPT Search全量盛开,搜索体验大幅优化。

    Day 9:发布了o1的API、更新了及时语音的API、发布了偏好微调才智(PFT)。

    Day 10:物理真义上的不错给ChatGPT打电话了。

    Day 11:炒冷饭,ChatGPT 桌面版能读到别的期骗。

    Day 12:OpenAI o3追究发布。

    这12天,稍稍有点惊喜的日子大略只须2、3天,其他王人是垃圾时辰。

    还好,今天的大货,补上了之前的阴暗。

    终末,如故忍不住齰舌一声。

    这12天,像一场漫长的马拉松。

    咱们资格了半夜中罪孽累累的垃圾时辰。

    却也迎来了终末的高光期间。

    这嗅觉。

    还挺AI的丝袜 龟责。




Powered by 亚洲日韩天堂在线 @2013-2022 RSS地图 HTML地图

Copyright Powered by站群系统 © 2013-2024