亚洲狠狠,一级黄色大片,日韩在线第一区视屏,韩国作爱视频久久久久,亚洲欧美国产精品专区久久,青青草华人在线视频,国内精品久久影视免费

每日經(jīng)濟(jì)新聞

要聞

每經(jīng)網(wǎng)首頁 > 要聞 > 正文

壓軸大作！OpenAI推出o3模型系列：AGI評(píng)測(cè)最佳成績(jī)達(dá)到驚人的87.5%，人類水平的門檻為85%

每日經(jīng)濟(jì)新聞 2024-12-21 08:16:05

12月20日，OpenAI在其為期12個(gè)工作日的線上新品發(fā)布活動(dòng)最后一日宣布推出下一代模型o3及其精簡(jiǎn)版o3-mini。o3在多個(gè)方面顯著超越了其前代o1，在軟件工程、競(jìng)賽數(shù)學(xué)和掌握人類博士級(jí)別的自然科學(xué)知識(shí)能力等方面表現(xiàn)出色。尤其在ARC-AGI評(píng)估中，o3的成績(jī)達(dá)到75.7%至87.5%，超過了人類水平的85%門檻。

每經(jīng)編輯杜宇

當(dāng)?shù)貢r(shí)間12月20日周五，在為期12個(gè)工作日的線上新品發(fā)布活動(dòng)最后一日，OpenAI宣布了“壓軸大作”：o1的下一代模型o3，而且一開始就要推出兩個(gè)版本，一個(gè)正式的o3，還有一個(gè)相對(duì)較小的精簡(jiǎn)版o3-mini。

OpenAI的CEO Sam Altman在直播中提到，OpenAI本次12日的活動(dòng)第一天官宣了上線正式版o1、所謂滿血o1?；顒?dòng)最后一天又有o3亮相，首尾都由介紹推理模型呼應(yīng)，也算是一種精心設(shè)計(jì)。

邏輯上說，o1的下一代應(yīng)該命名為o2，至于為什么新模型叫o3，之前報(bào)道稱，OpenAI是為了避免和名為O2的英國(guó)電信服務(wù)商沖突。Altman也確認(rèn)了這點(diǎn)，說出于對(duì)O2的尊敬，并沒有起同樣的名字。

直播中，Altman稱o3是“一個(gè)非常、非常聰明的模型”。OpenAi的評(píng)估結(jié)果也顯示，無論在軟件工程、編寫代碼，還是競(jìng)賽數(shù)學(xué)、掌握人類博士級(jí)別的自然科學(xué)知識(shí)能力方面，o3都明顯高出o1一籌。同時(shí)測(cè)試顯示，o3在OpenAI實(shí)現(xiàn)通用人工智能（AGI）這一奮斗目標(biāo)上取得了突破，最高的測(cè)試成績(jī)達(dá)到了類人水平。

圖片來源：視覺中國(guó)

今年9月，OpenAI發(fā)布o(jì)1的預(yù)覽版o1 preview時(shí)稱，o1是第一個(gè)具備真正通用推理能力的大模型，它的核心能力推理在測(cè)試化學(xué)、物理和生物學(xué)專業(yè)知識(shí)的基準(zhǔn)GPQA-diamond上得到了充分體現(xiàn)。據(jù)OpenAI評(píng)估，o1在該測(cè)試中全面超過了人類博士專家，準(zhǔn)確率達(dá)到78.3%，而人類專家的得分為69.7%。

在12月20日的直播中，OpenAI展示了o3的測(cè)評(píng)表現(xiàn)：

根據(jù)OpenAI8月推出的SWE-bench Verified代碼生成評(píng)估基準(zhǔn)，在軟件工程的能力測(cè)評(píng)中，o3的準(zhǔn)確度得分71.7，即準(zhǔn)確率71.7%，遠(yuǎn)超得分48.9的o1和得分41.3的o1 preview。也就是說，o3的準(zhǔn)確率比o1正式版高將近47%，比o1預(yù)覽版高將近74%。

在競(jìng)爭(zhēng)性編程網(wǎng)站Codeforces的競(jìng)爭(zhēng)性代碼測(cè)評(píng)中，o3取得2727的Elo評(píng)分，o1評(píng)分1891，o1 preview評(píng)分1258。這個(gè)測(cè)評(píng)結(jié)果顯示，競(jìng)爭(zhēng)性代碼方面，o3的評(píng)分比o1正式版高44%，是o1預(yù)覽版的兩倍多。

經(jīng)過2024年AIME數(shù)學(xué)競(jìng)賽的題目測(cè)試，o3的準(zhǔn)確度得分為96.7、即準(zhǔn)確率96.7%，大幅度超過了o1預(yù)覽版的56.7和o1的83.3%，僅錯(cuò)了一道題，相當(dāng)于一名頂級(jí)數(shù)學(xué)家的水平。從競(jìng)賽數(shù)學(xué)的角度看，o3的準(zhǔn)確率比o1正式版高15%，比o1預(yù)覽版高近71%。

以人類博士專家的測(cè)試考驗(yàn)，在測(cè)試化學(xué)、物理和生物學(xué)專業(yè)知識(shí)的基準(zhǔn)GPQA-diamond上，o3的準(zhǔn)確度得分為87.7，即準(zhǔn)確率87.7%，o1和o1 preview分別得分78.0和78.3。o3的準(zhǔn)確率比o1高將近13%，比o1預(yù)覽版高12%。

OpenAI周五還展示了，o3的推理能力已經(jīng)更加接近實(shí)現(xiàn)AGI。

以100%為最高分的ARC-AGI評(píng)估結(jié)果顯示，o1的得分在25%到32%，而o3的最低成績(jī)?yōu)?5.7%，最高成績(jī)?yōu)?7.5%。從這個(gè)結(jié)果看，o3的最佳成績(jī)超過了標(biāo)志著達(dá)到人類水平的門檻85%。

創(chuàng)始ARC-AGI標(biāo)準(zhǔn)的前谷歌高級(jí)工程師、AI研究員François Chollet表示，OpenAI這些推理模型在AGI測(cè)試中取得進(jìn)步是“穩(wěn)健的”。

Chollet周五在社交媒體X發(fā)帖，公布了同OpenAI合作進(jìn)行的ARC-AGI測(cè)試結(jié)果，稱“我們相信這代表了讓AI適應(yīng)新任務(wù)的重大突破。”

與o3模型相比，o3Mini模型在性能與成本平衡方面表現(xiàn)出色，能夠以較低的成本提供高效的服務(wù)。

在編碼評(píng)估方面，o3Mini模型展現(xiàn)出了出色的性能提升。在CodeForces的評(píng)估中，隨著思考時(shí)間的增加，o3Mini模型的表現(xiàn)不斷提升，逐漸超越了o1Mini模型。

在中位思考時(shí)間下，o3Mini模型的性能甚至優(yōu)于o1模型，能夠以大約一個(gè)數(shù)量級(jí)的更低成本提供相當(dāng)甚至更好的代碼性能。這意味著開發(fā)人員可以在不增加過多成本的情況下，獲得更高效的編程輔助，提高開發(fā)效率，降低開發(fā)成本。

在數(shù)學(xué)能力測(cè)試中，o3Mini模型在2024年數(shù)據(jù)集上表現(xiàn)出色。o3Mini低模型的性能與o1Mini相當(dāng)，而o3Mini中位數(shù)模型則取得了比o1更好的性能。在處理諸如GPQA等困難數(shù)據(jù)集時(shí)，o3Mini模型也能展現(xiàn)出一定的優(yōu)勢(shì)，實(shí)現(xiàn)了接近即時(shí)響應(yīng)的效果。

此外，o3Mini模型支持函數(shù)調(diào)用、結(jié)構(gòu)化輸出、開發(fā)者消息等一系列功能，與O1模型相當(dāng)。在實(shí)際應(yīng)用中，o3Mini模型在大多數(shù)評(píng)估中實(shí)現(xiàn)了可比或更好的性能。

在現(xiàn)場(chǎng)演示中，o3Mini模型的強(qiáng)大功能得到了直觀展示。例如，在一項(xiàng)任務(wù)中，模型被要求使用Python實(shí)現(xiàn)一個(gè)代碼生成器和執(zhí)行器。當(dāng)啟動(dòng)運(yùn)行該P(yáng)ython腳本后，模型成功啟動(dòng)了本地服務(wù)器，并生成了包含文本框的用戶界面。

用戶在文本框中輸入編碼請(qǐng)求后，模型能夠迅速將請(qǐng)求發(fā)送至API，并自動(dòng)解決任務(wù)，生成代碼并保存至桌面，隨后自動(dòng)打開終端執(zhí)行代碼。整個(gè)過程復(fù)雜且涉及大量代碼處理，但o3 Mini模型在低推理努力模式下依然表現(xiàn)出了極快的處理效率。

雖然o3的測(cè)評(píng)看上去表現(xiàn)驚艷，但OpenAI應(yīng)該不會(huì)很快面向大眾上線這款新的超級(jí)推理模型。

從12月20日開始，OpenAI允許安全研究人員可以注冊(cè)訪問o3 和 o3-mini的預(yù)覽。OpenAI的一名發(fā)言人稱，OpenAI計(jì)劃明年初正式發(fā)布這些新的o3模型。

每日經(jīng)濟(jì)新聞綜合公開資料

如需轉(zhuǎn)載請(qǐng)與《每日經(jīng)濟(jì)新聞》報(bào)社聯(lián)系。
未經(jīng)《每日經(jīng)濟(jì)新聞》報(bào)社授權(quán)，嚴(yán)禁轉(zhuǎn)載或鏡像，違者必究。

讀者熱線：4008890008

特別提醒：如果我們使用了您的圖片，請(qǐng)作者與本站聯(lián)系索取稿酬。如您不希望作品出現(xiàn)在本站，可聯(lián)系我們要求撤下您的作品。

模型 Ai 人工智能

上一篇文章

快遞企業(yè)“雙11”數(shù)據(jù)出爐：韻達(dá)價(jià)格最“卷” 機(jī)構(gòu)預(yù)測(cè)明年市場(chǎng)競(jìng)爭(zhēng)強(qiáng)度高于今年

返回每經(jīng)網(wǎng)首頁

下一篇文章

提價(jià)！15家公司上調(diào)回購(gòu)股份價(jià)格上限

相關(guān)文章

熱文精選

點(diǎn)擊排行

歡迎關(guān)注每日經(jīng)濟(jì)新聞APP

每經(jīng)經(jīng)濟(jì)新聞官方APP

關(guān)注我們
辟謠專區(qū)

加入我們
招聘專頁

Copyright ? 2025 每日經(jīng)濟(jì)新聞報(bào)社版權(quán)所有，未經(jīng)許可不得轉(zhuǎn)載使用，違者必究。

廣告熱線? 北京: 010-57613265，?上海: 021-61283008，?廣州: 020-84201861，?深圳: 0755-83520159，?成都: 028-86512112

網(wǎng)絡(luò)社會(huì)征信網(wǎng)

兒童色情信息舉報(bào)專區(qū)

成都市互聯(lián)網(wǎng)不良與違法信息舉報(bào)中心

四川省互聯(lián)網(wǎng)舉報(bào)中心

中國(guó)互聯(lián)網(wǎng)舉報(bào)中心

每日經(jīng)濟(jì)新聞互聯(lián)網(wǎng)不良與違法信息舉報(bào)中心

互聯(lián)網(wǎng)新聞信息服務(wù)許可證：51120190017 網(wǎng)站備案號(hào)：蜀ICP備19004508號(hào)-3 川公網(wǎng)安備 51019002002026號(hào)

新聞職業(yè)道德監(jiān)督熱線：400 889 0008 郵箱：zbb@nbd.com.cn