OpenAI o1技術(shù)報告解讀

丁敏捷、陳敏剛

上海市生成式人工智能質(zhì)量檢驗檢測中心

1、引言

2024年9月12日，OpenAI推出了o1，這是一種新的大語(yǔ)言模型，通過(guò)強化學(xué)習訓練，以執行復雜的推理。與以往大模型最大的不同在于——o1 在回答之前會(huì )思考——它可以在回應用戶(hù)之前產(chǎn)生一個(gè)內部思維鏈。本文將對o1的技術(shù)報告進(jìn)行解讀。(https://openai.com/index/learning-to-reason-with-llms/)

2、o1的評估

OpenAI o1 在競爭性編程問(wèn)題（Codeforces）中排名第 89 位，在美國數學(xué)奧林匹克 (AIME) 預選賽中躋身美國前 500 名學(xué)生之列，并在物理、生物和化學(xué)問(wèn)題 (GPQA) 基準測試中超越人類(lèi)博士級準確度。OpenAI發(fā)布了該模型的早期版本 OpenAI o1-preview[1]。

OpenAI的大規模強化學(xué)習算法教會(huì )模型如何在高度數據高效的訓練過(guò)程中利用思維鏈進(jìn)行有效思考。OpenAI發(fā)現，隨著(zhù)更多的強化學(xué)習（訓練時(shí)計算）和更多的思考時(shí)間（測試時(shí)計算），o1 的性能會(huì )持續提高。該現象與大模型預訓練的規模法則大不相同，OpenAI將繼續研究這些現象的規律。

圖1 o1的性能隨著(zhù)訓練時(shí)計算和測試時(shí)計算的增加而平穩提升

為了突出推理能力相對于 GPT-4o 的提升，o1在一系列不同的人類(lèi)考試和 ML 基準上接受測試實(shí)驗表明，在絕大多數注重推理能力的任務(wù)中，o1 的表現明顯優(yōu)于 GPT-4o。

圖2 o1 在AIME2024、Codeforces、GPQA Diamond基準上大大優(yōu)于 GPT-4o。上圖高亮區域表示 pass@1 準確率，陰影區域表示 64 個(gè)樣本的多數投票（共識）表現。

圖3 o1在包括54/57個(gè)MMLU子類(lèi)別在內的廣泛基準測試中的表現超過(guò)了GPT-4o。

在許多注重推理能力的基準測試中，o1 可與人類(lèi)專(zhuān)家的表現相媲美。最近的前沿模型（如Claude 3.5 Sonnet、Google Deepmind Gemini Pro）在 MATH 和 GSM8K上表現出色，以至于這些基準不再能夠有效地測試最新模型。OpenAI評估了 AIME 上的數學(xué)表現，AIME 是一項旨在挑戰美國最優(yōu)秀高中生數學(xué)能力的測試。在 2024 年的 AIME 考試中，GPT-4o 平均只解決了 12% (1.8/15) 的問(wèn)題。o1 在每個(gè)問(wèn)題單樣本情況下平均為 74% (11.1/15)，在 64 個(gè)樣本中達成共識情況下為 83% (12.5/15)，在使用學(xué)習到的評分函數對 1000 個(gè)樣本重新排名情況下為 93% (13.9/15)。13.9 的分數使其躋身全國前 500 名學(xué)生之列，并超過(guò)了美國數學(xué)奧林匹克的分數線(xiàn)。

OpenAI還在 GPQA Diamond上對 o1 進(jìn)行了評估，這是一個(gè)很難的智力基準，測試化學(xué)、物理和生物學(xué)方面的專(zhuān)業(yè)知識。為了將模型與人類(lèi)進(jìn)行比較，OpenAI招募了具有博士學(xué)位的專(zhuān)家來(lái)回答 GPQA Diamond問(wèn)題。 o1 的表現超過(guò)了人類(lèi)專(zhuān)家，成為第一個(gè)在這個(gè)基準上做到這一點(diǎn)的模型。但這些結果并不意味著(zhù) o1 在各方面都比博士更有能力——只是意味著(zhù)該模型在解決一些博士需要解決的問(wèn)題方面更熟練。在其他幾個(gè) ML 基準測試中，o1 的表現都超過(guò)了當前最先進(jìn)的水平。在啟用視覺(jué)感知功能后，o1 在 MMMU 上的得分為 78.2%，成為第一個(gè)與人類(lèi)專(zhuān)家相媲美的模型。它還在 57 個(gè) MMLU 子類(lèi)別中的 54 個(gè)上超過(guò) GPT-4o。

3、思維鏈

與人類(lèi)在回答難題之前會(huì )長(cháng)時(shí)間思考類(lèi)似，o1 在嘗試解決問(wèn)題時(shí)會(huì )使用思維鏈。通過(guò)強化學(xué)習，o1 學(xué)會(huì )磨練其思維鏈并改進(jìn)其使用的策略。它學(xué)會(huì )識別和糾正錯誤。它學(xué)會(huì )將棘手的步驟分解為更簡(jiǎn)單的步驟。它學(xué)會(huì )在當前方法不起作用時(shí)嘗試不同的方法。這個(gè)過(guò)程極大地提高了模型的推理能力。為了說(shuō)明這一飛躍，o1的技術(shù)報告展示了gpt-4o與o1-preview解決問(wèn)題的差異（由于篇幅原因，詳細差異可訪(fǎng)問(wèn)引言中提到的網(wǎng)址查看），gpt-4o在大部分場(chǎng)景下并沒(méi)有得出答案，請求用戶(hù)提供更多信息，而o1-preview經(jīng)過(guò)一系列推理之后對用戶(hù)輸入的問(wèn)題進(jìn)行了正確的解答。

4、編碼

OpenAI初始化o1并進(jìn)行編程方面的訓練，訓練得到的模型（o1-ioi）在 2024 年國際信息學(xué)奧林匹克 (IOI) 比賽中獲得 213 分，排名49%。該模型在與人類(lèi)參賽者相同的條件下參加了 2024 年 IOI 比賽。它有 10 個(gè)小時(shí)來(lái)解決六個(gè)具有挑戰性的算法問(wèn)題，每個(gè)問(wèn)題允許提交 50 次。

OpenAI也模擬了 Codeforces 主辦的編程競賽，該競賽允許10次提交。GPT-4o 的 Elo 評分為808 ，位于人類(lèi)參賽者的第 11 個(gè)百分位。o1-ioi遠遠超過(guò)了 GPT-4o 和 o1——它的 Elo 評分為 1807，優(yōu)于 93% 的競爭對手。

圖4 在針對編程競賽的進(jìn)一步微調之后，o1的性能得到了提升。

5、人類(lèi)偏好評估

除了考試和學(xué)術(shù)基準之外，OpenAI還在廣泛領(lǐng)域的具有挑戰性的開(kāi)放式提示（prompt）上評估了人類(lèi)對 o1-preview 和 GPT-4o 的偏好。在這次評估中，人類(lèi)訓練者看到了 o1-preview 和 GPT-4o 對prompt的匿名回答，并投票選出他們更喜歡的回答。在數據分析、編碼和數學(xué)等注重推理能力的類(lèi)別中，o1-preview 的受歡迎程度遠遠高于 gpt-4o。然而，o1-preview 在某些自然語(yǔ)言任務(wù)上并不受歡迎，這表明它并不適合所有場(chǎng)合。

圖5 人類(lèi)對o1-preview 與GPT-4o的偏好對比。

6、安全

思維鏈推理為對齊和安全提供了新的機會(huì )。OpenAI發(fā)現，將模型行為策略整合到推理模型的思維鏈中，是一種強有力地傳輸人類(lèi)價(jià)值觀(guān)和原則的方法。通過(guò)向模型教授人類(lèi)的安全規則以及如何在上下文中推理它們，OpenAI發(fā)現推理能力直接有利于模型魯棒性的證據：o1-preview 在關(guān)鍵越獄評估（key jailbreak evaluations）和OpenAI用于評估模型安全拒絕邊界（safety refusal boundaries）的最嚴格的內部基準上取得了顯著(zhù)的提升。OpenAI認為，使用思維鏈為安全和對齊提供了重大進(jìn)步，因為 (1) 它使我們能夠以清晰的方式觀(guān)察模型思維，并且 (2) 關(guān)于安全規則的模型推理對于分布外場(chǎng)景更具魯棒性。

OpenAI在模型部署之前進(jìn)行了一系列安全測試和紅隊測試。并且發(fā)現，思維鏈推理有助于提高模型的能力。特別值得注意的是，OpenAI觀(guān)察到了獎勵黑客攻擊(reward hacking)的有趣實(shí)例[2]。這些評估的詳細結果可在o1的system card中查看[3]。

圖6 GPT-4o和o1-preview的安全測試對比

7、隱藏思維鏈

OpenAI認為隱藏的思維鏈為監控模型提供了獨特的機會(huì )。假設它是忠實(shí)且清晰的，隱藏的思維鏈使我們能夠“讀懂”模型的思想并了解其思維過(guò)程。例如，將來(lái)我們可能希望監控思維鏈以尋找操縱用戶(hù)的跡象。但是，要做到這一點(diǎn)，模型必須能夠自由地以未改變的形式表達其思想，因此無(wú)法將任何政策合規性或用戶(hù)偏好訓練到思路鏈上。OpenAI也不想讓用戶(hù)直接看到未對齊的思維鏈。

因此，在權衡了用戶(hù)體驗、競爭優(yōu)勢以及是否要進(jìn)行思維鏈監控等多種因素后，OpenAI決定不向用戶(hù)展示原始思維鏈。OpenAI承認這個(gè)決定有一定弊端，并努力通過(guò)教導模型在輸出中重現思路鏈中的任何有用的思路來(lái)彌補這一缺點(diǎn)。對于 o1 模型系列，OpenAI展示模型生成的思維鏈摘要。

o1 顯著(zhù)提升了 AI 推理的最高水平。OpenAI計劃在不斷迭代的過(guò)程中發(fā)布o1的改進(jìn)版本，期望這些新的推理能力將提高我們把模型與人類(lèi)價(jià)值觀(guān)和原則相結合的能力，相信 o1 及其后續產(chǎn)品將在科學(xué)、編碼、數學(xué)和相關(guān)領(lǐng)域為 AI 解鎖許多新應用，并且很高興用戶(hù)和 API 開(kāi)發(fā)人員能夠發(fā)現它如何改善他們的日常工作。

8、小結

本文介紹了OpenAI最新發(fā)布的o1大模型。以往我們需要向模型給出例如“讓我們一步一步思考”這樣的prompt，才能讓模型產(chǎn)生思維鏈，而不是直接輸出結果。而o1在回答問(wèn)題之前可以自行像人類(lèi)一樣進(jìn)行思考，產(chǎn)生內部思維鏈，無(wú)需額外的輸入。除此之外，o1也在各種需要較強推理能力的任務(wù)中勝過(guò)了其他大模型，甚至達到人類(lèi)博士水平。

GPT-4o使得GPT具有了多模態(tài)數據處理能力，o1則是GPT在模型推理能力上邁出的重要一步，并將大大推進(jìn)大模型對齊以及安全性方面的研究。

參考文獻

[1]https://platform.openai.com/docs/guides/rate-limits/usage-tiers

[2]https://cdn.openai.com/o1-system-card.pdf#page=16

[3] https://openai.com/index/openai-o1-system-card/

返回列表

直肠癌早期的5大症状,天天做天天爱夜夜爽女人爽宅,国产精品一久久香蕉国产线看,成人免费黄色,国产一级做a爰片久久毛片男男

OpenAI o1技術(shù)報告解讀

400-889-2021