直肠癌早期的5大症状,天天做天天爱夜夜爽女人爽宅,国产精品一久久香蕉国产线看,成人免费黄色,国产一级做a爰片久久毛片男男

OpenAI o1技術(shù)報告解讀

丁敏捷、陳敏剛

上海市生成式人工智能質(zhì)量檢驗檢測中心



1、引言

2024年9月12日,OpenAI推出了o1,這是一種新的大語(yǔ)言模型,通過(guò)強化學(xué)習訓練,以執行復雜的推理。與以往大模型最大的不同在于——o1 在回答之前會(huì )思考——它可以在回應用戶(hù)之前產(chǎn)生一個(gè)內部思維鏈。本文將對o1的技術(shù)報告進(jìn)行解讀。(https://openai.com/index/learning-to-reason-with-llms/)

2、o1的評估

OpenAI o1 在競爭性編程問(wèn)題(Codeforces)中排名第 89 位,在美國數學(xué)奧林匹克 (AIME) 預選賽中躋身美國前 500 名學(xué)生之列,并在物理、生物和化學(xué)問(wèn)題 (GPQA) 基準測試中超越人類(lèi)博士級準確度。OpenAI發(fā)布了該模型的早期版本 OpenAI o1-preview[1]。

OpenAI的大規模強化學(xué)習算法教會(huì )模型如何在高度數據高效的訓練過(guò)程中利用思維鏈進(jìn)行有效思考。OpenAI發(fā)現,隨著(zhù)更多的強化學(xué)習(訓練時(shí)計算)和更多的思考時(shí)間(測試時(shí)計算),o1 的性能會(huì )持續提高。該現象與大模型預訓練的規模法則大不相同,OpenAI將繼續研究這些現象的規律。


1 o1的性能隨著(zhù)訓練時(shí)計算和測試時(shí)計算的增加而平穩提升


為了突出推理能力相對于 GPT-4o 的提升,o1在一系列不同的人類(lèi)考試和 ML 基準上接受測試實(shí)驗表明,在絕大多數注重推理能力的任務(wù)中,o1 的表現明顯優(yōu)于 GPT-4o。


2 o1 AIME2024、Codeforces、GPQA Diamond基準上大大優(yōu)于 GPT-4o。上圖高亮區域表示 pass@1 準確率,陰影區域表示 64 個(gè)樣本的多數投票(共識)表現。


3 o1在包括54/57個(gè)MMLU子類(lèi)別在內的廣泛基準測試中的表現超過(guò)了GPT-4o。




在許多注重推理能力的基準測試中,o1 可與人類(lèi)專(zhuān)家的表現相媲美。最近的前沿模型(如Claude 3.5 Sonnet、Google Deepmind Gemini Pro)在 MATH 和 GSM8K上表現出色,以至于這些基準不再能夠有效地測試最新模型。OpenAI評估了 AIME 上的數學(xué)表現,AIME 是一項旨在挑戰美國最優(yōu)秀高中生數學(xué)能力的測試。在 2024 年的 AIME 考試中,GPT-4o 平均只解決了 12% (1.8/15) 的問(wèn)題。o1 在每個(gè)問(wèn)題單樣本情況下平均為 74% (11.1/15),在 64 個(gè)樣本中達成共識情況下為 83% (12.5/15),在使用學(xué)習到的評分函數對 1000 個(gè)樣本重新排名情況下為 93% (13.9/15)。13.9 的分數使其躋身全國前 500 名學(xué)生之列,并超過(guò)了美國數學(xué)奧林匹克的分數線(xiàn)。

OpenAI還在 GPQA  Diamond上對 o1 進(jìn)行了評估,這是一個(gè)很難的智力基準,測試化學(xué)、物理和生物學(xué)方面的專(zhuān)業(yè)知識。為了將模型與人類(lèi)進(jìn)行比較,OpenAI招募了具有博士學(xué)位的專(zhuān)家來(lái)回答 GPQA  Diamond問(wèn)題。 o1 的表現超過(guò)了人類(lèi)專(zhuān)家,成為第一個(gè)在這個(gè)基準上做到這一點(diǎn)的模型。但這些結果并不意味著(zhù) o1 在各方面都比博士更有能力——只是意味著(zhù)該模型在解決一些博士需要解決的問(wèn)題方面更熟練。在其他幾個(gè) ML 基準測試中,o1 的表現都超過(guò)了當前最先進(jìn)的水平。在啟用視覺(jué)感知功能后,o1 在 MMMU 上的得分為 78.2%,成為第一個(gè)與人類(lèi)專(zhuān)家相媲美的模型。它還在 57 個(gè) MMLU 子類(lèi)別中的 54 個(gè)上超過(guò) GPT-4o。

3、思維鏈

與人類(lèi)在回答難題之前會(huì )長(cháng)時(shí)間思考類(lèi)似,o1 在嘗試解決問(wèn)題時(shí)會(huì )使用思維鏈。通過(guò)強化學(xué)習,o1 學(xué)會(huì )磨練其思維鏈并改進(jìn)其使用的策略。它學(xué)會(huì )識別和糾正錯誤。它學(xué)會(huì )將棘手的步驟分解為更簡(jiǎn)單的步驟。它學(xué)會(huì )在當前方法不起作用時(shí)嘗試不同的方法。這個(gè)過(guò)程極大地提高了模型的推理能力。為了說(shuō)明這一飛躍,o1的技術(shù)報告展示了gpt-4o與o1-preview解決問(wèn)題的差異(由于篇幅原因,詳細差異可訪(fǎng)問(wèn)引言中提到的網(wǎng)址查看),gpt-4o在大部分場(chǎng)景下并沒(méi)有得出答案,請求用戶(hù)提供更多信息,而o1-preview經(jīng)過(guò)一系列推理之后對用戶(hù)輸入的問(wèn)題進(jìn)行了正確的解答。

4、編碼

OpenAI初始化o1并進(jìn)行編程方面的訓練,訓練得到的模型(o1-ioi)在 2024 年國際信息學(xué)奧林匹克 (IOI) 比賽中獲得 213 分,排名49%。該模型在與人類(lèi)參賽者相同的條件下參加了 2024 年 IOI 比賽。它有 10 個(gè)小時(shí)來(lái)解決六個(gè)具有挑戰性的算法問(wèn)題,每個(gè)問(wèn)題允許提交 50 次。

OpenAI也模擬了 Codeforces 主辦的編程競賽,該競賽允許10次提交。GPT-4o 的 Elo 評分為808 ,位于人類(lèi)參賽者的第 11 個(gè)百分位。o1-ioi遠遠超過(guò)了 GPT-4o 和 o1——它的 Elo 評分為 1807,優(yōu)于 93% 的競爭對手。


4 在針對編程競賽的進(jìn)一步微調之后,o1的性能得到了提升。


5、人類(lèi)偏好評估

除了考試和學(xué)術(shù)基準之外,OpenAI還在廣泛領(lǐng)域的具有挑戰性的開(kāi)放式提示(prompt)上評估了人類(lèi)對 o1-preview 和 GPT-4o 的偏好。在這次評估中,人類(lèi)訓練者看到了 o1-preview 和 GPT-4o 對prompt的匿名回答,并投票選出他們更喜歡的回答。在數據分析、編碼和數學(xué)等注重推理能力的類(lèi)別中,o1-preview 的受歡迎程度遠遠高于 gpt-4o。然而,o1-preview 在某些自然語(yǔ)言任務(wù)上并不受歡迎,這表明它并不適合所有場(chǎng)合。


5 人類(lèi)對o1-preview GPT-4o的偏好對比。


6、安全

思維鏈推理為對齊和安全提供了新的機會(huì )。OpenAI發(fā)現,將模型行為策略整合到推理模型的思維鏈中,是一種強有力地傳輸人類(lèi)價(jià)值觀(guān)和原則的方法。通過(guò)向模型教授人類(lèi)的安全規則以及如何在上下文中推理它們,OpenAI發(fā)現推理能力直接有利于模型魯棒性的證據:o1-preview 在關(guān)鍵越獄評估(key jailbreak evaluations)和OpenAI用于評估模型安全拒絕邊界(safety refusal boundaries)的最嚴格的內部基準上取得了顯著(zhù)的提升。OpenAI認為,使用思維鏈為安全和對齊提供了重大進(jìn)步,因為 (1) 它使我們能夠以清晰的方式觀(guān)察模型思維,并且 (2) 關(guān)于安全規則的模型推理對于分布外場(chǎng)景更具魯棒性。

OpenAI在模型部署之前進(jìn)行了一系列安全測試和紅隊測試。并且發(fā)現,思維鏈推理有助于提高模型的能力。特別值得注意的是,OpenAI觀(guān)察到了獎勵黑客攻擊(reward hacking)的有趣實(shí)例[2]。這些評估的詳細結果可在o1的system card中查看[3]。


6 GPT-4oo1-preview的安全測試對比


7、隱藏思維鏈

OpenAI認為隱藏的思維鏈為監控模型提供了獨特的機會(huì )。假設它是忠實(shí)且清晰的,隱藏的思維鏈使我們能夠“讀懂”模型的思想并了解其思維過(guò)程。例如,將來(lái)我們可能希望監控思維鏈以尋找操縱用戶(hù)的跡象。但是,要做到這一點(diǎn),模型必須能夠自由地以未改變的形式表達其思想,因此無(wú)法將任何政策合規性或用戶(hù)偏好訓練到思路鏈上。OpenAI也不想讓用戶(hù)直接看到未對齊的思維鏈。

因此,在權衡了用戶(hù)體驗、競爭優(yōu)勢以及是否要進(jìn)行思維鏈監控等多種因素后,OpenAI決定不向用戶(hù)展示原始思維鏈。OpenAI承認這個(gè)決定有一定弊端,并努力通過(guò)教導模型在輸出中重現思路鏈中的任何有用的思路來(lái)彌補這一缺點(diǎn)。對于 o1 模型系列,OpenAI展示模型生成的思維鏈摘要。

o1 顯著(zhù)提升了 AI 推理的最高水平。OpenAI計劃在不斷迭代的過(guò)程中發(fā)布o1的改進(jìn)版本,期望這些新的推理能力將提高我們把模型與人類(lèi)價(jià)值觀(guān)和原則相結合的能力,相信 o1 及其后續產(chǎn)品將在科學(xué)、編碼、數學(xué)和相關(guān)領(lǐng)域為 AI 解鎖許多新應用,并且很高興用戶(hù)和 API 開(kāi)發(fā)人員能夠發(fā)現它如何改善他們的日常工作。


8、小結

本文介紹了OpenAI最新發(fā)布的o1大模型。以往我們需要向模型給出例如“讓我們一步一步思考”這樣的prompt,才能讓模型產(chǎn)生思維鏈,而不是直接輸出結果。而o1在回答問(wèn)題之前可以自行像人類(lèi)一樣進(jìn)行思考,產(chǎn)生內部思維鏈,無(wú)需額外的輸入。除此之外,o1也在各種需要較強推理能力的任務(wù)中勝過(guò)了其他大模型,甚至達到人類(lèi)博士水平。

GPT-4o使得GPT具有了多模態(tài)數據處理能力,o1則是GPT在模型推理能力上邁出的重要一步,并將大大推進(jìn)大模型對齊以及安全性方面的研究。


參考文獻

[1]https://platform.openai.com/docs/guides/rate-limits/usage-tiers

[2]https://cdn.openai.com/o1-system-card.pdf#page=16

[3] https://openai.com/index/openai-o1-system-card/


版權所有 ?2021. 上海計算機軟件技術(shù)開(kāi)發(fā)中心 All Rights Reserved 滬公網(wǎng)安備 31011202012393號,滬ICP備14033306號-25

直肠癌早期的5大症状,天天做天天爱夜夜爽女人爽宅,国产精品一久久香蕉国产线看,成人免费黄色,国产一级做a爰片久久毛片男男