www.大香,日本免费人成网ww555在线,欧美在线视频免费观看

OpenAI連續(xù)12天“王炸”的第二彈來(lái)了。不同于第一日聚焦人工智能（AI）模型，第二日的王炸專注于服務(wù)企業(yè)等組織的一款新功能，雖然看起來(lái)不太側(cè)重于普通消費(fèi)者，但據(jù)介紹它甚至可以讓簡(jiǎn)易版推理模型o1 mini的效果超過(guò)本周四發(fā)布的正式版o1、所謂滿血o1。

美東時(shí)間12月6日周五，OpenAI在社交媒體X公布第二日活動(dòng)的主題是新功能“強(qiáng)化微調(diào)”（Reinforcement Fine-Tuning）。這個(gè)主題是指，企業(yè)組織將能夠通過(guò)“強(qiáng)化微調(diào)”微調(diào)o1 mini，滿足他們的特定需求。

OpenAI新功能太強(qiáng)大

OpenAI CEO Sam Altman在X發(fā)帖稱，強(qiáng)化微調(diào)的效果非常棒，是他今年最大的驚喜之一，期待看到大家利用這種功能的創(chuàng)造。

OpenAI新功能太強(qiáng)大

OpenAI的研究員本周五介紹，科學(xué)家、開(kāi)發(fā)人員和研究人員可以根據(jù)自己的數(shù)據(jù)、而不是僅僅使用公開(kāi)可用的數(shù)據(jù)，量身定制OpenAI的強(qiáng)大推理模型o1。不同行業(yè)的人可以使用強(qiáng)化學(xué)習(xí)來(lái)創(chuàng)建基于 o1 的專家模型，從而提高該領(lǐng)域的整體專業(yè)知識(shí)水平。開(kāi)發(fā)者、研究者和機(jī)器學(xué)習(xí)工程師將首次能運(yùn)用強(qiáng)化學(xué)習(xí)，打造精通他們各自專業(yè)領(lǐng)域的專家模型。

OpenAI的研究員稱，強(qiáng)化微調(diào)并不是單單教模型模型輸出，它的運(yùn)作方式是，當(dāng)模型發(fā)現(xiàn)一個(gè)問(wèn)題的時(shí)候，研究者給模型空間區(qū)仔細(xì)思考這個(gè)問(wèn)題，然后評(píng)估模型給出的最終解答，運(yùn)用強(qiáng)化學(xué)習(xí)，研究者可以強(qiáng)化產(chǎn)生正確答案的思路，抑制產(chǎn)生錯(cuò)誤答案的思路，只需要“幾十個(gè)例子”（a few dozen examples）、甚至12個(gè)例子，模型就能以有效的新方式學(xué)習(xí)特定領(lǐng)域的推理。

通過(guò)強(qiáng)化學(xué)習(xí)，用戶可以用大模型在特定數(shù)據(jù)上訓(xùn)練其他模型。這對(duì)于涉及到大量數(shù)據(jù)的復(fù)雜領(lǐng)域或需要專家領(lǐng)域知識(shí)的新研究非常有用。研究者舉例稱，最近和湯森路透合作，運(yùn)用強(qiáng)化微調(diào)微調(diào)o1 mini，讓它充當(dāng)法務(wù)助理，幫助他們的法律專業(yè)人士完成大部分分析工作流。

OpenAI稱，OpenAI的定制模型平臺(tái)將支持強(qiáng)化學(xué)習(xí)，強(qiáng)化學(xué)習(xí)也是OpenAI內(nèi)部用于訓(xùn)練自家前沿模型的技術(shù)，如GPT-4o和o1系列模型。在OpenAi的內(nèi)測(cè)中，強(qiáng)化微調(diào)已經(jīng)在生物化學(xué)、安全、法律和醫(yī)療保健領(lǐng)域取得成功。OpenAI計(jì)劃，2025年初讓強(qiáng)化微調(diào)面向公眾發(fā)布，目前已對(duì)企業(yè)、大學(xué)和研究院開(kāi)放申請(qǐng)測(cè)試通道。

伯克利大學(xué)罕見(jiàn)遺傳病研究員 Justin Reese參與了OpenAI本周五對(duì)o1 mini模型的現(xiàn)場(chǎng)演示。演示中，研究者試圖從樣本數(shù)據(jù)池中獲取可能導(dǎo)致疾病的模型 ID 基因。

研究員展示了一個(gè)評(píng)估表，下圖可見(jiàn)，第一行是本周四OpenAI發(fā)布的正式版o1測(cè)評(píng)表現(xiàn)，第二行是o1 mini的測(cè)評(píng)結(jié)果 ,第三行結(jié)果來(lái)自經(jīng)過(guò)最終強(qiáng)化微調(diào)的o1 mini。研究員進(jìn)行了三類評(píng)估，其中，top @1是測(cè)試模型給出的正確答案出現(xiàn)在列表最前列中的概率，top@5是正確答案出現(xiàn)在前五列的概率，top@max是答案出現(xiàn)在所有正確答案列表的概率。

如圖所示，正式版o1的測(cè)試通過(guò)率為25%，o1 mini為17%，而強(qiáng)化微調(diào)后的o1 mini竟然達(dá)到31%，超過(guò)了正式版o1，比正式版o1的測(cè)評(píng)結(jié)果高24%，而且相比未強(qiáng)化微調(diào)前，微調(diào)后的結(jié)果提高了82.3%。

OpenAI新功能太強(qiáng)大

国产精品久久久久久久久夜色-国产精品久久久久久久久久直-国产精品久久久久久福利漫画-国产精品久久久久久福利69堂-色噜噜噜噜-色噜噜噜

OpenAI新功能太強(qiáng)大

干貨教程更多>>