當(dāng)前位置:首頁(yè) > 物聯(lián)網(wǎng) > 智能應(yīng)用
[導(dǎo)讀]隨著最近法學(xué)碩士 (LLM)的成就和關(guān)注,以及隨之而來(lái)的人工智能“夏季”,模型訓(xùn)練方法開始復(fù)興,旨在盡快獲得最優(yōu)、性能最佳的模型。其中大部分是通過(guò)大規(guī)模實(shí)現(xiàn)的——更多芯片、更多數(shù)據(jù)、更多訓(xùn)練步驟。然而,許多團(tuán)隊(duì)一直專注于如何更高效、更智能地訓(xùn)練這些模型,以實(shí)現(xiàn)預(yù)期結(jié)果。

隨著最近LLM的成就和關(guān)注,以及隨之而來(lái)的人工智能“夏季”,模型訓(xùn)練方法開始復(fù)興,旨在盡快獲得最優(yōu)、性能最佳的模型。其中大部分是通過(guò)大規(guī)模實(shí)現(xiàn)的——更多芯片、更多數(shù)據(jù)、更多訓(xùn)練步驟。然而,許多團(tuán)隊(duì)一直專注于如何更高效、更智能地訓(xùn)練這些模型,以實(shí)現(xiàn)預(yù)期結(jié)果。

法學(xué)碩士培養(yǎng)通常包括以下階段:

· 預(yù)訓(xùn)練:這個(gè)初始階段奠定了基礎(chǔ),將模型從一組惰性神經(jīng)元轉(zhuǎn)變?yōu)榛镜恼Z(yǔ)言生成器。雖然模型會(huì)吸收大量數(shù)據(jù)(例如整個(gè)互聯(lián)網(wǎng)),但此階段的輸出通常是無(wú)意義的,盡管并非完全是胡言亂語(yǔ)。

· 監(jiān)督式微調(diào) (SFT):此階段將模型從難以理解的狀態(tài)提升,使其能夠生成更連貫、更有用的輸出。SFT 涉及為模型提供所需行為的具體示例,并教會(huì)它什么是“有幫助、有用和合理的”。在此階段之后,模型可以部署并用于生產(chǎn)。

· 強(qiáng)化學(xué)習(xí) (RL):強(qiáng)化學(xué)習(xí)將模型從“有效”提升到“良好”,超越了明確的指令,允許模型通過(guò)標(biāo)記的偏好數(shù)據(jù)學(xué)習(xí)用戶的隱性偏好和愿望。這使開發(fā)人員能夠鼓勵(lì)期望的行為,而無(wú)需明確定義為什么這些行為是首選。

· 情境學(xué)習(xí):這種技術(shù)也稱為即時(shí)工程,允許用戶在推理時(shí)直接影響模型行為。通過(guò)采用約束和 N 次學(xué)習(xí)等方法,用戶可以微調(diào)模型的輸出以適應(yīng)特定需求和情境。

請(qǐng)注意,這不是一個(gè)詳盡的列表,還有許多其他方法和階段可以納入特殊的訓(xùn)練流程

引入獎(jiǎng)勵(lì)和強(qiáng)化學(xué)習(xí)

人類擅長(zhǎng)模式識(shí)別,通常無(wú)需刻意努力就能學(xué)習(xí)和適應(yīng)。我們的智力發(fā)展可以看作是一個(gè)不斷增加的復(fù)雜模式識(shí)別過(guò)程。孩子在經(jīng)歷負(fù)面后果后學(xué)會(huì)不跳進(jìn)水坑,就像法學(xué)碩士經(jīng)歷 SFT 一樣。同樣,觀察社交互動(dòng)的青少年學(xué)會(huì)根據(jù)正面和負(fù)面反饋調(diào)整自己的行為——強(qiáng)化學(xué)習(xí)的本質(zhì)。

強(qiáng)化學(xué)習(xí)實(shí)踐:關(guān)鍵組成部分

· 偏好數(shù)據(jù): LLM 中的強(qiáng)化學(xué)習(xí)通常需要多個(gè)(通常是 2 個(gè))示例輸出和一個(gè)提示/輸入,以展示“梯度”。這旨在表明某些行為相對(duì)于其他行為更受青睞。例如,在 RLHF 中,可能會(huì)向人類用戶提供提示和兩個(gè)示例,并要求他們選擇他們喜歡哪個(gè),或者在其他方法中,可能會(huì)向他們提供輸出并要求他們以某種方式對(duì)其進(jìn)行改進(jìn)(其中改進(jìn)的版本將被視為“首選”選項(xiàng))。

· 獎(jiǎng)勵(lì)模型:獎(jiǎng)勵(lì)模型直接在偏好數(shù)據(jù)上進(jìn)行訓(xùn)練。對(duì)于給定輸入的一組響應(yīng),每個(gè)響應(yīng)都可以分配一個(gè)標(biāo)量值,表示其在集合中的“排名”(對(duì)于二進(jìn)制示例,這可以是 0 和 1)。然后訓(xùn)練獎(jiǎng)勵(lì)模型以在給定新的輸入和輸出對(duì)的情況下預(yù)測(cè)這些標(biāo)量值。也就是說(shuō),RM 能夠重現(xiàn)或預(yù)測(cè)用戶的偏好

· 生成器模型:這是最終預(yù)期的產(chǎn)物。簡(jiǎn)而言之,在強(qiáng)化訓(xùn)練過(guò)程中,生成器模型會(huì)生成一個(gè)輸出,然后由獎(jiǎng)勵(lì)模型對(duì)其進(jìn)行評(píng)分,并將得到的獎(jiǎng)勵(lì)反饋給算法,該算法決定如何改變生成器模型。例如,當(dāng)提供正獎(jiǎng)勵(lì)時(shí),算法將更新模型以增加生成給定輸出的幾率,而在提供負(fù)獎(jiǎng)勵(lì)的情況下則執(zhí)行相反的操作。

在 LLM 領(lǐng)域,RLHF 一直是一股主導(dǎo)力量。通過(guò)收集大量人類偏好數(shù)據(jù),RLHF 顯著提高了 LLM 的表現(xiàn)。然而,這種方法成本高昂、耗時(shí)長(zhǎng),而且容易受到偏見和漏洞的影響。

這一限制促使人們探索大規(guī)模獲取獎(jiǎng)勵(lì)信息的替代方法,為 RLAIF 的出現(xiàn)鋪平了道路——一種有望重新定義人工智能發(fā)展未來(lái)的革命性方法。

了解 RLAIF:使用 AI 反饋擴(kuò)展 LLM 對(duì)齊的技術(shù)概述

RLAIF 背后的核心思想既簡(jiǎn)單又深刻:如果 LLM 可以生成詩(shī)歌、腳本甚至代碼等創(chuàng)意文本格式,為什么他們不能自學(xué)?這種自我完善的概念有望實(shí)現(xiàn)前所未有的質(zhì)量和效率水平,超越 RLHF 的局限性。這正是研究人員通過(guò) RLAIF 取得的成就。

與任何形式的強(qiáng)化學(xué)習(xí)一樣,關(guān)鍵在于為輸出分配價(jià)值并訓(xùn)練獎(jiǎng)勵(lì)模型來(lái)預(yù)測(cè)這些價(jià)值。RLAIF 的創(chuàng)新之處在于能夠自動(dòng)大規(guī)模生成這些偏好標(biāo)簽,而無(wú)需依賴人工輸入。雖然所有 LLM 最終都以某種形式源自人工生成的數(shù)據(jù),但 RLAIF 利用現(xiàn)有的 LLM 作為“老師”來(lái)指導(dǎo)訓(xùn)練過(guò)程,從而無(wú)需持續(xù)進(jìn)行人工標(biāo)記。

使用這種方法,作者能夠從 RLAIF 獲得與 RLHF 相當(dāng)甚至更好的結(jié)果。請(qǐng)參見下面的“無(wú)害響應(yīng)率”圖表,比較各種方法:

為了實(shí)現(xiàn)這一目標(biāo),作者開發(fā)了許多方法創(chuàng)新。

· 情境學(xué)習(xí)和提示工程: RLAIF 利用情境學(xué)習(xí)和精心設(shè)計(jì)的提示來(lái)從教師 LLM 那里獲取偏好信息。這些提示提供背景、示例(用于小樣本學(xué)習(xí))和要評(píng)估的樣本。教師 LLM 的輸出然后作為獎(jiǎng)勵(lì)信號(hào)。

· 思路鏈推理:為了提高教師法學(xué)碩士的推理能力,RLAIF 采用思路鏈 (CoT) 提示。雖然推理過(guò)程本身不直接使用,但它可以讓教師法學(xué)碩士做出更明智、更細(xì)致的偏好判斷。

· 解決位置偏見:為了減輕響應(yīng)順序?qū)處熎玫挠绊?,RLAIF 對(duì)從具有不同響應(yīng)順序的多個(gè)提示中獲得的偏好進(jìn)行平均。

為了更直接地理解這一點(diǎn),想象一下你試圖訓(xùn)練的人工智能是一個(gè)學(xué)生,通過(guò)連續(xù)的反饋循環(huán)學(xué)習(xí)和改進(jìn)。然后想象一個(gè)已經(jīng)經(jīng)過(guò)大量訓(xùn)練的現(xiàn)成人工智能作為老師。老師獎(jiǎng)勵(lì)學(xué)生采取某些行動(dòng)、提出某些反應(yīng)等,否則懲罰學(xué)生。它這樣做的方式是通過(guò)“測(cè)試”學(xué)生,通過(guò)給學(xué)生測(cè)驗(yàn),學(xué)生必須選擇最佳答案。這些測(cè)試是通過(guò)“對(duì)比”提示生成的,其中老師通過(guò)略微改變提示來(lái)生成略有不同的答案。

例如,在代碼生成方面,一個(gè)提示可能會(huì)鼓勵(lì) LLM 生成高效的代碼,但可能會(huì)犧牲可讀性,而另一個(gè)提示則強(qiáng)調(diào)代碼清晰度和文檔。然后,老師將自己的偏好指定為“基本事實(shí)”,并要求學(xué)生指出其認(rèn)為的首選輸出是什么。通過(guò)比較學(xué)生在這些對(duì)比提示下的回答,RLAIF 可以評(píng)估哪個(gè)回答更符合所需屬性。

同時(shí),學(xué)生的目標(biāo)是最大化累積獎(jiǎng)勵(lì)。因此,每次受到懲罰時(shí),它都會(huì)決定改變自己,以免再次犯錯(cuò)并再次受到懲罰。當(dāng)它得到獎(jiǎng)勵(lì)時(shí),它的目標(biāo)是強(qiáng)化這種行為,以便將來(lái)更有可能重現(xiàn)相同的反應(yīng)。這樣,在連續(xù)的測(cè)驗(yàn)中,學(xué)生會(huì)變得越來(lái)越好,受到的懲罰越來(lái)越少。雖然懲罰永遠(yuǎn)不會(huì)降為零,但學(xué)生確實(shí)會(huì)收斂到某個(gè)最小值,這代表了它能夠?qū)崿F(xiàn)的最佳表現(xiàn)。從那里開始,學(xué)生做出的未來(lái)推理可能比不使用 RLAIF 時(shí)質(zhì)量高得多。

評(píng)估合成(LLM 生成的)偏好數(shù)據(jù)對(duì)于有效對(duì)齊至關(guān)重要。RLAIF 使用“自我獎(jiǎng)勵(lì)”分?jǐn)?shù),該分?jǐn)?shù)比較對(duì)比提示下兩個(gè)響應(yīng)的生成概率。該分?jǐn)?shù)反映了每個(gè)響應(yīng)與所需屬性的相對(duì)對(duì)齊程度。最后,直接偏好優(yōu)化 (DPO) 是一種高效的 RL 算法,它利用這些自我獎(jiǎng)勵(lì)分?jǐn)?shù)來(lái)優(yōu)化學(xué)生模型,鼓勵(lì)其生成符合人類價(jià)值觀的響應(yīng)。DPO 直接優(yōu)化 LLM 以獲得首選響應(yīng),而無(wú)需明確訓(xùn)練單獨(dú)的獎(jiǎng)勵(lì)模型。

RLAIF 實(shí)際應(yīng)用:應(yīng)用和優(yōu)勢(shì)

RLAIF 的多功能性擴(kuò)展到各種任務(wù),包括摘要、對(duì)話生成和代碼生成。研究表明,RLAIF 可以實(shí)現(xiàn)與 RLHF 相當(dāng)甚至更好的性能,同時(shí)顯著減少對(duì)人工注釋的依賴。這意味著可以大幅節(jié)省成本并縮短迭代周期,這使得 RLAIF 對(duì)于快速發(fā)展的 LLM 開發(fā)特別有吸引力。

此外,RLAIF 為未來(lái)“閉環(huán)”法學(xué)碩士改進(jìn)打開了大門。隨著學(xué)生模型通過(guò) RLAIF 變得更加一致,反過(guò)來(lái),它可以用作后續(xù) RLAIF 迭代的更可靠的教師模型。這形成了一個(gè)正反饋循環(huán),有可能在無(wú)需額外人工干預(yù)的情況下持續(xù)改進(jìn)法學(xué)碩士的一致性。

那么如何利用 RLAIF?如果你已經(jīng)有了 RL 管道,這其實(shí)很簡(jiǎn)單:

1. 提示集:從一組旨在引發(fā)所需行為的提示開始?;蛘撸梢岳矛F(xiàn)成的 LLM 來(lái)生成這些提示。

2. 對(duì)比提示:對(duì)于每個(gè)提示,創(chuàng)建兩個(gè)略有不同的版本,強(qiáng)調(diào)目標(biāo)行為的不同方面(例如,有用性與安全性)。 LLM 也可以自動(dòng)執(zhí)行此過(guò)程。

3. 響應(yīng)生成:捕獲學(xué)生 LLM 對(duì)每個(gè)提示變化的響應(yīng)。

4. 偏好引出:創(chuàng)建元提示,以針對(duì)每個(gè)提示-響應(yīng)對(duì)從老師 LLM 處獲取偏好信息。

5. RL 管道集成:利用現(xiàn)有 RL 管道中生成的偏好數(shù)據(jù)來(lái)指導(dǎo)學(xué)生模型的學(xué)習(xí)和優(yōu)化。

挑戰(zhàn)與限制

盡管 RLAIF 潛力巨大,但它仍面臨需要進(jìn)一步研究的挑戰(zhàn)。人工智能注釋的準(zhǔn)確性仍然令人擔(dān)憂,因?yàn)榻處?LLM 的偏見可能會(huì)傳播到學(xué)生模型中。此外,這些偏好數(shù)據(jù)中包含的偏見最終可能會(huì)在教師 LLM 中“結(jié)晶”,這使得事后很難消除。此外,研究表明,與 RLAIF 一致的模型有時(shí)會(huì)生成事實(shí)不一致或連貫性降低的響應(yīng)。這需要探索技術(shù)來(lái)改善生成文本的事實(shí)基礎(chǔ)和整體質(zhì)量。

解決這些問(wèn)題需要探索提高人工智能反饋的可靠性、質(zhì)量和客觀性的技術(shù)。

此外,RLAIF 的理論基礎(chǔ)需要仔細(xì)研究。雖然自我獎(jiǎng)勵(lì)分?jǐn)?shù)的有效性已被證實(shí),但仍需要進(jìn)一步分析以了解其局限性并完善其基本假設(shè)。

新興趨勢(shì)和未來(lái)研究

RLAIF 的出現(xiàn)引發(fā)了令人興奮的研究方向。將其與其他 RL 方法(如執(zhí)行反饋強(qiáng)化學(xué)習(xí) (RLEF))進(jìn)行比較,可以深入了解它們各自的優(yōu)缺點(diǎn)。

一個(gè)方向涉及研究細(xì)粒度反饋機(jī)制,該機(jī)制在單個(gè) token 級(jí)別提供更細(xì)粒度的獎(jiǎng)勵(lì),從而可能帶來(lái)更精確和更細(xì)微的對(duì)齊結(jié)果。另一個(gè)有希望的途徑是探索多模態(tài)信息的集成,結(jié)合來(lái)自圖像和視頻的數(shù)據(jù)來(lái)豐富對(duì)齊過(guò)程并促進(jìn)對(duì) LLM 的更全面理解。從人類學(xué)習(xí)中汲取靈感,研究人員也在探索課程學(xué)習(xí)原則在 RLAIF 中的應(yīng)用,逐步增加任務(wù)的復(fù)雜性以提高對(duì)齊過(guò)程的效率和有效性。

此外,研究 RLAIF 中正反饋循環(huán)的潛力,從而實(shí)現(xiàn)無(wú)需人工干預(yù)的 LLM 持續(xù)改進(jìn),這代表著朝著更加自主和自我完善的 AI 生態(tài)系統(tǒng)邁出了重要一步。

此外,通過(guò)將反饋融入現(xiàn)實(shí)世界,可能有機(jī)會(huì)提高這種方法的質(zhì)量。例如,如果代理能夠執(zhí)行代碼、進(jìn)行現(xiàn)實(shí)世界的實(shí)驗(yàn)或與機(jī)器人系統(tǒng)集成以在現(xiàn)實(shí)世界中“實(shí)例化”反饋以捕獲更客觀的反饋,它將能夠捕獲更準(zhǔn)確、更可靠的偏好信息,而不會(huì)失去擴(kuò)展優(yōu)勢(shì)。

然而,道德考量仍然至關(guān)重要。由于 RLAIF 使 LLM 能夠塑造自己的定位,因此確保負(fù)責(zé)任的開發(fā)和部署至關(guān)重要。建立強(qiáng)有力的保障措施以防止?jié)撛诘臑E用并減輕從教師模型中繼承的偏見對(duì)于建立信任和確保這項(xiàng)技術(shù)的道德進(jìn)步至關(guān)重要。如前所述,RLAIF 有可能傳播和放大源數(shù)據(jù)中存在的偏見,在擴(kuò)展這種方法之前必須仔細(xì)檢查這些偏見。

結(jié)論:RLAIF 是實(shí)現(xiàn) AI 協(xié)調(diào)發(fā)展的墊腳石

RLAIF 提供了一種強(qiáng)大而有效的 LLM 對(duì)齊方法,與傳統(tǒng)的 RLHF 方法相比具有顯著的優(yōu)勢(shì)。它的可擴(kuò)展性、成本效益和自我改進(jìn)潛力為人工智能發(fā)展的未來(lái)帶來(lái)了巨大的希望。在承認(rèn)當(dāng)前挑戰(zhàn)和局限性的同時(shí),正在進(jìn)行的研究工作正在積極為更可靠、客觀和合乎道德的 RLAIF 框架鋪平道路。隨著我們繼續(xù)探索這一令人興奮的前沿,RLAIF 將成為邁向未來(lái)的墊腳石,在未來(lái),LLM 將與人類價(jià)值觀和期望無(wú)縫融合,充分釋放人工智能的潛力,造福社會(huì)。


本站聲明: 本文章由作者或相關(guān)機(jī)構(gòu)授權(quán)發(fā)布,目的在于傳遞更多信息,并不代表本站贊同其觀點(diǎn),本站亦不保證或承諾內(nèi)容真實(shí)性等。需要轉(zhuǎn)載請(qǐng)聯(lián)系該專欄作者,如若文章內(nèi)容侵犯您的權(quán)益,請(qǐng)及時(shí)聯(lián)系本站刪除。
換一批
延伸閱讀

9月2日消息,不造車的華為或?qū)⒋呱龈蟮莫?dú)角獸公司,隨著阿維塔和賽力斯的入局,華為引望愈發(fā)顯得引人矚目。

關(guān)鍵字: 阿維塔 塞力斯 華為

倫敦2024年8月29日 /美通社/ -- 英國(guó)汽車技術(shù)公司SODA.Auto推出其旗艦產(chǎn)品SODA V,這是全球首款涵蓋汽車工程師從創(chuàng)意到認(rèn)證的所有需求的工具,可用于創(chuàng)建軟件定義汽車。 SODA V工具的開發(fā)耗時(shí)1.5...

關(guān)鍵字: 汽車 人工智能 智能驅(qū)動(dòng) BSP

北京2024年8月28日 /美通社/ -- 越來(lái)越多用戶希望企業(yè)業(yè)務(wù)能7×24不間斷運(yùn)行,同時(shí)企業(yè)卻面臨越來(lái)越多業(yè)務(wù)中斷的風(fēng)險(xiǎn),如企業(yè)系統(tǒng)復(fù)雜性的增加,頻繁的功能更新和發(fā)布等。如何確保業(yè)務(wù)連續(xù)性,提升韌性,成...

關(guān)鍵字: 亞馬遜 解密 控制平面 BSP

8月30日消息,據(jù)媒體報(bào)道,騰訊和網(wǎng)易近期正在縮減他們對(duì)日本游戲市場(chǎng)的投資。

關(guān)鍵字: 騰訊 編碼器 CPU

8月28日消息,今天上午,2024中國(guó)國(guó)際大數(shù)據(jù)產(chǎn)業(yè)博覽會(huì)開幕式在貴陽(yáng)舉行,華為董事、質(zhì)量流程IT總裁陶景文發(fā)表了演講。

關(guān)鍵字: 華為 12nm EDA 半導(dǎo)體

8月28日消息,在2024中國(guó)國(guó)際大數(shù)據(jù)產(chǎn)業(yè)博覽會(huì)上,華為常務(wù)董事、華為云CEO張平安發(fā)表演講稱,數(shù)字世界的話語(yǔ)權(quán)最終是由生態(tài)的繁榮決定的。

關(guān)鍵字: 華為 12nm 手機(jī) 衛(wèi)星通信

要點(diǎn): 有效應(yīng)對(duì)環(huán)境變化,經(jīng)營(yíng)業(yè)績(jī)穩(wěn)中有升 落實(shí)提質(zhì)增效舉措,毛利潤(rùn)率延續(xù)升勢(shì) 戰(zhàn)略布局成效顯著,戰(zhàn)新業(yè)務(wù)引領(lǐng)增長(zhǎng) 以科技創(chuàng)新為引領(lǐng),提升企業(yè)核心競(jìng)爭(zhēng)力 堅(jiān)持高質(zhì)量發(fā)展策略,塑強(qiáng)核心競(jìng)爭(zhēng)優(yōu)勢(shì)...

關(guān)鍵字: 通信 BSP 電信運(yùn)營(yíng)商 數(shù)字經(jīng)濟(jì)

北京2024年8月27日 /美通社/ -- 8月21日,由中央廣播電視總臺(tái)與中國(guó)電影電視技術(shù)學(xué)會(huì)聯(lián)合牽頭組建的NVI技術(shù)創(chuàng)新聯(lián)盟在BIRTV2024超高清全產(chǎn)業(yè)鏈發(fā)展研討會(huì)上宣布正式成立。 活動(dòng)現(xiàn)場(chǎng) NVI技術(shù)創(chuàng)新聯(lián)...

關(guān)鍵字: VI 傳輸協(xié)議 音頻 BSP

北京2024年8月27日 /美通社/ -- 在8月23日舉辦的2024年長(zhǎng)三角生態(tài)綠色一體化發(fā)展示范區(qū)聯(lián)合招商會(huì)上,軟通動(dòng)力信息技術(shù)(集團(tuán))股份有限公司(以下簡(jiǎn)稱"軟通動(dòng)力")與長(zhǎng)三角投資(上海)有限...

關(guān)鍵字: BSP 信息技術(shù)
關(guān)閉