了解 RLAIF:使用 AI 反饋擴展 LLM 對齊的技術(shù)概述
隨著最近LLM的成就和關(guān)注,以及隨之而來的人工智能“夏季”,模型訓練方法開始復(fù)興,旨在盡快獲得最優(yōu)、性能最佳的模型。其中大部分是通過大規(guī)模實現(xiàn)的——更多芯片、更多數(shù)據(jù)、更多訓練步驟。然而,許多團隊一直專注于如何更高效、更智能地訓練這些模型,以實現(xiàn)預(yù)期結(jié)果。
法學碩士培養(yǎng)通常包括以下階段:
· 預(yù)訓練:這個初始階段奠定了基礎(chǔ),將模型從一組惰性神經(jīng)元轉(zhuǎn)變?yōu)榛镜恼Z言生成器。雖然模型會吸收大量數(shù)據(jù)(例如整個互聯(lián)網(wǎng)),但此階段的輸出通常是無意義的,盡管并非完全是胡言亂語。
· 監(jiān)督式微調(diào) (SFT):此階段將模型從難以理解的狀態(tài)提升,使其能夠生成更連貫、更有用的輸出。SFT 涉及為模型提供所需行為的具體示例,并教會它什么是“有幫助、有用和合理的”。在此階段之后,模型可以部署并用于生產(chǎn)。
· 強化學習 (RL):強化學習將模型從“有效”提升到“良好”,超越了明確的指令,允許模型通過標記的偏好數(shù)據(jù)學習用戶的隱性偏好和愿望。這使開發(fā)人員能夠鼓勵期望的行為,而無需明確定義為什么這些行為是首選。
· 情境學習:這種技術(shù)也稱為即時工程,允許用戶在推理時直接影響模型行為。通過采用約束和 N 次學習等方法,用戶可以微調(diào)模型的輸出以適應(yīng)特定需求和情境。
請注意,這不是一個詳盡的列表,還有許多其他方法和階段可以納入特殊的訓練流程
引入獎勵和強化學習
人類擅長模式識別,通常無需刻意努力就能學習和適應(yīng)。我們的智力發(fā)展可以看作是一個不斷增加的復(fù)雜模式識別過程。孩子在經(jīng)歷負面后果后學會不跳進水坑,就像法學碩士經(jīng)歷 SFT 一樣。同樣,觀察社交互動的青少年學會根據(jù)正面和負面反饋調(diào)整自己的行為——強化學習的本質(zhì)。
強化學習實踐:關(guān)鍵組成部分
· 偏好數(shù)據(jù): LLM 中的強化學習通常需要多個(通常是 2 個)示例輸出和一個提示/輸入,以展示“梯度”。這旨在表明某些行為相對于其他行為更受青睞。例如,在 RLHF 中,可能會向人類用戶提供提示和兩個示例,并要求他們選擇他們喜歡哪個,或者在其他方法中,可能會向他們提供輸出并要求他們以某種方式對其進行改進(其中改進的版本將被視為“首選”選項)。
· 獎勵模型:獎勵模型直接在偏好數(shù)據(jù)上進行訓練。對于給定輸入的一組響應(yīng),每個響應(yīng)都可以分配一個標量值,表示其在集合中的“排名”(對于二進制示例,這可以是 0 和 1)。然后訓練獎勵模型以在給定新的輸入和輸出對的情況下預(yù)測這些標量值。也就是說,RM 能夠重現(xiàn)或預(yù)測用戶的偏好
· 生成器模型:這是最終預(yù)期的產(chǎn)物。簡而言之,在強化訓練過程中,生成器模型會生成一個輸出,然后由獎勵模型對其進行評分,并將得到的獎勵反饋給算法,該算法決定如何改變生成器模型。例如,當提供正獎勵時,算法將更新模型以增加生成給定輸出的幾率,而在提供負獎勵的情況下則執(zhí)行相反的操作。
在 LLM 領(lǐng)域,RLHF 一直是一股主導(dǎo)力量。通過收集大量人類偏好數(shù)據(jù),RLHF 顯著提高了 LLM 的表現(xiàn)。然而,這種方法成本高昂、耗時長,而且容易受到偏見和漏洞的影響。
這一限制促使人們探索大規(guī)模獲取獎勵信息的替代方法,為 RLAIF 的出現(xiàn)鋪平了道路——一種有望重新定義人工智能發(fā)展未來的革命性方法。
了解 RLAIF:使用 AI 反饋擴展 LLM 對齊的技術(shù)概述
RLAIF 背后的核心思想既簡單又深刻:如果 LLM 可以生成詩歌、腳本甚至代碼等創(chuàng)意文本格式,為什么他們不能自學?這種自我完善的概念有望實現(xiàn)前所未有的質(zhì)量和效率水平,超越 RLHF 的局限性。這正是研究人員通過 RLAIF 取得的成就。
與任何形式的強化學習一樣,關(guān)鍵在于為輸出分配價值并訓練獎勵模型來預(yù)測這些價值。RLAIF 的創(chuàng)新之處在于能夠自動大規(guī)模生成這些偏好標簽,而無需依賴人工輸入。雖然所有 LLM 最終都以某種形式源自人工生成的數(shù)據(jù),但 RLAIF 利用現(xiàn)有的 LLM 作為“老師”來指導(dǎo)訓練過程,從而無需持續(xù)進行人工標記。
使用這種方法,作者能夠從 RLAIF 獲得與 RLHF 相當甚至更好的結(jié)果。請參見下面的“無害響應(yīng)率”圖表,比較各種方法:
為了實現(xiàn)這一目標,作者開發(fā)了許多方法創(chuàng)新。
· 情境學習和提示工程: RLAIF 利用情境學習和精心設(shè)計的提示來從教師 LLM 那里獲取偏好信息。這些提示提供背景、示例(用于小樣本學習)和要評估的樣本。教師 LLM 的輸出然后作為獎勵信號。
· 思路鏈推理:為了提高教師法學碩士的推理能力,RLAIF 采用思路鏈 (CoT) 提示。雖然推理過程本身不直接使用,但它可以讓教師法學碩士做出更明智、更細致的偏好判斷。
· 解決位置偏見:為了減輕響應(yīng)順序?qū)處熎玫挠绊?,RLAIF 對從具有不同響應(yīng)順序的多個提示中獲得的偏好進行平均。
為了更直接地理解這一點,想象一下你試圖訓練的人工智能是一個學生,通過連續(xù)的反饋循環(huán)學習和改進。然后想象一個已經(jīng)經(jīng)過大量訓練的現(xiàn)成人工智能作為老師。老師獎勵學生采取某些行動、提出某些反應(yīng)等,否則懲罰學生。它這樣做的方式是通過“測試”學生,通過給學生測驗,學生必須選擇最佳答案。這些測試是通過“對比”提示生成的,其中老師通過略微改變提示來生成略有不同的答案。
例如,在代碼生成方面,一個提示可能會鼓勵 LLM 生成高效的代碼,但可能會犧牲可讀性,而另一個提示則強調(diào)代碼清晰度和文檔。然后,老師將自己的偏好指定為“基本事實”,并要求學生指出其認為的首選輸出是什么。通過比較學生在這些對比提示下的回答,RLAIF 可以評估哪個回答更符合所需屬性。
同時,學生的目標是最大化累積獎勵。因此,每次受到懲罰時,它都會決定改變自己,以免再次犯錯并再次受到懲罰。當它得到獎勵時,它的目標是強化這種行為,以便將來更有可能重現(xiàn)相同的反應(yīng)。這樣,在連續(xù)的測驗中,學生會變得越來越好,受到的懲罰越來越少。雖然懲罰永遠不會降為零,但學生確實會收斂到某個最小值,這代表了它能夠?qū)崿F(xiàn)的最佳表現(xiàn)。從那里開始,學生做出的未來推理可能比不使用 RLAIF 時質(zhì)量高得多。
評估合成(LLM 生成的)偏好數(shù)據(jù)對于有效對齊至關(guān)重要。RLAIF 使用“自我獎勵”分數(shù),該分數(shù)比較對比提示下兩個響應(yīng)的生成概率。該分數(shù)反映了每個響應(yīng)與所需屬性的相對對齊程度。最后,直接偏好優(yōu)化 (DPO) 是一種高效的 RL 算法,它利用這些自我獎勵分數(shù)來優(yōu)化學生模型,鼓勵其生成符合人類價值觀的響應(yīng)。DPO 直接優(yōu)化 LLM 以獲得首選響應(yīng),而無需明確訓練單獨的獎勵模型。
RLAIF 實際應(yīng)用:應(yīng)用和優(yōu)勢
RLAIF 的多功能性擴展到各種任務(wù),包括摘要、對話生成和代碼生成。研究表明,RLAIF 可以實現(xiàn)與 RLHF 相當甚至更好的性能,同時顯著減少對人工注釋的依賴。這意味著可以大幅節(jié)省成本并縮短迭代周期,這使得 RLAIF 對于快速發(fā)展的 LLM 開發(fā)特別有吸引力。
此外,RLAIF 為未來“閉環(huán)”法學碩士改進打開了大門。隨著學生模型通過 RLAIF 變得更加一致,反過來,它可以用作后續(xù) RLAIF 迭代的更可靠的教師模型。這形成了一個正反饋循環(huán),有可能在無需額外人工干預(yù)的情況下持續(xù)改進法學碩士的一致性。
那么如何利用 RLAIF?如果你已經(jīng)有了 RL 管道,這其實很簡單:
1. 提示集:從一組旨在引發(fā)所需行為的提示開始。或者,您可以利用現(xiàn)成的 LLM 來生成這些提示。
2. 對比提示:對于每個提示,創(chuàng)建兩個略有不同的版本,強調(diào)目標行為的不同方面(例如,有用性與安全性)。 LLM 也可以自動執(zhí)行此過程。
3. 響應(yīng)生成:捕獲學生 LLM 對每個提示變化的響應(yīng)。
4. 偏好引出:創(chuàng)建元提示,以針對每個提示-響應(yīng)對從老師 LLM 處獲取偏好信息。
5. RL 管道集成:利用現(xiàn)有 RL 管道中生成的偏好數(shù)據(jù)來指導(dǎo)學生模型的學習和優(yōu)化。
挑戰(zhàn)與限制
盡管 RLAIF 潛力巨大,但它仍面臨需要進一步研究的挑戰(zhàn)。人工智能注釋的準確性仍然令人擔憂,因為教師 LLM 的偏見可能會傳播到學生模型中。此外,這些偏好數(shù)據(jù)中包含的偏見最終可能會在教師 LLM 中“結(jié)晶”,這使得事后很難消除。此外,研究表明,與 RLAIF 一致的模型有時會生成事實不一致或連貫性降低的響應(yīng)。這需要探索技術(shù)來改善生成文本的事實基礎(chǔ)和整體質(zhì)量。
解決這些問題需要探索提高人工智能反饋的可靠性、質(zhì)量和客觀性的技術(shù)。
此外,RLAIF 的理論基礎(chǔ)需要仔細研究。雖然自我獎勵分數(shù)的有效性已被證實,但仍需要進一步分析以了解其局限性并完善其基本假設(shè)。
新興趨勢和未來研究
RLAIF 的出現(xiàn)引發(fā)了令人興奮的研究方向。將其與其他 RL 方法(如執(zhí)行反饋強化學習 (RLEF))進行比較,可以深入了解它們各自的優(yōu)缺點。
一個方向涉及研究細粒度反饋機制,該機制在單個 token 級別提供更細粒度的獎勵,從而可能帶來更精確和更細微的對齊結(jié)果。另一個有希望的途徑是探索多模態(tài)信息的集成,結(jié)合來自圖像和視頻的數(shù)據(jù)來豐富對齊過程并促進對 LLM 的更全面理解。從人類學習中汲取靈感,研究人員也在探索課程學習原則在 RLAIF 中的應(yīng)用,逐步增加任務(wù)的復(fù)雜性以提高對齊過程的效率和有效性。
此外,研究 RLAIF 中正反饋循環(huán)的潛力,從而實現(xiàn)無需人工干預(yù)的 LLM 持續(xù)改進,這代表著朝著更加自主和自我完善的 AI 生態(tài)系統(tǒng)邁出了重要一步。
此外,通過將反饋融入現(xiàn)實世界,可能有機會提高這種方法的質(zhì)量。例如,如果代理能夠執(zhí)行代碼、進行現(xiàn)實世界的實驗或與機器人系統(tǒng)集成以在現(xiàn)實世界中“實例化”反饋以捕獲更客觀的反饋,它將能夠捕獲更準確、更可靠的偏好信息,而不會失去擴展優(yōu)勢。
然而,道德考量仍然至關(guān)重要。由于 RLAIF 使 LLM 能夠塑造自己的定位,因此確保負責任的開發(fā)和部署至關(guān)重要。建立強有力的保障措施以防止?jié)撛诘臑E用并減輕從教師模型中繼承的偏見對于建立信任和確保這項技術(shù)的道德進步至關(guān)重要。如前所述,RLAIF 有可能傳播和放大源數(shù)據(jù)中存在的偏見,在擴展這種方法之前必須仔細檢查這些偏見。
結(jié)論:RLAIF 是實現(xiàn) AI 協(xié)調(diào)發(fā)展的墊腳石
RLAIF 提供了一種強大而有效的 LLM 對齊方法,與傳統(tǒng)的 RLHF 方法相比具有顯著的優(yōu)勢。它的可擴展性、成本效益和自我改進潛力為人工智能發(fā)展的未來帶來了巨大的希望。在承認當前挑戰(zhàn)和局限性的同時,正在進行的研究工作正在積極為更可靠、客觀和合乎道德的 RLAIF 框架鋪平道路。隨著我們繼續(xù)探索這一令人興奮的前沿,RLAIF 將成為邁向未來的墊腳石,在未來,LLM 將與人類價值觀和期望無縫融合,充分釋放人工智能的潛力,造福社會。