AI?與小學(xué)生的做題之戰(zhàn),孰勝孰???
訓(xùn)練驗(yàn)證器
GPT-3 之前就有說(shuō)過(guò)許多令人印象深刻的技能,像是模仿人的多種寫(xiě)作風(fēng)格、20分鐘內(nèi)完成論文、在文本生成上與人類(lèi)寫(xiě)作相媲美等。然而,他們卻很難執(zhí)行準(zhǔn)確多步推理的任務(wù),例如小學(xué)數(shù)學(xué)題。盡管類(lèi)似這樣的模型可以推導(dǎo)出正確解決方案大致內(nèi)容,但也經(jīng)常會(huì)產(chǎn)生嚴(yán)重的邏輯錯(cuò)誤。為了在復(fù)雜邏輯領(lǐng)域可以達(dá)到與人類(lèi)相媲美的性能,模型必須具有判別自身錯(cuò)誤的能力,并謹(jǐn)慎地執(zhí)行之后的過(guò)程。為此,OpenAI 的研究者提出了一個(gè)訓(xùn)練驗(yàn)證器(verifier)來(lái)判斷模型完成的正確性。在測(cè)試階段會(huì)生成許多候選解決方案并選擇排名最高的一個(gè)。證明驗(yàn)證(verification)顯著提高了 GSM8K 的性能,此外也為這一觀點(diǎn)(隨著數(shù)據(jù)的增加,驗(yàn)證比微調(diào)基線更有效)提供了強(qiáng)有力證據(jù)。驗(yàn)證器具體訓(xùn)練方法分為三步:- 先把模型的「生成器」在訓(xùn)練集上進(jìn)行2個(gè)epoch的微調(diào)。
- 從生成器中為每個(gè)訓(xùn)練問(wèn)題抽取100個(gè)解答,并將每個(gè)解答標(biāo)記為正確或不正確。
- 在數(shù)據(jù)集上,驗(yàn)證器再訓(xùn)練單個(gè)epoch。
微調(diào)
OpenAI 通過(guò)更新模型參數(shù)來(lái)進(jìn)行微調(diào),以最小化所有訓(xùn)練 token 的交叉熵?fù)p失。結(jié)果很顯然,可以看到 175B 模型明顯優(yōu)于較小的模型。假設(shè)一個(gè)對(duì)數(shù)線性趨勢(shì),當(dāng)使用完整的 GSM8K 訓(xùn)練集時(shí),需要具有 10^16 個(gè)參數(shù)的模型才能達(dá)到 80% 的求解率。盡管如此,175B 模型似乎需要至少兩個(gè)額外數(shù)量級(jí)的訓(xùn)練數(shù)據(jù)才能達(dá)到 80% 的求解率。在下圖中,OpenAI 展示了 6B 模型測(cè)試性能在 100 個(gè)訓(xùn)練 epoch 的過(guò)程中如何變化。
GSM8K 數(shù)據(jù)集
OpenAI 基于四個(gè)設(shè)計(jì)原則創(chuàng)建了 GSM8K 數(shù)據(jù)集:高質(zhì)量、高多樣性、中等難度和自然語(yǔ)言解決方案。- 高質(zhì)量:GSM8K中的問(wèn)題都是人工設(shè)計(jì)的,避免了錯(cuò)誤問(wèn)題的出現(xiàn)。
- 高多樣性:GSM8K中的問(wèn)題都被設(shè)計(jì)得相對(duì)獨(dú)特,避免了來(lái)自相同語(yǔ)言模板或僅在表面細(xì)節(jié)上有差異的問(wèn)題。
- 中等難度:GSM8K中的問(wèn)題分布對(duì)大型SOTA語(yǔ)言模型是有挑戰(zhàn)的,但又不是完全難以解決的。這些問(wèn)題不需要超出早期代數(shù)水平的概念,而且絕大多數(shù)問(wèn)題都可以在不明確定義變量的情況下得到解決。
- 自然語(yǔ)言解決方案:GSM8K中的解決方案是以自然語(yǔ)言而不是純數(shù)學(xué)表達(dá)式的形式編寫(xiě)的。模型由此生成的解決方案也可以更容易被人理解。此外,OpenAI也期望它能闡明大型語(yǔ)言模型內(nèi)部獨(dú)白的特性。
AI 所展現(xiàn)出的數(shù)學(xué)實(shí)例可以看出,使用驗(yàn)證方法比單純擴(kuò)大參數(shù)要更加智能,但缺點(diǎn)是并不穩(wěn)定。現(xiàn)下,通過(guò)在一些簡(jiǎn)單的領(lǐng)域試驗(yàn)新路徑,識(shí)別和避免機(jī)器學(xué)習(xí)的錯(cuò)誤是推動(dòng)模型發(fā)展的關(guān)鍵方法,比如簡(jiǎn)單的小學(xué)數(shù)學(xué)題。最終當(dāng)我們?cè)噲D將模型應(yīng)用到邏輯上更復(fù)雜的領(lǐng)域時(shí),那些不被了解的技能將變得越來(lái)越透明。參考鏈接:https://openai.com/blog/grade-school-math/