當前位置:首頁 > 工業(yè)控制 > 工業(yè)控制
[導讀]何為對齊?它是在機器學習,尤其是大模型技術(shù)發(fā)展過程中出現(xiàn)的?!度藱C對齊》一書認為,“如何防止這種災難性的背離——如何確保這些模型捕捉到我們的規(guī)范和價值觀。

何為對齊?它是在機器學習,尤其是大模型技術(shù)發(fā)展過程中出現(xiàn)的?!度藱C對齊》一書認為,“如何防止這種災難性的背離——如何確保這些模型捕捉到我們的規(guī)范和價值觀,理解我們的意思或意圖,最重要的是,以我們想要的方式行事——已成為計算機科學領(lǐng)域最核心、最緊迫的問題之一。這個問題被稱為對齊問題(the alignment problem)”。也就是說,對齊意味著讓機器學習模型“捕捉”人類的規(guī)范或價值觀。

“捕捉”與“灌輸”相對,此時AI遵循的規(guī)范來自機器學習,而非工程師的編程輸入。通過大量學習人類行為,AI“搞清楚”人類行為規(guī)則,然后按照規(guī)則來行事。因此,對齊問題起碼可以一分為二,即對齊什么和如何對齊。

在很多人看來,包括“AI發(fā)展的有限主義者”(強調(diào)AI發(fā)展的有限性和受控性),“對齊什么”這一問題無法完全澄清。

首先,人類并沒有統(tǒng)一的價值觀。生活在不同的國家、地區(qū),不同傳統(tǒng)、文化下的不同性別、階層的人,對同一現(xiàn)象存在不同的價值判斷。比如,面對新冠病毒肆虐,有的人認為保全生命最重要,有的人認為自由活動更重要。大模型究竟要學習誰的行動規(guī)則呢?

其次,人類的主流價值觀不斷在變化。比如,一百多年前一夫多妻制在中國流行,現(xiàn)在則屬于重婚的犯罪行為。那么,我們要給大模型輸入什么時間段的資料以供學習呢?

再次,規(guī)則存在應然與實然的偏差。比如,男女平等是社會提倡的價值觀,但在現(xiàn)實中性別歧視的現(xiàn)象并不少。如果AI學習真實案例,很可能成為性別歧視主義者。此類問題被稱為大模型的代表性問題,在實踐中屢見不鮮。

最后,有些AI如機器寵物狗,它應該與寵物狗對齊,而不是與人對齊。否則,它成了狗形人,擁有它并沒有養(yǎng)寵物的樂趣。換句話說,不是所有AI均需和人類對齊的。

因此,“對齊什么”問題是“人類、社會和政治問題,機器學習本身無法解決”。對齊什么的問題,本質(zhì)上是以數(shù)據(jù)方法或統(tǒng)計方法厘清復雜的人類規(guī)則和價值觀的問題。

規(guī)則學習是從訓練數(shù)據(jù)中學習一組用于對未見示例進行判別的規(guī)則。

一條規(guī)則形如: ⊕←?1\and…\and??L是規(guī)則體中邏輯文字的個數(shù),稱為規(guī)則長度。 ⊕ 同樣是邏輯文字,用來表示規(guī)則判定的目標類別或概念。

數(shù)理邏輯具有極強的表達能力,絕大多數(shù)人類知識都能用數(shù)理邏輯進行簡單的刻畫和表達。規(guī)則學習能更自然地在學習過程中引入領(lǐng)域知識。

規(guī)則集合中地每條規(guī)則都可看作一個子模型,規(guī)則集合是這些子模型地一個集成。當同一個示例被判別結(jié)果不同的多條規(guī)則覆蓋時,則稱發(fā)生了沖突。

解決沖突的方法:投票法、排序法、元規(guī)則法。元規(guī)則法根據(jù)領(lǐng)域知識事先設定,即關(guān)于規(guī)則的規(guī)則。

在訓練集學得的規(guī)則集合也許不能覆蓋所有可能的未見示例,因此規(guī)則學習算法通常需要設置一條默認規(guī)則。

規(guī)則分為命題規(guī)則和一階規(guī)則:

命題規(guī)則是由原子問題和邏輯連接詞(與或非蘊含)構(gòu)成的簡單陳述句;

一階規(guī)則的基本成分是能描述事物屬性或關(guān)系的原子公式。例如父子關(guān)系”父親(X,Y)“等, X和Y稱為邏輯變量,\exist,? 用于限定變量的取值范圍,稱為量詞。一階規(guī)則能表達復雜的關(guān)系,因此稱為關(guān)系型規(guī)則。

簡單地把屬性當作謂詞來定義示例與屬性值之間的關(guān)系,則命題規(guī)則改寫為一階規(guī)則。命題規(guī)則是一階規(guī)則的特例。

序貫覆蓋

規(guī)則學習的目標是產(chǎn)生一個能覆蓋進行可能多的樣例的規(guī)則集,最直接的做法是序貫覆蓋,即逐條歸納:在訓練集上學到一條規(guī)則,就將該規(guī)則覆蓋的訓練樣例去除,然后剩下的訓練樣例組成訓練集重復上述過程。由于每一次只處理一部分數(shù)據(jù),也成為分治策略。

最簡單的方法:從空規(guī)則 ⊕← 開始,將正例類別作為規(guī)則頭,再逐個遍歷訓練集中每個屬性及取值,嘗試將其作為邏輯文字增加到規(guī)則體中。若能使當前規(guī)則體僅覆蓋正例,則由此產(chǎn)生一條規(guī)則,然后去除已被覆蓋的正例并基于剩余樣本產(chǎn)生下一條規(guī)則。

上面的方法基于窮盡搜索的方法在屬性和候選值較多時會由于組合爆炸不可行?,F(xiàn)實任務中一般由兩種策略產(chǎn)生規(guī)則:自頂向下和自底向上。

自頂向下亦稱生成-測試,從較一般的規(guī)則逐漸添加新文字以縮小規(guī)則覆蓋范圍,稱為特化;自底向上亦稱數(shù)據(jù)驅(qū)動,從比較特殊的規(guī)則開始刪除文字擴大規(guī)則覆蓋范圍,直到滿足條件為止。

前者通常能產(chǎn)生泛化性能好的規(guī)則;后者更適用于訓練樣本較少的情形。

通常采用第一種策略,而第二種策略在一階規(guī)則學習這類假設空間復雜的任務上使用較多。

規(guī)則生成過程中涉及一個評估規(guī)則優(yōu)劣的標準??梢韵瓤紤]準確率,在考慮屬性次序。

由于序貫覆蓋法簡單有效。推廣到多分類:當學習關(guān)于第c類的規(guī)則時,將屬于類別c的樣本作為正例,其他作為反例。

剪枝優(yōu)化

規(guī)則生成本質(zhì)是一個貪心搜索過程,需要一定的機制緩解過擬合的風險,最常見的做法是剪枝,分為預剪枝和后剪枝。

預剪枝CN2

預剪枝可以借助顯著性檢驗來進行,例如CN2算法。

假設用規(guī)則集進行預測必須顯著優(yōu)于直接基于訓練樣例集后驗概率分布進行預測。

CN2使用了似然率統(tǒng)計量(LRS),令 ?+,?? 分別表示訓練樣例 的正反例數(shù)目, ?^+,?^? 分別表示規(guī)則覆蓋的正反例數(shù)目。

衡量了規(guī)則覆蓋的分布與訓練集經(jīng)驗分布的差別。LRS越大,說明采用規(guī)則集進預測與直接使用訓練集正反例比率進行猜測的差別越大;LBS越小,說明規(guī)則集的效果越可能僅是偶然現(xiàn)象。

后剪枝REP

后剪枝常用減錯剪枝(REP)?;咀龇ㄊ牵簩永瘎澐譃橛柧毤万炞C集?;咀龇ㄊ牵簩永齽澐譃橛柧毤万炞C集。在訓練集上學得規(guī)則集后進行多輪剪枝,每一輪窮舉所有可能剪枝操作,用驗證集評估后保留最好的規(guī)則集進行下一輪剪枝,直到無法提升性能。

REP復雜度 ?(?4) ,m維訓練樣例數(shù)目,IREP可以降低到 ?(????2?) 。做法是:

在訓練集上產(chǎn)生一條規(guī)則r;在驗證集上進行REP剪枝,得到規(guī)則r';將r'覆蓋的樣例去除,在更新后的樣例上重復上述過程。REP對整個規(guī)則集剪枝,IREP對單條規(guī)則剪枝。

1. 有監(jiān)督學習

有監(jiān)督學習通常是利用帶有專家標注的標簽的訓練數(shù)據(jù),學習一個從輸入變量X到輸入變量Y的函數(shù)映射。Y = f (X),訓練數(shù)據(jù)通常是(n×x,y)的形式,其中n代表訓練樣本的大小,x和y分別是變量X和Y的樣本值。

有監(jiān)督學習可以被分為兩類:

分類問題:預測某一樣本所屬的類別(離散的)。比如判斷性別,是否健康等。

回歸問題:預測某一樣本的所對應的實數(shù)輸出(連續(xù)的)。比如預測某一地區(qū)人的平均身高。除此之外,集成學習也是一種有監(jiān)督學習。它是將多個不同的相對較弱的機器學習模型的預測組合起來,用來預測新的樣本。

1.1 單模型

1.11 線性回歸

線性回歸是指完全由線性變量組成的回歸模型。在線性回歸分析中,只包括一個自變量和一個因變量,且二者的關(guān)系可用一條直線近似表示,這種回歸分析稱為一元線性回歸分析。如果回歸分析中包括兩個或兩個以上的自變量,且因變量和自變量之間是線性關(guān)系,則稱為多元線性回歸分析。

1.12 邏輯回歸

用于研究Y為定類數(shù)據(jù)時X和Y之間的影響關(guān)系情況,如果Y為兩類比如0和1(比如1為愿意和0為不愿意,1為購買和0為不購買),此時就叫二元邏輯回歸;如果Y為三類以上,此時就稱為多分類邏輯回歸。

自變量并不一定非要定類變量,它們也可以是定量變量。如果X是定類數(shù)據(jù),此時需要對X進行啞變量設置。

1.13 Lasso

Lasso方法是一種替代最小二乘法的壓縮估計方法。Lasso的基本思想是建立一個L1正則化模型,在模型建立過程中會壓縮一些系數(shù)和設定一些系數(shù)為零,當模型訓練完成后,這些權(quán)值等于0的參數(shù)就可以舍去,從而使模型更為簡單,并且有效防止模型過擬合。被廣泛用于存在多重共線性數(shù)據(jù)的擬合和變量選擇。

1.14 K近鄰(KNN)

KNN做回歸和分類的主要區(qū)別在于最后做預測時候的決策方式不同。KNN做分類預測時,一般是選擇多數(shù)表決法,即訓練集里和預測的樣本特征最近的K個樣本,預測為里面有最多類別數(shù)的類別。KNN做回歸時,一般是選擇平均法,即最近的K個樣本的樣本輸出的平均值作為回歸預測值。但它們的理論是一樣的。

1.15 決策樹

決策樹中每個內(nèi)部節(jié)點都是一個分裂問題:指定了對實例的某個屬性的測試,它將到達該節(jié)點的樣本按照某個特定的屬性進行分割,并且該節(jié)點的每一個后繼分支對應于該屬性的一個可能值。分類樹葉節(jié)點所含樣本中,其輸出變量的眾數(shù)就是分類結(jié)果?;貧w樹的葉節(jié)點所含樣本中,其輸出變量的平均值就是預測結(jié)果。

1.16 bp神經(jīng)網(wǎng)絡

bp神經(jīng)網(wǎng)絡是一種按誤差逆?zhèn)鞑ニ惴ㄓ柧毜亩鄬忧梆伨W(wǎng)絡,是目前應用最廣泛的神經(jīng)網(wǎng)絡模型之一。bp神經(jīng)網(wǎng)絡的學習規(guī)則是使用最速下降法,通過反向傳播來不斷調(diào)整網(wǎng)絡的權(quán)值和閾值,使網(wǎng)絡的分類錯誤率最小(誤差平方和最小)。

BP 神經(jīng)網(wǎng)絡是一種多層的前饋神經(jīng)網(wǎng)絡,其主要的特點是:信號是前向傳播的,而誤差是反向傳播的。具體來說,對于如下的只含一個隱層的神經(jīng)網(wǎng)絡模型:

BP 神經(jīng)網(wǎng)絡的過程主要分為兩個階段,第一階段是信號的前向傳播,從輸入層經(jīng)過隱含層,最后到達輸出層;第二階段是誤差的反向傳播,從輸出層到隱含層,最后到輸入層,依次調(diào)節(jié)隱含層到輸出層的權(quán)重和偏置,輸入層到隱含層的權(quán)重和偏置。

1.17 支持向量機(SVM)

支持向量機回歸(SVR)用非線性映射將數(shù)據(jù)映射到高維數(shù)據(jù)特征空間中,使得在高維數(shù)據(jù)特征空間中自變量與因變量具有很好的線性回歸特征,在該特征空間進行擬合后再返回到原始空間。

支持向量機分類(SVM)是一類按監(jiān)督學習方式對數(shù)據(jù)進行二元分類的廣義線性分類器,其決策邊界是對學習樣本求解的最大邊距超平面。

1.18 樸素貝葉斯

在給定一個事件發(fā)生的前提下,計算另外一個事件發(fā)生的概率——我們將會使用貝葉斯定理。假設先驗知識為d,為了計算我們的假設h為真的概率,我們將要使用如下貝葉斯定理:

該算法假定所有的變量都是相互獨立的。

1.2 集成學習

集成學習是一種將不同學習模型(比如分類器)的結(jié)果組合起來,通過投票或平均來進一步提高準確率。一般,對于分類問題用投票;對于回歸問題用平均。這樣的做法源于“眾人拾材火焰高”的想法。

聲明:該篇文章為本站原創(chuàng),未經(jīng)授權(quán)不予轉(zhuǎn)載,侵權(quán)必究。
換一批
延伸閱讀

9月2日消息,不造車的華為或?qū)⒋呱龈蟮莫毥谦F公司,隨著阿維塔和賽力斯的入局,華為引望愈發(fā)顯得引人矚目。

關(guān)鍵字: 阿維塔 塞力斯 華為

加利福尼亞州圣克拉拉縣2024年8月30日 /美通社/ -- 數(shù)字化轉(zhuǎn)型技術(shù)解決方案公司Trianz今天宣布,該公司與Amazon Web Services (AWS)簽訂了...

關(guān)鍵字: AWS AN BSP 數(shù)字化

倫敦2024年8月29日 /美通社/ -- 英國汽車技術(shù)公司SODA.Auto推出其旗艦產(chǎn)品SODA V,這是全球首款涵蓋汽車工程師從創(chuàng)意到認證的所有需求的工具,可用于創(chuàng)建軟件定義汽車。 SODA V工具的開發(fā)耗時1.5...

關(guān)鍵字: 汽車 人工智能 智能驅(qū)動 BSP

北京2024年8月28日 /美通社/ -- 越來越多用戶希望企業(yè)業(yè)務能7×24不間斷運行,同時企業(yè)卻面臨越來越多業(yè)務中斷的風險,如企業(yè)系統(tǒng)復雜性的增加,頻繁的功能更新和發(fā)布等。如何確保業(yè)務連續(xù)性,提升韌性,成...

關(guān)鍵字: 亞馬遜 解密 控制平面 BSP

8月30日消息,據(jù)媒體報道,騰訊和網(wǎng)易近期正在縮減他們對日本游戲市場的投資。

關(guān)鍵字: 騰訊 編碼器 CPU

8月28日消息,今天上午,2024中國國際大數(shù)據(jù)產(chǎn)業(yè)博覽會開幕式在貴陽舉行,華為董事、質(zhì)量流程IT總裁陶景文發(fā)表了演講。

關(guān)鍵字: 華為 12nm EDA 半導體

8月28日消息,在2024中國國際大數(shù)據(jù)產(chǎn)業(yè)博覽會上,華為常務董事、華為云CEO張平安發(fā)表演講稱,數(shù)字世界的話語權(quán)最終是由生態(tài)的繁榮決定的。

關(guān)鍵字: 華為 12nm 手機 衛(wèi)星通信

要點: 有效應對環(huán)境變化,經(jīng)營業(yè)績穩(wěn)中有升 落實提質(zhì)增效舉措,毛利潤率延續(xù)升勢 戰(zhàn)略布局成效顯著,戰(zhàn)新業(yè)務引領(lǐng)增長 以科技創(chuàng)新為引領(lǐng),提升企業(yè)核心競爭力 堅持高質(zhì)量發(fā)展策略,塑強核心競爭優(yōu)勢...

關(guān)鍵字: 通信 BSP 電信運營商 數(shù)字經(jīng)濟

北京2024年8月27日 /美通社/ -- 8月21日,由中央廣播電視總臺與中國電影電視技術(shù)學會聯(lián)合牽頭組建的NVI技術(shù)創(chuàng)新聯(lián)盟在BIRTV2024超高清全產(chǎn)業(yè)鏈發(fā)展研討會上宣布正式成立。 活動現(xiàn)場 NVI技術(shù)創(chuàng)新聯(lián)...

關(guān)鍵字: VI 傳輸協(xié)議 音頻 BSP

北京2024年8月27日 /美通社/ -- 在8月23日舉辦的2024年長三角生態(tài)綠色一體化發(fā)展示范區(qū)聯(lián)合招商會上,軟通動力信息技術(shù)(集團)股份有限公司(以下簡稱"軟通動力")與長三角投資(上海)有限...

關(guān)鍵字: BSP 信息技術(shù)
關(guān)閉