當(dāng)前位置:首頁(yè) > 智能硬件 > 人工智能AI
[導(dǎo)讀] 自然語(yǔ)言處理常用模型解析 一、N元模型 思想: 如果用變量W代表一個(gè)文本中順序排列的n個(gè)詞,即W = W1W2…Wn ,則統(tǒng)計(jì)語(yǔ)言 模型的任務(wù)是給出任意詞序

自然語(yǔ)言處理常用模型解析 一、N元模型

思想:

如果用變量W代表一個(gè)文本中順序排列的n個(gè)詞,即W = W1W2…Wn ,則統(tǒng)計(jì)語(yǔ)言 模型的任務(wù)是給出任意詞序列W 在文本中出現(xiàn)的概率P(W)。利用概率的乘積公式,P(W)可展開(kāi)為:P(W) = P(w1)P(w2|w1)P(w3| w1 w2)…P(wn|w1 w2…wn-1),不難看出,為了預(yù)測(cè)詞Wn的出現(xiàn)概率,必須已知它前面所有詞的出現(xiàn)概率。從計(jì)算上來(lái)看,這太復(fù)雜了。如果任意一個(gè)詞Wi的出現(xiàn)概率只同它前面的N-1個(gè)詞有關(guān),問(wèn)題就可以得到很大的簡(jiǎn)化。 這時(shí)的語(yǔ)言模型叫做N元模型 (N-gram),即P(W) = P(w1)P(w2|w1)P(w3| w1 w2)…P(wi|wi-N+1…wi-1)…實(shí)際使用的通常是N=2 或N=3的二元模型(bi-gram)或三元模型(tri-gram)。以三元模型為例,近似認(rèn)為任意詞Wi的出現(xiàn)概率只同它緊接的前面的兩個(gè)詞有關(guān)。重要的是這些概率參數(shù)都是可以通過(guò)大規(guī)模語(yǔ)料庫(kù)來(lái)估值的。比如三元概率有P(wi|wi-2wi-1) ≈ count(wi-2 wi-1… wi) / count(wi-2 wi-1)式中count(…) 表示一個(gè)特定詞序列在整個(gè)語(yǔ)料庫(kù)中出現(xiàn)的累計(jì)次數(shù)。統(tǒng)計(jì)語(yǔ)言模型有點(diǎn)像天氣預(yù)報(bào)的方法。用來(lái)估計(jì)概率參數(shù)的大規(guī)模語(yǔ)料庫(kù)好比是一個(gè)地區(qū)歷年積累起來(lái)的氣象紀(jì)錄,而用三元模型來(lái)做天氣預(yù)報(bào),就像是根據(jù)前兩天的天氣情況來(lái)預(yù)測(cè)今天的天氣。天氣預(yù)報(bào)當(dāng)然不可能百分之百正確。這也算是概率統(tǒng)計(jì)方法的一個(gè)特點(diǎn)吧。(摘自黃昌寧論文《中文信息處理的主流技術(shù)是什么?》)

條件: 該模型基于這樣一種假設(shè),第n個(gè)詞的出現(xiàn)只與前面N-1個(gè)詞相關(guān),而與其 它任何詞都不相關(guān),整句的概率就是各個(gè)詞出現(xiàn)概率的乘積。這些概率可以通過(guò)直接從語(yǔ)料中統(tǒng)計(jì)N個(gè)詞同時(shí)出現(xiàn)的次數(shù)得到。常用的是二元的Bi-Gram和三元的Tri-Gram。

問(wèn)題:

雖然我們知道元模型中, n越大約束力越強(qiáng),但由于計(jì)算機(jī)容量和速度的限制 及數(shù)據(jù)的稀疏,很難進(jìn)行大n的統(tǒng)計(jì)。

二、馬爾可夫模型以及隱馬爾可夫模型


        思想: 馬爾可夫模型實(shí)際上是個(gè)有限狀態(tài)機(jī),兩兩狀態(tài)間有轉(zhuǎn)移概率;隱馬爾可夫模型中狀態(tài)不可見(jiàn),我們只能看到輸出序列,也就是每次狀態(tài)轉(zhuǎn)移會(huì)拋出個(gè)觀測(cè)值;當(dāng)我們觀察到觀測(cè)序列后,要找到最佳的狀態(tài)序列。隱馬爾科夫模型是一種用參數(shù)表示的用于描述隨機(jī)過(guò)程統(tǒng)計(jì)特性的概率模型,是一個(gè)雙重隨機(jī)過(guò)程,由兩個(gè)部分組成:馬爾科夫鏈和一般隨機(jī)過(guò)程。其中馬爾科夫鏈用來(lái)描述狀態(tài)的轉(zhuǎn)移,用轉(zhuǎn)移概率描述。一般隨機(jī)過(guò)程用來(lái)描述狀態(tài)與觀察序列之間的關(guān)系,用觀察值概率描述。因此,隱馬爾可夫模型可以看成是能夠隨機(jī)進(jìn)行狀態(tài)轉(zhuǎn)移并輸出符號(hào)的有限狀態(tài)自動(dòng)機(jī),它通過(guò)定義觀察序列和狀態(tài)序列的聯(lián)合概率對(duì)隨機(jī)生成過(guò)程進(jìn)行建模。每一個(gè)觀察序列可以看成是由一個(gè)狀態(tài)轉(zhuǎn)移序列生成,狀態(tài)轉(zhuǎn)移過(guò)程是依據(jù)初始狀態(tài)概率分布隨機(jī)選擇一個(gè)初始狀態(tài)開(kāi)始,輸出一個(gè)觀察值后再根據(jù)狀態(tài)轉(zhuǎn)移概率矩陣隨機(jī)轉(zhuǎn)移到下一狀態(tài),直到到達(dá)某一預(yù)先指定的結(jié)束狀態(tài)為止,在每一個(gè)狀態(tài)將根據(jù)輸出概率矩陣隨機(jī)輸出一個(gè)觀察序列的元素。

一個(gè) HMM有 5個(gè)組成部分,通常記為一個(gè)五元組{S,K, π,A,B},有時(shí)簡(jiǎn)寫(xiě)為一個(gè)三元組{π ,A,B},其中:①S是模型的狀態(tài)集,模型共有 N個(gè)狀態(tài),記為 S={s1,s2, ?,sN};②K是模型中狀態(tài)輸出符號(hào)的集合,符號(hào)數(shù)為 M,符號(hào)集記為K={k1,k2,?,kM};③是初始狀態(tài)概率分布,記為 ={ 1, 2,?, N},其中 i是狀態(tài) Si作為初始狀態(tài)的概率;④A是狀態(tài)轉(zhuǎn)移概率矩陣,記為A={aij},1≤i≤N,1≤j≤N。其中 aij是從狀態(tài) Si轉(zhuǎn)移到狀態(tài) Sj的概率;⑤B是符號(hào)輸出概率矩陣,記為B={bik},1≤i≤N,1≤k≤M。其中 bik是狀態(tài) Si輸出 Vk的概率。要用HMM解決實(shí)際問(wèn)題,首先需要解決如下 3個(gè)基本問(wèn)題:①給定一個(gè)觀察序列 O=O1O2?OT和模型{ π,A,B},如何高效率地計(jì)算概率P(O|λ),也就是在給定模型的情況下觀察序列O的概率;②給定一個(gè)觀察序列 O=O1O2?OT和模型{ π,A,B},如何快速地選擇在一定意義下“最優(yōu)”的狀態(tài)序列Q=q1q2?qT,使得該狀態(tài)序列“最好地解釋”觀察序列;③給定一個(gè)觀察序列 O=O1O2?OT,以及可能的模型空間,如何來(lái)估計(jì)模型參數(shù),也就是說(shuō),如何調(diào)節(jié)模型{π,A,B}的參數(shù),使得 P(O|λ)最大。

問(wèn)題:

隱馬模型中存在兩個(gè)假設(shè):輸出獨(dú)立性假設(shè)和馬爾可夫性假設(shè)。其中,輸出獨(dú)立性假設(shè)要求序列數(shù)據(jù)嚴(yán)格相互獨(dú)立才能保證推導(dǎo)的正確性,而事實(shí)上大多數(shù)序列數(shù)據(jù)不能被表示成一系列獨(dú)立事件。 三、最大熵模型 最大熵原理原本是熱力學(xué)中一個(gè)非常重要的原理,后來(lái)被廣泛應(yīng)用于自然語(yǔ)言處理方面。其基本原理很簡(jiǎn)單:對(duì)所有的已知事實(shí)建模,對(duì)未知不做任何假設(shè)。也就是建模時(shí)選擇這樣一個(gè)統(tǒng)計(jì)概率模型,在滿足約束的模型中選擇熵最大的概率模型。若將詞性標(biāo)注或者其他自然語(yǔ)言處理任務(wù)看作一個(gè)隨機(jī)過(guò)程,最大熵模型就是從所有符合條件的分布中,選擇最均勻的分布,此時(shí)熵值最大。 求解最大熵模型,可以采用拉格朗日乘數(shù)法,其計(jì)算公式為:

 

為歸一化因子 ,是對(duì)應(yīng)特征的權(quán)重,表示一個(gè)特征。每個(gè)特征對(duì)詞性選擇的影響大小由特征權(quán)重決定,而這些權(quán)值可由GIS或IIS 學(xué)習(xí)算法自動(dòng)得到。

三、支持向量機(jī)

原理:支持向量機(jī)的主要思想可以概括為兩點(diǎn): (1) 它是針對(duì)線性可分情況進(jìn)行分析,對(duì)于線性不可分的情況, 通過(guò)使用非線性映射算法將低維輸入空間線性不可分的樣本轉(zhuǎn)化為高維特征空間使其線性可分,從而使得高維特征空間采用線性算法對(duì)樣本的非線性特征進(jìn)行線性分析成為可能; (2) 它基于結(jié)構(gòu)風(fēng)險(xiǎn)最小化理論之上在特征空間中建構(gòu)最優(yōu)分割超平面,使得學(xué)習(xí)器得到全局最優(yōu)化,并且在整個(gè)樣本空間的期望風(fēng)險(xiǎn)以某個(gè)概率滿足一定上界。 支持向量機(jī)的目標(biāo)就是要根據(jù)結(jié)構(gòu)風(fēng)險(xiǎn)最小化原理,構(gòu)造一個(gè)目標(biāo)函數(shù)將兩類(lèi)模式盡可能地區(qū)分開(kāi)來(lái), 通常分為兩類(lèi)情況來(lái)討論,:(1) 線性可分;(2) 線性不可分。

線性可分情況 在線性可分的情況下,就會(huì)存在一個(gè)超平面使得訓(xùn)練樣本完全分開(kāi),該超平面可描述為: w ·x + b = 0 (1) 其中,“·”是點(diǎn)積, w 是n 維向量, b 為偏移量。

最優(yōu)超平面是使得每一類(lèi)數(shù)據(jù)與超平面距離最近的向量與超平面之間的距離最大的這樣的平面。

最優(yōu)超平面可以通過(guò)解下面的二次優(yōu)化問(wèn)題來(lái)獲得:

 

滿足約束條件: 

在特征數(shù)目特別大的情況,可以將此二次規(guī)劃問(wèn)題轉(zhuǎn)化為其對(duì)偶問(wèn)題:


滿足約束條件:

線性不可分的情況 對(duì)于線性不可分的情況,可以把樣本X 映射到一個(gè)高維特征空間H,并在此空間中運(yùn)用原空間的函 數(shù)來(lái)實(shí)現(xiàn)內(nèi)積運(yùn)算,這樣將非線性問(wèn)題轉(zhuǎn)換成另一空間的線性問(wèn)題來(lái)獲得一個(gè)樣本的歸屬。 根據(jù)泛函的有關(guān)理論,只要一種核函數(shù)滿足Mercer 條件,它就對(duì)應(yīng)某一空間中的內(nèi)積,因此只要在最優(yōu)分類(lèi)面上采用適當(dāng)?shù)膬?nèi)積函數(shù)就可以實(shí)現(xiàn)這種線性不可分的分類(lèi)問(wèn)題。 此時(shí)的目標(biāo)函數(shù)為:圖十二

特點(diǎn):

概括括地說(shuō),支持向量機(jī)就是首先通過(guò)內(nèi)積函數(shù)定義的非線性變換將輸入空間變換到另一個(gè)高維空間,在這個(gè)空間中求最優(yōu)分類(lèi)面。SVM分類(lèi)函數(shù)形式上類(lèi)似于一個(gè)神經(jīng)網(wǎng)絡(luò),輸出是中間節(jié)點(diǎn)的線性組合,每個(gè)中間節(jié)點(diǎn)對(duì)應(yīng)一個(gè)輸入樣本與一個(gè)支持向量的內(nèi)積,因此也叫做支持向量網(wǎng)絡(luò)。 SVM方法的特點(diǎn): ① 非線性映射是SVM方法的理論基礎(chǔ),SVM利用內(nèi)積核函數(shù)代替向高維空間的非線性映射; ② 對(duì)特征空間劃分的最優(yōu)超平面是SVM的目標(biāo),最大化分類(lèi)邊際的思想是SVM方法的核心; ③ 支持向量是SVM的訓(xùn)練結(jié)果,在SVM分類(lèi)決策中起決定作用的是支持向量。 SVM 是一種有堅(jiān)實(shí)理論基礎(chǔ)的新穎的小樣本學(xué)習(xí)方法。它基本上不涉及概率測(cè)度及大數(shù)定律等,因此不同于現(xiàn)有的統(tǒng)計(jì)方法。從本質(zhì)上看,它避開(kāi)了從歸納到演繹的傳統(tǒng)過(guò)程,實(shí)現(xiàn)了高效的從訓(xùn)練樣本到預(yù)報(bào)樣本的“轉(zhuǎn)導(dǎo)推理”,大大簡(jiǎn)化了通常的分類(lèi)和回歸等問(wèn)題。 SVM 的最終決策函數(shù)只由少數(shù)的支持向量所確定,計(jì)算的復(fù)雜性取決于支持向量的數(shù)目,而不是樣本空間的維數(shù),這在某種意義上避免了“維數(shù)災(zāi)難”。少數(shù)支持向量決定了最終結(jié)果,這不但可以幫助我們抓住關(guān)鍵樣本、“剔除”大量冗余樣本,而且注定了該方法不但算法簡(jiǎn)單,而且具有較好的“魯棒”性。這種 “魯棒”性主要體現(xiàn)在:

①增、刪非支持向量樣本對(duì)模型沒(méi)有影響; ②支持向量樣本集具有一定的魯棒性; ③有些成功的應(yīng)用中,SVM 方法對(duì)核的選取不敏感

四、條件隨機(jī)場(chǎng) 原理: 條件隨機(jī)場(chǎng)(CRFs)是一種基于統(tǒng)計(jì)的序列標(biāo)記識(shí)別模型,由John Lafferty等人在2001年首次提出。它是一種無(wú)向圖模型,對(duì)于指定的節(jié)點(diǎn)輸入值,它能夠計(jì)算指定的節(jié)點(diǎn)輸出值上的條件概率,其訓(xùn)練目標(biāo)是使得條件概率最大化。線性鏈?zhǔn)荂RFs中常見(jiàn)的特定圖結(jié)構(gòu)之一,它由指定的輸出節(jié)點(diǎn)順序鏈接而成。一個(gè)線性鏈與一個(gè)有限狀態(tài)機(jī)相對(duì)應(yīng),可用于解決序列數(shù)據(jù)的標(biāo)注問(wèn)題。在多數(shù)情況下,CRFs均指線性的CRFs。用x=(x1,x2,…,xn)表示要進(jìn)行標(biāo)注的數(shù)據(jù)序列,y=(y1,y2,…,yn)表示對(duì)應(yīng)的結(jié)果序列。例如對(duì)于中文詞性標(biāo)注任務(wù),x可以表示一個(gè)中文句子x=(上海,浦東,開(kāi)發(fā),與,法制,建設(shè),同步),y則表示該句子中每個(gè)詞的詞性序列y=(NR,NR,NN,CC,NN,NN,VV)。 對(duì)于(X,Y),C由局部特征向量f和對(duì)應(yīng)的權(quán)重向量λ確定。對(duì)于輸入數(shù)據(jù)序列x和標(biāo)注結(jié)果序列y,條件隨機(jī)場(chǎng)C的全局特征表示為

 

CRFs模型的參數(shù)估計(jì)通常采用L—BFGS算法實(shí)現(xiàn),CRFs解碼過(guò)程,也就是求解未知串標(biāo)注的過(guò)程,需要搜索計(jì)算該串上的一個(gè)最大聯(lián)合概率,解碼過(guò)程采用Viterbi算法來(lái)完成。 CRFs具有很強(qiáng)的推理能力,能夠充分地利用上下文信息作為特征,還可以任意地添加其他外部特征,使得模型能夠獲取的信息非常豐富。CRFs通過(guò)僅使用一個(gè)指數(shù)模型作為在給定觀測(cè)序列條件下整個(gè)標(biāo)記序列的聯(lián)合概率,使得該模型中不同狀態(tài)下的不同特征權(quán)值可以彼此交替,從而有效地解決了其他非生成有向圖模型所產(chǎn)生的標(biāo)注偏置的問(wèn)題。這些特點(diǎn),使得CRFs從理論上講,非常適合中文詞性標(biāo)注。

總結(jié)

 首先,CRF,HMM(隱馬模型)都常用來(lái)做序列標(biāo)注的建模,像詞性標(biāo)注,True casing。但隱馬模型一個(gè)最大的缺點(diǎn)就是由于其輸出獨(dú)立性假設(shè),導(dǎo)致其不能考慮上下文的特征,限制了特征的選擇,而另外一種稱為最大熵隱馬模型則解決了這一問(wèn)題,可以任意的選擇特征,但由于其在每一節(jié)點(diǎn)都要進(jìn)行歸一化,所以只能找到局部的最優(yōu)值,同時(shí)也帶來(lái)了標(biāo)記偏見(jiàn)的問(wèn)題(label bias),即凡是訓(xùn)練語(yǔ)料中未出現(xiàn)的情況全都忽略掉,而條件隨機(jī)場(chǎng)則很好的解決了這一問(wèn)題,他并不在每一個(gè)節(jié)點(diǎn)進(jìn)行歸一化,而是所有特征進(jìn)行全局歸一化,因此可以求得全局的最優(yōu)值。目前,條件隨機(jī)場(chǎng)的訓(xùn)練和解碼的開(kāi)源工具還只支持鏈?zhǔn)降男蛄?,?fù)雜的尚不支持,而且訓(xùn)練時(shí)間很長(zhǎng),但效果還可以。最大熵隱馬模型的局限性在于其利用訓(xùn)練的局部模型去做全局預(yù)測(cè)。其最優(yōu)預(yù)測(cè)序列只是通過(guò)viterbi算法將局部的最大熵模型結(jié)合而成的。 條件隨機(jī)場(chǎng),隱馬模型,最大熵隱馬模型這三個(gè)模型都可以用來(lái)做序列標(biāo)注模型。但是其各自有自身的特點(diǎn),HMM模型是對(duì)轉(zhuǎn)移概率和表現(xiàn)概率直接建模,統(tǒng)計(jì)共現(xiàn)概率。而最大熵隱馬模型是對(duì)轉(zhuǎn)移概率和表現(xiàn)概率建立聯(lián)合概率,統(tǒng)計(jì)時(shí)統(tǒng)計(jì)的是條件概率。

中,統(tǒng)計(jì)了全局概率,在 做歸一化時(shí),考慮了數(shù)據(jù)在全局的分布,而不是僅僅在局部歸一化,這樣就解決了MEMM中的標(biāo)記偏置的問(wèn)題。

本站聲明: 本文章由作者或相關(guān)機(jī)構(gòu)授權(quán)發(fā)布,目的在于傳遞更多信息,并不代表本站贊同其觀點(diǎn),本站亦不保證或承諾內(nèi)容真實(shí)性等。需要轉(zhuǎn)載請(qǐng)聯(lián)系該專欄作者,如若文章內(nèi)容侵犯您的權(quán)益,請(qǐng)及時(shí)聯(lián)系本站刪除。
換一批
延伸閱讀

9月2日消息,不造車(chē)的華為或?qū)⒋呱龈蟮莫?dú)角獸公司,隨著阿維塔和賽力斯的入局,華為引望愈發(fā)顯得引人矚目。

關(guān)鍵字: 阿維塔 塞力斯 華為

倫敦2024年8月29日 /美通社/ -- 英國(guó)汽車(chē)技術(shù)公司SODA.Auto推出其旗艦產(chǎn)品SODA V,這是全球首款涵蓋汽車(chē)工程師從創(chuàng)意到認(rèn)證的所有需求的工具,可用于創(chuàng)建軟件定義汽車(chē)。 SODA V工具的開(kāi)發(fā)耗時(shí)1.5...

關(guān)鍵字: 汽車(chē) 人工智能 智能驅(qū)動(dòng) BSP

北京2024年8月28日 /美通社/ -- 越來(lái)越多用戶希望企業(yè)業(yè)務(wù)能7×24不間斷運(yùn)行,同時(shí)企業(yè)卻面臨越來(lái)越多業(yè)務(wù)中斷的風(fēng)險(xiǎn),如企業(yè)系統(tǒng)復(fù)雜性的增加,頻繁的功能更新和發(fā)布等。如何確保業(yè)務(wù)連續(xù)性,提升韌性,成...

關(guān)鍵字: 亞馬遜 解密 控制平面 BSP

8月30日消息,據(jù)媒體報(bào)道,騰訊和網(wǎng)易近期正在縮減他們對(duì)日本游戲市場(chǎng)的投資。

關(guān)鍵字: 騰訊 編碼器 CPU

8月28日消息,今天上午,2024中國(guó)國(guó)際大數(shù)據(jù)產(chǎn)業(yè)博覽會(huì)開(kāi)幕式在貴陽(yáng)舉行,華為董事、質(zhì)量流程IT總裁陶景文發(fā)表了演講。

關(guān)鍵字: 華為 12nm EDA 半導(dǎo)體

8月28日消息,在2024中國(guó)國(guó)際大數(shù)據(jù)產(chǎn)業(yè)博覽會(huì)上,華為常務(wù)董事、華為云CEO張平安發(fā)表演講稱,數(shù)字世界的話語(yǔ)權(quán)最終是由生態(tài)的繁榮決定的。

關(guān)鍵字: 華為 12nm 手機(jī) 衛(wèi)星通信

要點(diǎn): 有效應(yīng)對(duì)環(huán)境變化,經(jīng)營(yíng)業(yè)績(jī)穩(wěn)中有升 落實(shí)提質(zhì)增效舉措,毛利潤(rùn)率延續(xù)升勢(shì) 戰(zhàn)略布局成效顯著,戰(zhàn)新業(yè)務(wù)引領(lǐng)增長(zhǎng) 以科技創(chuàng)新為引領(lǐng),提升企業(yè)核心競(jìng)爭(zhēng)力 堅(jiān)持高質(zhì)量發(fā)展策略,塑強(qiáng)核心競(jìng)爭(zhēng)優(yōu)勢(shì)...

關(guān)鍵字: 通信 BSP 電信運(yùn)營(yíng)商 數(shù)字經(jīng)濟(jì)

北京2024年8月27日 /美通社/ -- 8月21日,由中央廣播電視總臺(tái)與中國(guó)電影電視技術(shù)學(xué)會(huì)聯(lián)合牽頭組建的NVI技術(shù)創(chuàng)新聯(lián)盟在BIRTV2024超高清全產(chǎn)業(yè)鏈發(fā)展研討會(huì)上宣布正式成立。 活動(dòng)現(xiàn)場(chǎng) NVI技術(shù)創(chuàng)新聯(lián)...

關(guān)鍵字: VI 傳輸協(xié)議 音頻 BSP

北京2024年8月27日 /美通社/ -- 在8月23日舉辦的2024年長(zhǎng)三角生態(tài)綠色一體化發(fā)展示范區(qū)聯(lián)合招商會(huì)上,軟通動(dòng)力信息技術(shù)(集團(tuán))股份有限公司(以下簡(jiǎn)稱"軟通動(dòng)力")與長(zhǎng)三角投資(上海)有限...

關(guān)鍵字: BSP 信息技術(shù)
關(guān)閉
關(guān)閉