當(dāng)前位置:首頁 > 芯聞號 > 充電吧
[導(dǎo)讀]自然語言處理是 AI 皇冠上的明珠,而語料預(yù)處理是自然語言處理的基礎(chǔ)。 機(jī)器能跟人類交流嗎?能像人類一樣理解文本嗎?這是大家對人工智能最初的想象。如今,NLP 技術(shù)可以充當(dāng)人類和機(jī)器之間溝通的橋梁。環(huán)

自然語言處理是 AI 皇冠上的明珠,而語料預(yù)處理是自然語言處理的基礎(chǔ)。

機(jī)器能跟人類交流嗎?能像人類一樣理解文本嗎?這是大家對人工智能最初的想象。如今,NLP 技術(shù)可以充當(dāng)人類和機(jī)器之間溝通的橋梁。環(huán)顧周圍的生活,我們隨時可以享受到 NLP 技術(shù)帶來的便利,語音識別、機(jī)器翻譯、問答系統(tǒng)等等。

這些技術(shù)看起來高深莫測,實(shí)則都有章可循。當(dāng)你了解算法的底層原理后,你可能會恍然大悟,嗨!這也不是很難理解嘛。

現(xiàn)在你可以跟隨本文,初探 NLP 技術(shù)的地基(語料預(yù)處理)是如何構(gòu)建起來的。在之后的文章中,我們將循序漸進(jìn)地介紹 NLP 中的特征提取以及最新算法解讀。

語料,顧名思義就是我們平時所說的文本,帶有文字描述性的文本都可以歸類于語料。但這種原始文本無法直接用來訓(xùn)練模型,需要進(jìn)行前期預(yù)處理。

語料預(yù)處理方法主要包括數(shù)據(jù)清洗、分詞、詞性標(biāo)注、去停用詞等。

語料清洗

語料清洗即保留語料中有用的數(shù)據(jù),刪除噪音數(shù)據(jù)。常見的清洗方式有:人工去重、對齊、刪除、標(biāo)注等。

以下面的文本為例。該文本不僅包含中文字符,還包括數(shù)字、英文字符、標(biāo)點(diǎn)等非常規(guī)字符,這些都是無意義的信息,需要進(jìn)行清洗。

像上述情況,清洗的方法主要是通過正則表達(dá)式??梢跃帉懞喍痰?Python 小腳本來解決,代碼如下:

清洗后的結(jié)果:

除了上述需要清洗的形式以外,噪音數(shù)據(jù)還包括文本重復(fù)、錯誤、缺失、異常等。清洗的方法包括手動處理,或者通過開發(fā)小工具、寫個簡短的小程序,這些方式都可以進(jìn)行數(shù)據(jù)清洗。

分詞

數(shù)據(jù)清洗完,就可以進(jìn)行下一步工序:文本分詞。文本分詞,即將文本分成一個一個的詞語。常用的分詞方法有基于規(guī)則的、基于統(tǒng)計(jì)的分詞方法,而統(tǒng)計(jì)的樣本內(nèi)容來自于一些標(biāo)準(zhǔn)的語料庫。

例如這個句子:「小明住在朝陽區(qū)」,我們期望語料庫統(tǒng)計(jì)后分詞的結(jié)果是:「小明 / 住在 / 朝陽 / 區(qū)」,而不是「小明 / 住在 / 朝 / 陽區(qū)」。那么如何做到這一點(diǎn)呢?

從統(tǒng)計(jì)的角度,可以通過條件概率分布來解決。對于一個新的句子,我們可以通過計(jì)算各種分詞方法對應(yīng)的聯(lián)合分布概率,找到最大概率對應(yīng)的分詞方法,即為最優(yōu)分詞。

到目前為止,研究者已經(jīng)開發(fā)出許多分詞實(shí)用小工具,這些工具使用都很簡單。如果你對分詞沒有特殊需求,你可以直接使用這些分詞工具。

多種分詞工具一覽。

詞性標(biāo)注

詞性標(biāo)注指為分詞結(jié)果中的每個詞標(biāo)注正確的詞性,即確定每個詞是名詞、動詞、形容詞或其他詞性的過程。

詞性標(biāo)注有多個重要作用。

第一,消除歧義。一些詞在不同語境或不同用法時表示不同的意思。比如在這兩個句子「這只狗狗的名字叫開心」和「我今天很開心」中,「開心」就代表了不同的含義。我們可以通過詞性標(biāo)注進(jìn)行區(qū)分。

第二,強(qiáng)化基于單詞的特征。還是以上句為例,如果不進(jìn)行詞性標(biāo)注,兩個「開心」會被認(rèn)為是同義詞,詞頻為 2,這會在后續(xù)分析中引入誤差。

此外,詞性標(biāo)注還具有標(biāo)準(zhǔn)化、詞形還原,以及有效移除停用詞的作用。

常用的詞性標(biāo)注方法有基于規(guī)則的、基于統(tǒng)計(jì)的算法,比如:最大熵詞性標(biāo)注、HMM 詞性標(biāo)注等。

接下來,我們看一個詞性標(biāo)注示例。大家也可以自己嘗試:http://ictclas.nlpir.org/nlpir/

去停用詞

我們?nèi)祟愒诮邮芟r,都會濾除無效信息,篩選有用信息。對于自然語言來說,去停用詞是一種很明智的操作。

一篇文本,不管是中文還是英文,都有用來起連接作用的連詞、虛詞、語氣詞等無意義的詞,比如「的」、「吧」、「但是」等等。這些詞沒有具體的含義,只是起到銜接句子以及增強(qiáng)語氣的作用。這些詞對文本分析也沒有任何幫助,因此我們需要對分詞后的數(shù)據(jù)做停用詞處理。

但是我們應(yīng)該謹(jǐn)慎決定該去除哪類停用詞。

下圖列出了一些常用的停用詞表,你可以參照需求,選擇要去除的停用詞。

詞頻統(tǒng)計(jì)

詞頻統(tǒng)計(jì)即統(tǒng)計(jì)分詞后文本的詞頻,目的是找出對文本影響最大的詞匯,是文本挖掘的重要手段。統(tǒng)計(jì)這些詞出現(xiàn)的頻率可以幫助我們了解文章重點(diǎn)強(qiáng)調(diào)了什么,進(jìn)而方便后續(xù)構(gòu)建模型。

比如我們可以統(tǒng)計(jì)四大名著之一《紅樓夢》中詞頻在前 28 的詞語,結(jié)果如下:

從上圖可以看到,《紅樓夢》中哪個人物的篇幅最多,哪個人物曹雪芹更注重。即使我們不是紅學(xué)專家,但是從統(tǒng)計(jì)詞頻中也可以分析出一些關(guān)鍵信息。

「萬丈高樓平地起」,對于自然語言處理這座摩天大廈來說,了解底層的實(shí)現(xiàn)原理,或許能夠幫助你更好地理解其構(gòu)建過程。

本站聲明: 本文章由作者或相關(guān)機(jī)構(gòu)授權(quán)發(fā)布,目的在于傳遞更多信息,并不代表本站贊同其觀點(diǎn),本站亦不保證或承諾內(nèi)容真實(shí)性等。需要轉(zhuǎn)載請聯(lián)系該專欄作者,如若文章內(nèi)容侵犯您的權(quán)益,請及時聯(lián)系本站刪除。
換一批
延伸閱讀

9月2日消息,不造車的華為或?qū)⒋呱龈蟮莫?dú)角獸公司,隨著阿維塔和賽力斯的入局,華為引望愈發(fā)顯得引人矚目。

關(guān)鍵字: 阿維塔 塞力斯 華為

加利福尼亞州圣克拉拉縣2024年8月30日 /美通社/ -- 數(shù)字化轉(zhuǎn)型技術(shù)解決方案公司Trianz今天宣布,該公司與Amazon Web Services (AWS)簽訂了...

關(guān)鍵字: AWS AN BSP 數(shù)字化

倫敦2024年8月29日 /美通社/ -- 英國汽車技術(shù)公司SODA.Auto推出其旗艦產(chǎn)品SODA V,這是全球首款涵蓋汽車工程師從創(chuàng)意到認(rèn)證的所有需求的工具,可用于創(chuàng)建軟件定義汽車。 SODA V工具的開發(fā)耗時1.5...

關(guān)鍵字: 汽車 人工智能 智能驅(qū)動 BSP

北京2024年8月28日 /美通社/ -- 越來越多用戶希望企業(yè)業(yè)務(wù)能7×24不間斷運(yùn)行,同時企業(yè)卻面臨越來越多業(yè)務(wù)中斷的風(fēng)險(xiǎn),如企業(yè)系統(tǒng)復(fù)雜性的增加,頻繁的功能更新和發(fā)布等。如何確保業(yè)務(wù)連續(xù)性,提升韌性,成...

關(guān)鍵字: 亞馬遜 解密 控制平面 BSP

8月30日消息,據(jù)媒體報(bào)道,騰訊和網(wǎng)易近期正在縮減他們對日本游戲市場的投資。

關(guān)鍵字: 騰訊 編碼器 CPU

8月28日消息,今天上午,2024中國國際大數(shù)據(jù)產(chǎn)業(yè)博覽會開幕式在貴陽舉行,華為董事、質(zhì)量流程IT總裁陶景文發(fā)表了演講。

關(guān)鍵字: 華為 12nm EDA 半導(dǎo)體

8月28日消息,在2024中國國際大數(shù)據(jù)產(chǎn)業(yè)博覽會上,華為常務(wù)董事、華為云CEO張平安發(fā)表演講稱,數(shù)字世界的話語權(quán)最終是由生態(tài)的繁榮決定的。

關(guān)鍵字: 華為 12nm 手機(jī) 衛(wèi)星通信

要點(diǎn): 有效應(yīng)對環(huán)境變化,經(jīng)營業(yè)績穩(wěn)中有升 落實(shí)提質(zhì)增效舉措,毛利潤率延續(xù)升勢 戰(zhàn)略布局成效顯著,戰(zhàn)新業(yè)務(wù)引領(lǐng)增長 以科技創(chuàng)新為引領(lǐng),提升企業(yè)核心競爭力 堅(jiān)持高質(zhì)量發(fā)展策略,塑強(qiáng)核心競爭優(yōu)勢...

關(guān)鍵字: 通信 BSP 電信運(yùn)營商 數(shù)字經(jīng)濟(jì)

北京2024年8月27日 /美通社/ -- 8月21日,由中央廣播電視總臺與中國電影電視技術(shù)學(xué)會聯(lián)合牽頭組建的NVI技術(shù)創(chuàng)新聯(lián)盟在BIRTV2024超高清全產(chǎn)業(yè)鏈發(fā)展研討會上宣布正式成立。 活動現(xiàn)場 NVI技術(shù)創(chuàng)新聯(lián)...

關(guān)鍵字: VI 傳輸協(xié)議 音頻 BSP

北京2024年8月27日 /美通社/ -- 在8月23日舉辦的2024年長三角生態(tài)綠色一體化發(fā)展示范區(qū)聯(lián)合招商會上,軟通動力信息技術(shù)(集團(tuán))股份有限公司(以下簡稱"軟通動力")與長三角投資(上海)有限...

關(guān)鍵字: BSP 信息技術(shù)
關(guān)閉
關(guān)閉