當前位置:首頁 > 智能硬件 > 人工智能AI
[導(dǎo)讀] 統(tǒng)計學習理論是機器學習的重要基礎(chǔ),為許多機器學習算法提供理論支持,通過一些統(tǒng)計學的角度我們試圖找出從經(jīng)驗數(shù)據(jù)中得出有效結(jié)論這一過程的數(shù)學解釋。 簡單來說,機器學習主要是將來自輸入域的數(shù)據(jù)

統(tǒng)計學習理論是機器學習的重要基礎(chǔ),為許多機器學習算法提供理論支持,通過一些統(tǒng)計學的角度我們試圖找出從經(jīng)驗數(shù)據(jù)中得出有效結(jié)論這一過程的數(shù)學解釋。

簡單來說,機器學習主要是將來自輸入域的數(shù)據(jù)經(jīng)過未知的目標函數(shù)映射到輸出域的相應(yīng)數(shù)據(jù)上。 如果目標函數(shù)是已知的,那么我們根本不需要學習,我們只需要按照函數(shù)直接計算就好了。 機器學習的基本前提就是使用一組數(shù)據(jù)來觀察和揭示數(shù)據(jù)中的潛在規(guī)律。 機器學習的目標就是從有限的樣本數(shù)據(jù)集中找到一個近似于目標函數(shù)的函數(shù)。

以機器學習中的監(jiān)督學習為例,監(jiān)督學習是從一組帶有標記的數(shù)據(jù)中學習。 訓(xùn)練集中的每個點都是輸入 - 輸出對的形式,將輸入映射到已知輸出。 學習目標即為能夠找到未知控制規(guī)則的最佳算法,這些規(guī)則通過對樣本數(shù)據(jù)分布的規(guī)律探索,構(gòu)建一個近似于目標函數(shù)的假設(shè)函數(shù),來根據(jù)輸入預(yù)測未知的輸出。 學習模型的性能或泛化性能是根據(jù)其對獨立測試數(shù)據(jù)的預(yù)測精度來衡量的。

目前機器學習分為監(jiān)督學習、無監(jiān)督學習,其中監(jiān)督學習又分為分類問題和回歸問題,無監(jiān)督學習則為降維和聚類。每一個分支都包括多種算法,不同算法的思想以及適用范圍為我們構(gòu)建高性能模型提供多種選擇。

為了選擇最佳模型然后評估其泛化性能,對用于訓(xùn)練算法的樣本數(shù)據(jù)集通常隨機分為2組:即訓(xùn)練集、測試集。其中訓(xùn)練集用于算法訓(xùn)練,讓算法學習數(shù)據(jù)中的潛在數(shù)據(jù)規(guī)律,并且通過調(diào)整算法的超參數(shù),獲得更加準確的算法模型。測試集用于評估不同模型的學習效果,反映模型的性能。

預(yù)測誤差或泛化誤差用來優(yōu)化模型,在機器學習中,對于任何問題我們建立模型的最終目標都是最小化誤差,其中誤差主要可以從三個方面來解釋:偏差、方差和噪聲。噪聲也稱為“不可避免的誤差”,對于噪聲我們無能為,因為它僅取決于我們用于訓(xùn)練的數(shù)據(jù),我們只能從偏差和方差來改進我們的模型,即尋求偏差-方差的平衡。

如果訓(xùn)練數(shù)據(jù)集中的數(shù)據(jù)是由一個固有的隨機過程,一個錯誤的問題,或者特征集是錯誤的或不完整的,那么任何算法都不會有好的準確率,所以用機器學習算法來解決問題的一個條件就是這個問題是能夠解決的,不能是一個未解之謎。這就是為什么數(shù)據(jù)科學家花費大約19%的時間來尋找好的數(shù)據(jù),另外60%的時間用于清理他們收集的數(shù)據(jù):數(shù)據(jù)的質(zhì)量直接決定機器學習模型準確性,

假設(shè)我們正在嘗試根據(jù)年齡等多個特征的訓(xùn)練數(shù)據(jù)集來預(yù)測人體重量。 年齡可能是預(yù)測體重時要考慮的特征之一,但還有許多其他因素表征體重,包括身高,性別,地理位置等。如果僅考慮年齡,那么很可能最終得到一個弱預(yù)測器或者一個具有很大泛化誤差的學習器。因此,對于給定的一組特征,噪聲在真實分布中可能不是真正的噪聲。 我們可能根本沒有從數(shù)據(jù)集中選擇足夠的特征以便能夠?qū)φ鎸嵎植歼M行建模。

如果算法非常精確地映射給定訓(xùn)練分布的所有數(shù)據(jù)點,則肯定會對該特定訓(xùn)練數(shù)據(jù)產(chǎn)生非常小的誤差。 然而在對測試數(shù)據(jù)進行預(yù)測時則會有很差的效果,那么你的模型就過擬合了。換句話說,該模型學習能力太強,受到數(shù)據(jù)中噪聲的影響就越大,一般來說,方差可以表示算法對特定訓(xùn)練數(shù)據(jù)集的敏感性。 高方差表明該算法非常適合數(shù)據(jù),并且對于數(shù)據(jù)分布建立了過于復(fù)雜的模型,因此表示模型過度擬合。

另一方面,我們既不能選擇過于簡單且不夠表達的模型來反映事件的數(shù)據(jù)分布,這時就會出現(xiàn)欠擬合的問題。想象一下,使用線性回歸來映射具有非線性模式的訓(xùn)練數(shù)據(jù)集:線性回歸只是一條線而且對于非線性數(shù)據(jù)集來說太過單一。 通常我們使用偏差來表示機器學習算法無法擬合或不能足夠好地表示訓(xùn)練集中數(shù)據(jù)的分布。 換句話說,偏差給模型所做的簡化假設(shè)提供了一個維度,使目標函數(shù)更容易學習,如果偏差值過大則說明模型欠擬合。因此我們用方差表示過度擬合,偏差表示欠擬合。

從統(tǒng)計學的角度來看,這是一個非常著名的偏差 - 方差平衡問題。能夠找到一個能夠很好地平衡偏差和方差的算法,我們才能通過最簡單的近似模型來獲得最佳的泛化性能。為了提高性能,我們可能需要選擇不同的算法來得到更大的假設(shè)空間和覆蓋更廣的區(qū)域,但是請記住,我們試圖接近的目標函數(shù)僅來自一組有限的樣本數(shù)據(jù)。 不是來自真實的、完整的。 雖然樣本數(shù)據(jù)是我們學習的全部內(nèi)容,但有限的數(shù)據(jù)集只能代表對描述整個現(xiàn)象的實際函數(shù)的估計。如果我們非常接近描述樣本分布的函數(shù),產(chǎn)生較低的偏差,則風險是當我們使用新建的函數(shù)模型預(yù)測新的數(shù)據(jù)就會出現(xiàn)較高的方差。正如我們剛才所說的那樣,我們模型的復(fù)雜性會影響其性能,我們需要找到一種以定量的方式定義復(fù)雜性的方法,其中,Vapnik-Chervonenkis維度是一種廣泛使用的方法,可以在偏差和方差兩者之間找到適當?shù)钠胶恻c。

VC維與每個模型的參數(shù)數(shù)量相關(guān),而參數(shù)的數(shù)量又與模型可以處理的數(shù)據(jù)點的數(shù)量相關(guān)聯(lián)。其主要思想是模型想要近似的數(shù)據(jù)點數(shù)量越多,模型映射它們所需的參數(shù)數(shù)量就越多,這就增加了復(fù)雜性并使模型非常特定于該數(shù)據(jù)集。 在測量算法復(fù)雜度時,VC維度可以幫助我們估計預(yù)測誤差,為我們提供關(guān)于算法是否可以在給定樣本數(shù)據(jù)集的情況下學習和推廣的概率評估:與可用訓(xùn)練數(shù)據(jù)的數(shù)量相比較低的VC維度將建議測試錯誤不會遠離訓(xùn)練錯誤。

總體來說,機器學習就是通過處理得到好的數(shù)據(jù),用數(shù)據(jù)來訓(xùn)練一個能達到我們預(yù)期目標的模型,且模型越簡單越好。具體算法的選擇則可根據(jù)我們的日常喜好,能決定模型效果的還是數(shù)據(jù)的質(zhì)量,因此鍛煉一個很強的數(shù)據(jù)分析能力是很重要的。

本站聲明: 本文章由作者或相關(guān)機構(gòu)授權(quán)發(fā)布,目的在于傳遞更多信息,并不代表本站贊同其觀點,本站亦不保證或承諾內(nèi)容真實性等。需要轉(zhuǎn)載請聯(lián)系該專欄作者,如若文章內(nèi)容侵犯您的權(quán)益,請及時聯(lián)系本站刪除。
換一批
延伸閱讀

9月2日消息,不造車的華為或?qū)⒋呱龈蟮莫毥谦F公司,隨著阿維塔和賽力斯的入局,華為引望愈發(fā)顯得引人矚目。

關(guān)鍵字: 阿維塔 塞力斯 華為

加利福尼亞州圣克拉拉縣2024年8月30日 /美通社/ -- 數(shù)字化轉(zhuǎn)型技術(shù)解決方案公司Trianz今天宣布,該公司與Amazon Web Services (AWS)簽訂了...

關(guān)鍵字: AWS AN BSP 數(shù)字化

倫敦2024年8月29日 /美通社/ -- 英國汽車技術(shù)公司SODA.Auto推出其旗艦產(chǎn)品SODA V,這是全球首款涵蓋汽車工程師從創(chuàng)意到認證的所有需求的工具,可用于創(chuàng)建軟件定義汽車。 SODA V工具的開發(fā)耗時1.5...

關(guān)鍵字: 汽車 人工智能 智能驅(qū)動 BSP

北京2024年8月28日 /美通社/ -- 越來越多用戶希望企業(yè)業(yè)務(wù)能7×24不間斷運行,同時企業(yè)卻面臨越來越多業(yè)務(wù)中斷的風險,如企業(yè)系統(tǒng)復(fù)雜性的增加,頻繁的功能更新和發(fā)布等。如何確保業(yè)務(wù)連續(xù)性,提升韌性,成...

關(guān)鍵字: 亞馬遜 解密 控制平面 BSP

8月30日消息,據(jù)媒體報道,騰訊和網(wǎng)易近期正在縮減他們對日本游戲市場的投資。

關(guān)鍵字: 騰訊 編碼器 CPU

8月28日消息,今天上午,2024中國國際大數(shù)據(jù)產(chǎn)業(yè)博覽會開幕式在貴陽舉行,華為董事、質(zhì)量流程IT總裁陶景文發(fā)表了演講。

關(guān)鍵字: 華為 12nm EDA 半導(dǎo)體

8月28日消息,在2024中國國際大數(shù)據(jù)產(chǎn)業(yè)博覽會上,華為常務(wù)董事、華為云CEO張平安發(fā)表演講稱,數(shù)字世界的話語權(quán)最終是由生態(tài)的繁榮決定的。

關(guān)鍵字: 華為 12nm 手機 衛(wèi)星通信

要點: 有效應(yīng)對環(huán)境變化,經(jīng)營業(yè)績穩(wěn)中有升 落實提質(zhì)增效舉措,毛利潤率延續(xù)升勢 戰(zhàn)略布局成效顯著,戰(zhàn)新業(yè)務(wù)引領(lǐng)增長 以科技創(chuàng)新為引領(lǐng),提升企業(yè)核心競爭力 堅持高質(zhì)量發(fā)展策略,塑強核心競爭優(yōu)勢...

關(guān)鍵字: 通信 BSP 電信運營商 數(shù)字經(jīng)濟

北京2024年8月27日 /美通社/ -- 8月21日,由中央廣播電視總臺與中國電影電視技術(shù)學會聯(lián)合牽頭組建的NVI技術(shù)創(chuàng)新聯(lián)盟在BIRTV2024超高清全產(chǎn)業(yè)鏈發(fā)展研討會上宣布正式成立。 活動現(xiàn)場 NVI技術(shù)創(chuàng)新聯(lián)...

關(guān)鍵字: VI 傳輸協(xié)議 音頻 BSP

北京2024年8月27日 /美通社/ -- 在8月23日舉辦的2024年長三角生態(tài)綠色一體化發(fā)展示范區(qū)聯(lián)合招商會上,軟通動力信息技術(shù)(集團)股份有限公司(以下簡稱"軟通動力")與長三角投資(上海)有限...

關(guān)鍵字: BSP 信息技術(shù)
關(guān)閉
關(guān)閉