當(dāng)前位置:首頁(yè) > 智能硬件 > 人工智能AI
[導(dǎo)讀] 今天我們分享的內(nèi)容,主要是關(guān)于機(jī)器學(xué)習(xí)中的基礎(chǔ)數(shù)學(xué)。 一、機(jī)器學(xué)習(xí)會(huì)用到哪些數(shù)學(xué)基礎(chǔ) 第一部分,我們先來看一看機(jī)器學(xué)習(xí)需要哪些數(shù)學(xué)的基礎(chǔ)。我們可以先引用一個(gè)專家的定義。這個(gè)專家是

今天我們分享的內(nèi)容,主要是關(guān)于機(jī)器學(xué)習(xí)中的基礎(chǔ)數(shù)學(xué)。

一、機(jī)器學(xué)習(xí)會(huì)用到哪些數(shù)學(xué)基礎(chǔ)

第一部分,我們先來看一看機(jī)器學(xué)習(xí)需要哪些數(shù)學(xué)的基礎(chǔ)。我們可以先引用一個(gè)專家的定義。這個(gè)專家是來自美國(guó)華盛頓大學(xué)的佩羅·多明戈斯。這也是人工智能領(lǐng)域的一個(gè)老兵。他對(duì)于機(jī)器學(xué)習(xí)給出了這樣一個(gè)定義,機(jī)器學(xué)習(xí)是由三個(gè)部分組成,分別是表示、評(píng)價(jià),還有優(yōu)化。這樣的三個(gè)步驟,實(shí)際上也就對(duì)應(yīng)著在機(jī)器學(xué)習(xí)當(dāng)中所需要的數(shù)學(xué)。

(1)機(jī)器學(xué)習(xí)三部曲

表示

在表示這一步當(dāng)中,我們需要建立起數(shù)據(jù),還有實(shí)際問題的抽象模型。所以,這里面就包括了兩個(gè)方面,一方面我們要對(duì)要解決的這個(gè)實(shí)際的問題進(jìn)行抽象化處理。比方說我們要設(shè)計(jì)一個(gè)算法,判斷一個(gè)郵件它到底是不是一封垃圾郵件,那么得到的結(jié)果無外乎兩種,要么是,要么不是。這樣一個(gè)問題如果對(duì)它做抽象,實(shí)際上就是個(gè)二分分類問題。是,我們可以把它定義成 0,不是,可以把它定義成 1。所以,這個(gè)問題最終要解決的是什么呢?輸出一個(gè) 0 或者 1 的結(jié)果。當(dāng)然把 0 和 1 的意義調(diào)過來也可以,用 1 代表是垃圾郵件,0 代表不是,也是可以的。所以,在表示的過程當(dāng)中,我們要解決的問題就是把我們面臨的真實(shí)世界當(dāng)中的一些物理問題給它抽象化,抽象成一個(gè)數(shù)學(xué)問題。抽象出來這個(gè)數(shù)學(xué)問題之后,我們要進(jìn)一步去解決它,還要對(duì)這個(gè)數(shù)據(jù)進(jìn)行表示。

對(duì)于問題抽象完了以后,我們還要對(duì)數(shù)據(jù)進(jìn)行抽象。在判定這個(gè)郵件到底是不是垃圾郵件的時(shí)候,我們要怎么判斷呢?要根據(jù)它的特征進(jìn)行判斷,看一看這個(gè)郵件里的關(guān)健字是否有關(guān)于推銷的,或者關(guān)于產(chǎn)品的一些關(guān)鍵字。這些特征,這些關(guān)鍵字,我們就要把它表示成一個(gè)特征,表示成一個(gè)向量,或者表示成其他的形式。表示成向量也好,表示成其他形式也好,都是對(duì)這個(gè)數(shù)據(jù)做出了抽象。

在表示階段,我們需要建立的是數(shù)據(jù),還有問題的抽象模型。把這個(gè)模型建立出來,然后去尋找合理的算法。

K- 近鄰算法 。在機(jī)器學(xué)習(xí)當(dāng)中,我們常見的有 K- 近鄰算法。K- 近鄰算法在我們的專欄中沒有提到,因?yàn)樗?jiǎn)單了。它實(shí)際上就是,找到一個(gè)樣本點(diǎn)和這個(gè)樣本點(diǎn)最近的幾個(gè)鄰居,最近的這 K 個(gè)鄰居。按照少數(shù)服從多數(shù)的原則,對(duì)它進(jìn)行分類,這就是 K- 近鄰算法。

回歸模型 。除此之外,還有線性回歸,這樣的統(tǒng)計(jì)學(xué)習(xí)方法。我建立一個(gè)線性回歸模型,當(dāng)然,對(duì)二分類我們可以建立邏輯回歸模型。

決策樹 。還有像決策樹這樣的方法。決策樹它不依賴于數(shù)據(jù),它完全是自頂向下的一個(gè)設(shè)計(jì)。線性回歸也好,邏輯回歸也好,它是從數(shù)據(jù)反過來去推導(dǎo)模型,而決策樹直接去用模型判定數(shù)據(jù),兩個(gè)方向不太一樣。

SVM 支持向量機(jī) 。最后,還有 SVM 支持向量機(jī)這樣的純數(shù)學(xué)方法。所以說表示的部分,我們需要把問題和數(shù)據(jù)進(jìn)行抽象,這個(gè)時(shí)候我們就要用到抽象的工具。

評(píng)價(jià)

給定模型之后,我們?nèi)绾卧u(píng)價(jià)這個(gè)模型的好壞?這個(gè)時(shí)候就需要設(shè)定一個(gè)目標(biāo)函數(shù),來評(píng)價(jià)這個(gè)模型的性質(zhì)。

1.設(shè)定目標(biāo)函數(shù)

目標(biāo)函數(shù)的選取也可以有多種形式。像對(duì)于我們說到的垃圾郵件這種問題,我們可以定義一個(gè)錯(cuò)誤率。比方說一個(gè)郵件它原本不是垃圾郵件,但是我這個(gè)算法誤判成了垃圾郵件,這就是一個(gè)錯(cuò)例。所以呢,錯(cuò)誤率在分類問題當(dāng)中是個(gè)常用的指標(biāo),或者說常用的目標(biāo)函數(shù)。

2.最小均方誤差和最大后驗(yàn)概率

那么在回歸當(dāng)中呢,我們會(huì)使用最小均方誤差這樣一個(gè)常用目標(biāo)函數(shù),尤其是在線性回歸里。除此之外呢,還有最大后驗(yàn)概率,一些其他的指標(biāo)。

優(yōu)化

有了目標(biāo)函數(shù)以后,我們要求解這個(gè)目標(biāo)函數(shù)在模型之下的一個(gè)最優(yōu)解,這個(gè)模型能夠獲取到的最小錯(cuò)誤率,或者最小均方誤差是多少呢?我們要求出一個(gè)特定的值。沒有這個(gè)值的話,你如何評(píng)價(jià)不同的模型它到底是好是壞呢?所以說優(yōu)化這個(gè)步驟它的作用是求解目標(biāo)函數(shù)在模型之下的一個(gè)最優(yōu)解,看看這個(gè)模型在解決這個(gè)問題的時(shí)候,最好能達(dá)到什么樣的程度。

總結(jié)來說,多明戈斯教授總結(jié)到的機(jī)器學(xué)習(xí)的三個(gè)步驟,包括了表示、評(píng)價(jià)、優(yōu)化這樣三個(gè)步驟,在這三個(gè)步驟當(dāng)中我們會(huì)用到不同的數(shù)學(xué)公式來分別解決這三個(gè)問題。

(2)三種數(shù)學(xué)工具

線性代數(shù)

在這三個(gè)步驟中,應(yīng)用了三種不同的工具。在表示這個(gè)步驟當(dāng)中,我們主要使用的工具是什么呢?就是線性代數(shù)。線性代數(shù)呢,我們?cè)谶@個(gè)專欄里面也提到,它起到的一個(gè)最主要的作用就是把具體的事物轉(zhuǎn)化成抽象的數(shù)學(xué)模型。不管你的世界當(dāng)中有多么紛繁復(fù)雜,我們都可以把它轉(zhuǎn)化成一個(gè)向量,或者一個(gè)矩陣的形式。這就是線性代數(shù)最主要的作用。

所以,在線性代數(shù)解決表示這個(gè)問題的過程中,我們主要包括這樣兩個(gè)部分,一方面是線性空間理論,也就是我們說的向量、矩陣、變換這樣一些問題。第二個(gè)是矩陣分析。給定一個(gè)矩陣,我們可以對(duì)它做所謂的 SVD(singular value decomposition)分解,也就是做奇異值分解,或者是做其他的一些分析。這樣兩個(gè)部分共同構(gòu)成了我們機(jī)器學(xué)習(xí)當(dāng)中所需要的線性代數(shù),當(dāng)然了,這兩者也是各有側(cè)重。線性空間的話,我們主要應(yīng)用在一些解決理論問題當(dāng)中,矩陣分析在理論當(dāng)中有使用,在實(shí)踐當(dāng)中也有一些使用。

概率統(tǒng)計(jì)

我們說到,線性代數(shù)起作用是在表示的過程當(dāng)中。在評(píng)價(jià)過程中,我們需要使用到概率統(tǒng)計(jì)。概率統(tǒng)計(jì)包括了兩個(gè)方面,一方面是數(shù)理統(tǒng)計(jì),另外一方面是概率論。

數(shù)理統(tǒng)計(jì)好理解,我們機(jī)器學(xué)習(xí)當(dāng)中應(yīng)用的很多模型都是來源于數(shù)理統(tǒng)計(jì)。比方說最簡(jiǎn)單的線性回歸,還有邏輯回歸,它實(shí)際上都是來源于統(tǒng)計(jì)學(xué)。在具體地給定了目標(biāo)函數(shù)之后,我們?cè)趯?shí)際地去評(píng)價(jià)這個(gè)目標(biāo)函數(shù)的時(shí)候,我們會(huì)用到一些概率論。比方說給定了一個(gè)分布,我要求解這個(gè)目標(biāo)函數(shù)的期望值。在平均意義上,這個(gè)目標(biāo)函數(shù)能達(dá)到什么程度呢?這個(gè)時(shí)候就需要使用到概率論。所以說在評(píng)價(jià)這個(gè)過程中,我們會(huì)主要應(yīng)用到概率統(tǒng)計(jì)的一些知識(shí)。

實(shí)際上對(duì)于數(shù)理統(tǒng)計(jì)來說,我們?cè)谠u(píng)價(jià)模型的時(shí)候,不只關(guān)注的是一個(gè)目標(biāo)函數(shù),我們可能還關(guān)注一些它的統(tǒng)計(jì)特性。比如說它的置信度,或者是其他的一些指標(biāo)。你這個(gè)模型建立起來,它的可信性程度到底有多大,這些在早期的機(jī)器學(xué)習(xí)算法當(dāng)中也是需要考慮的。當(dāng)然隨著神經(jīng)網(wǎng)絡(luò),隨著深度學(xué)習(xí)的興起,這部分內(nèi)容實(shí)際上漸漸地衰落,或者漸漸地被忽略。你在神經(jīng)網(wǎng)絡(luò)當(dāng)中可能只需要達(dá)到一個(gè)這個(gè)好的目標(biāo)函數(shù),好的指標(biāo)就行,至于說它的置信度,這些我們不去考慮。

所以說,這也是深度學(xué)習(xí)不太受學(xué)數(shù)學(xué),或者說學(xué)統(tǒng)計(jì)學(xué)的人待見的一個(gè)原因。因?yàn)榻y(tǒng)計(jì)學(xué)強(qiáng)調(diào)什么呢?強(qiáng)調(diào)可解釋性,你這個(gè)模型能夠達(dá)到什么樣的指標(biāo),我們能把它清清楚楚地講明白,為什么能夠達(dá)到這樣的指標(biāo),它的原理在哪?它背后的根據(jù)在哪?我給定一個(gè)分布,假如說高斯分布,那么再給定一個(gè)模型,我就可以通過嚴(yán)謹(jǐn)而簡(jiǎn)潔的這個(gè)數(shù)學(xué)推導(dǎo),把這個(gè)結(jié)果以公式的形式給它呈現(xiàn)出來,這個(gè)看起來就很高大上,或者說很清楚。但神經(jīng)網(wǎng)絡(luò)和深度學(xué)習(xí),現(xiàn)在還達(dá)不到這樣可解釋的程度。所以說現(xiàn)在也有人批評(píng),說深度學(xué)習(xí)是煉金術(shù),主要的原因在這里。我只能夠通過調(diào)參數(shù)調(diào)出一個(gè)比較好的結(jié)果,但是到底這個(gè)結(jié)果為什么會(huì)出現(xiàn)?哪些因素會(huì)影響到它?可能還不是那么清晰。所以呢,關(guān)于概率統(tǒng)計(jì),我們主要應(yīng)用在評(píng)價(jià)這個(gè)過程中。

最優(yōu)化理論

關(guān)于優(yōu)化,就不用說了,我們肯定用到的是最優(yōu)化理論。在最優(yōu)化理論當(dāng)中,主要的研究方向是凸優(yōu)化。

凸優(yōu)化當(dāng)然它有些限制,但它的好處是什么呢?能夠簡(jiǎn)化這個(gè)問題的解。因?yàn)樵趦?yōu)化當(dāng)中我們都知道,我們要求的是一個(gè)最大值,或者是最小值,但實(shí)際當(dāng)中我們可能會(huì)遇到一些局部的極大值,局部的極小值,還有鞍點(diǎn)這樣的點(diǎn)。凸優(yōu)化可以避免這個(gè)問題。在凸優(yōu)化當(dāng)中,極大值就是最大值,極小值也就是最小值。

但在實(shí)際當(dāng)中,尤其是引入了神經(jīng)網(wǎng)絡(luò)還有深度學(xué)習(xí)之后,凸優(yōu)化的應(yīng)用范圍越來越窄,很多情況下它不再適用,所以這里面我們主要用到的是無約束優(yōu)化。我在整個(gè)范圍之內(nèi),我對(duì)參數(shù),對(duì)輸入并沒有限定。在整個(gè)的輸入范圍內(nèi)去求解,不設(shè)置額外的約束條件。同時(shí),在神經(jīng)網(wǎng)絡(luò)當(dāng)中應(yīng)用最廣的一個(gè)算法,一個(gè)優(yōu)化方法,就是反向傳播。

(3)三種數(shù)學(xué)工具和三個(gè)步驟并非一一對(duì)應(yīng)

我們今天談?wù)撨@個(gè)機(jī)器學(xué)習(xí)當(dāng)中,用到的基礎(chǔ)數(shù)學(xué)都包括哪些呢?包括這三種,線性代數(shù),概率統(tǒng)計(jì),還有最優(yōu)化理論。這是我們?cè)跈C(jī)器學(xué)習(xí)當(dāng)中用到的最基礎(chǔ)的一些數(shù)學(xué)工具。如果大概做一個(gè)分類,分別對(duì)應(yīng)到我們機(jī)器學(xué)習(xí)當(dāng)中,表示、評(píng)價(jià),還有優(yōu)化這樣三個(gè)步驟。

當(dāng)然,這種應(yīng)用它也并不是說一一對(duì)應(yīng)的關(guān)系。在表示當(dāng)中我只用到線性代數(shù),概率統(tǒng)計(jì)一點(diǎn)兒都不涉及,同樣地,我在評(píng)價(jià)的時(shí)候,線性代數(shù)也不涉及,不是這樣,都會(huì)有一個(gè)交叉的過程,但是在每個(gè)步驟當(dāng)中應(yīng)用到的主要工具還是有所區(qū)別。

(4)高等數(shù)學(xué)是數(shù)學(xué)工具的基礎(chǔ)

當(dāng)然,在數(shù)學(xué)工具當(dāng)中,我們并沒有涉及到高等數(shù)學(xué),高等數(shù)學(xué)我們就把它當(dāng)作一個(gè)基礎(chǔ),一個(gè)基礎(chǔ)中的基礎(chǔ)。不光是人工智能,或者說機(jī)器學(xué)習(xí),只要有數(shù)學(xué)參與的地方,我們都需要有高等數(shù)學(xué)的這個(gè)基礎(chǔ)。那么具體到機(jī)器學(xué)習(xí)當(dāng)中,我們?cè)诟叩葦?shù)學(xué)這一塊兒用到的比較多的,可能包括求導(dǎo),微分,這樣的一些內(nèi)容。當(dāng)然還有這個(gè)積分,我們?cè)谇蠼膺@個(gè)目標(biāo)函數(shù)的期望值的時(shí)候可能也會(huì)遇到。

所以到這呢,我們就說,我們介紹了機(jī)器學(xué)習(xí)當(dāng)中用到了哪些數(shù)學(xué)。主要就是這三塊,線性代數(shù),概率統(tǒng)計(jì),還有最優(yōu)化,那么任何復(fù)雜的算法實(shí)際上都是由這三者的結(jié)合疊加所構(gòu)造出來的,那么這三者在機(jī)器學(xué)習(xí)當(dāng)中他們起到的作用分別是什么呢?我們可以具體地來看一看。

二、三種數(shù)學(xué)工具在機(jī)器學(xué)習(xí)中的作用

(1)線性代數(shù)

1.將具體事物抽象為數(shù)學(xué)對(duì)象

對(duì)于線性代數(shù)來說,我們可以對(duì)它做一個(gè)簡(jiǎn)單的定義。所謂線性代數(shù)是什么?就是數(shù)量和結(jié)構(gòu)的一個(gè)組合,也就是說,線性代數(shù)等于數(shù)量加上結(jié)構(gòu)。本身數(shù)量呢,它是一個(gè)單獨(dú)的數(shù)。對(duì)于單個(gè)的數(shù)我們沒有結(jié)構(gòu)可言,對(duì)于單個(gè)的對(duì)象沒有結(jié)構(gòu)可言。但是當(dāng)我們把一組數(shù),或者一堆數(shù)排列到一塊兒的時(shí)候,這個(gè)排列不是隨機(jī)的排列,而是有一定的順序進(jìn)行排列的時(shí)候,這個(gè)時(shí)候,數(shù)目之間的順序或者數(shù)量之間的順序就形成了一種結(jié)構(gòu),這個(gè)結(jié)構(gòu)就可以蘊(yùn)含一定的信息,能夠供我們?nèi)ナ褂谩?/p>

除了順序之外,結(jié)構(gòu)還有另外一層含義。我可以對(duì)數(shù)量定義一些運(yùn)算。在線性空間里面我們提到,基本的運(yùn)算包括什么呢?包括加法,包括數(shù)乘,這樣一些運(yùn)算。有了運(yùn)算之后,我們就可以對(duì)不同的對(duì)象,單個(gè)的數(shù)目放在一塊兒,按照一定的順序排列在一起,我們可以把它組成一個(gè)向量,組成這樣一個(gè)對(duì)象。那么有了加法,數(shù)乘這樣一些運(yùn)算之后,你就可以對(duì)這個(gè)對(duì)象再來進(jìn)行一些操作。這樣的話,就實(shí)現(xiàn)了把具體事物給它抽象成數(shù)學(xué)對(duì)象,這樣的一個(gè)過程。這就是線性代數(shù)最主要的一個(gè)作用。當(dāng)然不光是在機(jī)器學(xué)習(xí)里面,在其他應(yīng)用到線性代數(shù)的場(chǎng)合也是一樣:把具體的事物抽象成為數(shù)學(xué)對(duì)象。

2.提升大規(guī)模運(yùn)算的效率

當(dāng)然除此之外呢,它還有另外一個(gè)優(yōu)勢(shì),線性代數(shù)還有另外一個(gè)作用,就是能夠提升大規(guī)模運(yùn)算的效率。因?yàn)樵诂F(xiàn)代的機(jī)器學(xué)習(xí)當(dāng)中,我們要處理的數(shù)據(jù)都是海量的數(shù)據(jù),數(shù)據(jù)的數(shù)量是呈指數(shù)形式的增長(zhǎng)。我們要處理的數(shù)據(jù)越來越多,如果只是簡(jiǎn)單地說,用最傳統(tǒng)的方法,用一個(gè)一個(gè)的 for 循環(huán)去處理高維的矩陣,它的效率肯定是相當(dāng)?shù)拖?。有了線性代數(shù)之后,我們可以把矩陣的運(yùn)算引入到機(jī)器學(xué)習(xí)的算法當(dāng)中,通過一些額外的庫(kù),或者一些額外的軟件包,提升大規(guī)模運(yùn)算的效率。這里面最直觀的一個(gè)例子就是 MATLAB 軟件。MATLAB 軟件本身名字叫矩陣實(shí)驗(yàn)室。它的特點(diǎn),或者說它的賣點(diǎn)就在于,對(duì)矩陣,或者說對(duì)向量它操作的高效率。

所以說呢,線性代數(shù),我們把它總結(jié)一下,它就等于數(shù)量和結(jié)構(gòu)的組合。它的作用,一方面可以把具體的事物抽象成數(shù)學(xué)對(duì)象,另外一方面,可以提升大規(guī)模運(yùn)算的效率。

(2)概率統(tǒng)計(jì)

1.利用數(shù)據(jù)學(xué)習(xí)模型

如果我們說,線性代數(shù)可以看成是數(shù)量還有結(jié)構(gòu)的組合的話,那么概率統(tǒng)計(jì)就可以看成是模型還有數(shù)據(jù)的組合。

那么模型和數(shù)據(jù)組合在一塊,實(shí)際上是雙向的處理。我們機(jī)器學(xué)習(xí)有學(xué)習(xí)的階段,我們要利用這個(gè)數(shù)據(jù)去訓(xùn)練這個(gè)模型,這個(gè)階段,我們是用數(shù)據(jù)去學(xué)習(xí)這個(gè)模型。在模型里面,我們就可以去選擇。有那么多的模型,像我們剛才說到的,有 K- 近鄰的模型,有回歸模型,有決策樹,還有支持向量機(jī),這樣不同的模型。我訓(xùn)練的任務(wù)就是用數(shù)據(jù)來學(xué)習(xí)這些模型,來確定這個(gè)模型的參數(shù),最終得到一個(gè)確定的模型。這就可以看成什么呢?看成是在給定數(shù)據(jù)的情況下,我來求解這個(gè)參數(shù),它的條件概率。給定的數(shù)據(jù),如果有一部分參數(shù)的條件概率是最大的,那么就選擇這部分參數(shù),作為我這個(gè)模型的參數(shù)。實(shí)際上,訓(xùn)練過程解決的就是這樣一個(gè)問題。

當(dāng)然具體來說,包括生成模型,包括判別模型,那么生成模型我們求解的是輸入輸出的一個(gè)聯(lián)合概率分布,那么判別模型是一個(gè)條件概率分布。但不管怎么樣,很多情況下,我們關(guān)注的目標(biāo)都是分布,那么利用數(shù)據(jù)進(jìn)行訓(xùn)練的過程也就是學(xué)習(xí)這個(gè)分布的過程。

2.利用模型推斷數(shù)據(jù)

接下來呢,在訓(xùn)練結(jié)束之后,我們要這個(gè)模型要來干什么呢?要進(jìn)行預(yù)測(cè),也就是說,利用這個(gè)模型來進(jìn)行數(shù)據(jù)的推斷。給定這個(gè)模型,我給到一個(gè)輸入,我輸入可能是一個(gè)特征,一些特征的組合,形成一個(gè)向量。我把這個(gè)輸入的向量代入到模型當(dāng)中,就可以求出一個(gè)結(jié)果,當(dāng)然也可能是多個(gè)結(jié)果。我取這個(gè)概率最大的結(jié)果作為一個(gè)輸出,這個(gè)過程就是反過來利用模型去推斷數(shù)據(jù)的一個(gè)過程。所以我們說,概率統(tǒng)計(jì)等于模型和數(shù)據(jù)的一個(gè)組合,這個(gè)組合是雙向的。在學(xué)習(xí)階段,我們利用數(shù)據(jù)來訓(xùn)練模型,在預(yù)測(cè)階段,我們利用模型反過來去推斷這個(gè)數(shù)據(jù)。

所以,在概率統(tǒng)計(jì)這一塊,我們關(guān)注的是模型的使用,還有概率的求解。當(dāng)然兩者不是完全區(qū)別開的,是相互融合的。在建立模型的時(shí)候,我們會(huì)利用到一些先驗(yàn)概率分布。在求解目標(biāo)函數(shù)的時(shí)候,我們也會(huì)涉及求解數(shù)學(xué)期望這樣一些操作。這里面我們也給出了一個(gè)實(shí)例,就是回歸分析還有機(jī)器學(xué)習(xí)方法的比較。

(3)最優(yōu)化理論

概率統(tǒng)計(jì)呢,我們可以把它解釋成這個(gè)模型和數(shù)據(jù)的一個(gè)組合,那么最優(yōu)化的話,就可以看成是目標(biāo)和約束的一個(gè)組合。在這里面,我們最優(yōu)化的目標(biāo)是什么呢?是求解,讓這個(gè)期望函數(shù),或者讓目標(biāo)函數(shù)取到最值的解,手段是什么呢?就是通過調(diào)整模型的參數(shù)來實(shí)現(xiàn),為什么要調(diào)整這個(gè)模型的參數(shù)?因?yàn)楹芏鄷r(shí)候,我們想求解到這個(gè)解析解是求不出來的。在很多復(fù)雜的問題當(dāng)中呢,這個(gè)解析解是沒有辦法求出來的。對(duì)于線性回歸來說,我們可以求解出 Beta 的一個(gè)表達(dá)式,那樣一個(gè)矩陣相乘,求逆,再進(jìn)行相乘的一個(gè)表達(dá)式。很多時(shí)候,這個(gè)解析解我們求不到,求不到怎么辦?就只能一點(diǎn)一點(diǎn)去試,一步一步去找,我要的最小值或者最大值,它到底在哪?這個(gè)時(shí)候就會(huì)用到我們最優(yōu)化的方法,包括梯度下降,包括其他的一些方法。

在使用這些方法的時(shí)候,我們要注意調(diào)整一些參數(shù)。一方面是模型的參數(shù),另外一方面還有所謂的超參數(shù)。

調(diào)整模型參數(shù),一方面,它的作用讓我們找到真正的最小值,或者找到真正的最大值。另外一方面,避免在尋找的過程中把最小值,或者最大值,本來你是能找到的,但是這個(gè)超參數(shù)沒有設(shè)計(jì)好,比如說我的步長(zhǎng)、速率沒有設(shè)計(jì)好,把這個(gè)點(diǎn)錯(cuò)過,要避免這樣一些問題。所以說對(duì)于最優(yōu)化而言,我們可以把它看成是目標(biāo),還有參數(shù)的一個(gè)組合,通過這兩者來找到我們想要的合適的點(diǎn)。

三、需要掌握到什么程度?

剛才呢,我們結(jié)合這些實(shí)例,解釋了線性代數(shù),概率論,概率學(xué)統(tǒng)計(jì),還有最優(yōu)化,在機(jī)器學(xué)習(xí)當(dāng)中的一些作用。接下來我們來看一看,需要掌握到什么程度。需要掌握到什么程度呢?實(shí)際上,應(yīng)該說是一個(gè)見仁見智的問題。當(dāng)然理想的情況肯定是掌握得越多越好,最好你能把所有的數(shù)學(xué)都掌握到,不光是我們提到的這些,甚至更加高級(jí)的你都會(huì),這是最好的效果。當(dāng)然在實(shí)際當(dāng)中,我們不可能,沒有那么多精力去專門地鉆研到這個(gè)數(shù)學(xué)當(dāng)中,所以說這種理想的情況也是不存在的。那么具體來說,掌握到什么程度呢?

(1)機(jī)器學(xué)習(xí)的三重境界

1. 能使用:利用已知方法解決問題

我在這里列出來了三個(gè)階段。第一個(gè)階段呢,我管它叫做能使用。也就是說,給定一個(gè)模型,我能夠用它來根據(jù)給定的輸入來求解輸出,也就是利用已知的方法來解決問題。那么這個(gè)已知的方法,我可以把它看成一個(gè)黑箱子,我不關(guān)注這個(gè)過程,不關(guān)注這個(gè)方法是如何解決問題,只要能夠解決問題就行??赡芤呀?jīng)有了一個(gè)算法,那么我只需要對(duì)數(shù)據(jù)做一些處理,把這個(gè)數(shù)據(jù)送入到算法當(dāng)中,得到一個(gè)輸出,我能看明白這個(gè)輸出是怎么回事,這就可以。這是能使用的階段,我只是做一個(gè)算法的使用者,我能把它用清楚就夠了。

2. 能看懂:理解已知方法的工作原理

如果在能使用的基礎(chǔ)上再進(jìn)一步,那么就是能看懂,我不光用這個(gè)已知的方法來解決問題,同時(shí)我還能夠理解這個(gè)方法的工作原理。知其然,還能知其所以然。能使用就是知其然,能看懂就是知其所以然。那么這個(gè)方法可能背后有一些數(shù)學(xué)推導(dǎo),會(huì)涉及到一些概率,最優(yōu)化,還有線性代數(shù)的一些使用。那么這個(gè)能看懂,就要求你具備相關(guān)的知識(shí),能夠把這個(gè)推導(dǎo)的過程給它順下來,知道這個(gè)方法具體是怎么來工作。

3. 能設(shè)計(jì):根據(jù)問題特征開發(fā)新方法

如果在這個(gè)能看懂的基礎(chǔ)上,再進(jìn)一步的話,我們可以把它叫做能設(shè)計(jì)。我把已知方法理解之后,我還可以根據(jù)我的問題,根據(jù)我自己的實(shí)際問題的特點(diǎn),來開發(fā)一些新的方法。要么呢,可以對(duì)已知的方法我來做一些改進(jìn),使它更符合我自己的一個(gè)待解決問題的方法,或者說我開發(fā)一個(gè)完全新的方法,就是重新推導(dǎo),推倒重來,直接設(shè)計(jì)一個(gè)新的方法。那么很顯然,這個(gè)呢,對(duì)于數(shù)學(xué)功底就有更深層次的一個(gè)要求。

所以我們說對(duì)于數(shù)學(xué)的掌握程度包括這樣的三個(gè)層次,能使用,能看懂,還能設(shè)計(jì)。那么具體在實(shí)際當(dāng)中,你需要做到哪個(gè)程度,那么就要根據(jù)自己的實(shí)際情況來做出判斷。

四、如何盡快、高效率掌握數(shù)學(xué)知識(shí)?

(1) 掌握核心概念

在這方面,我給出的建議是,一方面是,我們要握核心概念,在線性代數(shù)當(dāng)中核心概念是什么?就是線性空間,向量矩陣以及對(duì)于向量矩陣的度量,包括范數(shù)、包括內(nèi)積這些,這些就是它的核心概念。那么在概率統(tǒng)計(jì)當(dāng)中,頻率學(xué)派,還有貝葉斯學(xué)派,他們兩者之間的區(qū)別是一個(gè)核心概念,同時(shí)呢,像期望方差這些指標(biāo),還有條件概率,這樣的一些概念,條件概率聯(lián)合概率這樣一些概念也是核心概念。那么在最優(yōu)化當(dāng)中,這些算法,這個(gè)梯度下降法,或者牛頓法,這就是核心概念。

(2) 以點(diǎn)帶面

在時(shí)間有限的情況下,我們一定要把有限的精力集中在重要的知識(shí)上。先把這些核心概念搞清楚,再通過這些核心的概念,來以點(diǎn)代面,從這些關(guān)鍵的問題去鋪開,慢慢地去接觸其他的問題。

(3) 問題導(dǎo)向

最后一點(diǎn)呢,我覺得,在學(xué)習(xí)的時(shí)候,我們可以以問題為導(dǎo)向,就是結(jié)合著我們實(shí)際的需求,結(jié)合我們實(shí)際的問題,來決定我們?nèi)W(xué)什么。這個(gè)呢,和我們前面所說到的這個(gè)掌握到什么程度也是一樣,掌握到什么程度也是相通的。因?yàn)楫吘刮覀儗W(xué)習(xí),機(jī)器學(xué)習(xí),學(xué)習(xí)機(jī)器學(xué)習(xí)當(dāng)中的數(shù)學(xué)都是為了解決問題。如果不能解決問題的話,你學(xué)到的這個(gè)東西的價(jià)值就沒有能夠解決問題的這個(gè)知識(shí)的價(jià)值大。當(dāng)然我們也不能說一點(diǎn)價(jià)值都沒有。在學(xué)習(xí)的時(shí)候,大家可以嘗試著以問題為導(dǎo)向。帶著問題去探索這些知識(shí),帶著問題去學(xué)習(xí)知識(shí),可能你會(huì)發(fā)現(xiàn),這樣會(huì)得到更高的效率。

五、推薦書目

推薦書目在我們專欄里面也有相應(yīng)的推送。在基礎(chǔ)數(shù)學(xué),基礎(chǔ)學(xué)習(xí),神經(jīng)網(wǎng)絡(luò),還有深度學(xué)習(xí),每個(gè)模塊我們結(jié)束之后都會(huì)推薦一些相關(guān)的書籍。但是在這里,我想要跟大家推薦的兩本書,都是關(guān)于機(jī)器學(xué)習(xí),或者說都是關(guān)于統(tǒng)計(jì)學(xué)習(xí),一本叫 An IntroducTIon StaTIsTIcal to Learning ,另一本叫 The Elements of StaTIstical Learning 。

兩本書的作者是同一撥人,有兩個(gè)共同的作者。它們講述的都是統(tǒng)計(jì)學(xué)習(xí),或者機(jī)器學(xué)習(xí)的方法。其中前一本可以看成是后一本的簡(jiǎn)化版。它更通俗、更簡(jiǎn)單一些,后面這個(gè)稍微有些難。為什么推薦這兩本呢?因?yàn)檫@兩本,它更深入的會(huì)挖掘方法背后的一些數(shù)學(xué)含義。我們能夠看到的教科書,它主要的作用是把這個(gè)方法講清楚。來了個(gè)方法,比如說線性回歸,怎么推導(dǎo),怎么區(qū)算,一大堆公式寫出來,那么給出一個(gè)推導(dǎo)的結(jié)果,或者說決策樹,或者其他的算法都一樣,可能到這里就結(jié)束了,我的任務(wù)就完成了。

這兩本書,它不光是介紹方法推導(dǎo),它可能更看中統(tǒng)計(jì)學(xué)上的意義。我們?yōu)槭裁匆@么做,我們?cè)O(shè)計(jì)這個(gè)方法在統(tǒng)計(jì)學(xué)上有什么意義。因?yàn)樽髡叨际墙y(tǒng)計(jì)學(xué)家,有幾十年的積淀,有幾十年的研究積淀,所以,相比于其他市面上教科書,我認(rèn)為他們兩個(gè) insight 可能更多一些。當(dāng)然了,大家看起來,也會(huì)有相應(yīng)的難度,可能并不是像我們平時(shí)的教科書那么簡(jiǎn)單。這些書,我們一遍兩遍是讀不完的,如果真正要從事人工智能、機(jī)器學(xué)習(xí)這方面的工作的話,可能要多讀幾遍,每讀一遍也會(huì)有不同的收獲。

數(shù)學(xué)基礎(chǔ)知識(shí)蘊(yùn)含著處理智能問題的基本思想與方法,也是理解復(fù)雜算法的必備要素。今天的種種人工智能技術(shù)歸根到底都建立在數(shù)學(xué)模型之上,要了解人工智能,首先要掌握必備的數(shù)學(xué)基礎(chǔ)知識(shí),具體來說包括:

線性代數(shù):如何將研究對(duì)象形式化?

概率論:如何描述統(tǒng)計(jì)規(guī)律?

數(shù)理統(tǒng)計(jì):如何以小見大?

最優(yōu)化理論: 如何找到最優(yōu)解?

信息論:如何定量度量不確定性?

形式邏輯:如何實(shí)現(xiàn)抽象推理?

01 線性代數(shù):如何將研究對(duì)象形式化

事實(shí)上,線性代數(shù)不僅僅是人工智能的基礎(chǔ),更是現(xiàn)代數(shù)學(xué)和以現(xiàn)代數(shù)學(xué)作為主要分析方法的眾多學(xué)科的基礎(chǔ)。從量子力學(xué)到圖像處理都離不開向量和矩陣的使用。而在向量和矩陣背后,線性代數(shù)的核心意義在于提供了?種看待世界的抽象視角:萬事萬物都可以被抽象成某些特征的組合,并在由預(yù)置規(guī)則定義的框架之下以靜態(tài)和動(dòng)態(tài)的方式加以觀察。

著重于抽象概念的解釋而非具體的數(shù)學(xué)公式來看,線性代數(shù)要點(diǎn)如下:線性代數(shù)的本質(zhì)在于將具體事物抽象為數(shù)學(xué)對(duì)象,并描述其靜態(tài)和動(dòng)態(tài)的特性;向量的實(shí)質(zhì)是 n 維線性空間中的靜止點(diǎn);線性變換描述了向量或者作為參考系的坐標(biāo)系的變化,可以用矩陣表示;矩陣的特征值和特征向量描述了變化的速度與方向。

總之,線性代數(shù)之于人工智能如同加法之于高等數(shù)學(xué),是一個(gè)基礎(chǔ)的工具集。

02 概率論:如何描述統(tǒng)計(jì)規(guī)律?

除了線性代數(shù)之外,概率論也是人工智能研究中必備的數(shù)學(xué)基礎(chǔ)。隨著連接主義學(xué)派的興起,概率統(tǒng)計(jì)已經(jīng)取代了數(shù)理邏輯,成為人工智能研究的主流工具。在數(shù)據(jù)爆炸式增長(zhǎng)和計(jì)算力指數(shù)化增強(qiáng)的今天,概率論已經(jīng)在機(jī)器學(xué)習(xí)中扮演了核心角色。

同線性代數(shù)一樣,概率論也代表了一種看待世界的方式,其關(guān)注的焦點(diǎn)是無處不在的可能性。頻率學(xué)派認(rèn)為先驗(yàn)分布是固定的,模型參數(shù)要靠最大似然估計(jì)計(jì)算;貝葉斯學(xué)派認(rèn)為先驗(yàn)分布是隨機(jī)的,模型參數(shù)要靠后驗(yàn)概率最大化計(jì)算;正態(tài)分布是最重要的一種隨機(jī)變量的分布。

03 數(shù)理統(tǒng)計(jì):如何以小見大?

在人工智能的研究中,數(shù)理統(tǒng)計(jì)同樣不可或缺。基礎(chǔ)的統(tǒng)計(jì)理論有助于對(duì)機(jī)器學(xué)習(xí)的算法和數(shù)據(jù)挖掘的結(jié)果做出解釋,只有做出合理的解讀,數(shù)據(jù)的價(jià)值才能夠體現(xiàn)。數(shù)理統(tǒng)計(jì)根據(jù)觀察或?qū)嶒?yàn)得到的數(shù)據(jù)來研究隨機(jī)現(xiàn)象,并對(duì)研究對(duì)象的客觀規(guī)律做出合理的估計(jì)和判斷。

雖然數(shù)理統(tǒng)計(jì)以概率論為理論基礎(chǔ),但兩者之間存在方法上的本質(zhì)區(qū)別。概率論作用的前提是隨機(jī)變量的分布已知,根據(jù)已知的分布來分析隨機(jī)變量的特征與規(guī)律;數(shù)理統(tǒng)計(jì)的研究對(duì)象則是未知分布的隨機(jī)變量,研究方法是對(duì)隨機(jī)變量進(jìn)行獨(dú)立重復(fù)的觀察,根據(jù)得到的觀察結(jié)果對(duì)原始分布做出推斷。

用一句不嚴(yán)謹(jǐn)?shù)庇^的話講:數(shù)理統(tǒng)計(jì)可以看成是逆向的概率論。 數(shù)理統(tǒng)計(jì)的任務(wù)是根據(jù)可觀察的樣本反過來推斷總體的性質(zhì);推斷的工具是統(tǒng)計(jì)量,統(tǒng)計(jì)量是樣本的函數(shù),是個(gè)隨機(jī)變量;參數(shù)估計(jì)通過隨機(jī)抽取的樣本來估計(jì)總體分布的未知參數(shù),包括點(diǎn)估計(jì)和區(qū)間估計(jì);假設(shè)檢驗(yàn)通過隨機(jī)抽取的樣本來接受或拒絕關(guān)于總體的某個(gè)判斷,常用于估計(jì)機(jī)器學(xué)習(xí)模型的泛化錯(cuò)誤率。

04 最優(yōu)化理論: 如何找到最優(yōu)解?

本質(zhì)上講,人工智能的目標(biāo)就是最優(yōu)化:在復(fù)雜環(huán)境與多體交互中做出最優(yōu)決策。幾乎所有的人工智能問題最后都會(huì)歸結(jié)為一個(gè)優(yōu)化問題的求解,因而最優(yōu)化理論同樣是人工智能必備的基礎(chǔ)知識(shí)。最優(yōu)化理論研究的問題是判定給定目標(biāo)函數(shù)的最大值(最小值)是否存在,并找到令目標(biāo)函數(shù)取到最大值 (最小值) 的數(shù)值。 如果把給定的目標(biāo)函數(shù)看成一座山脈,最優(yōu)化的過程就是判斷頂峰的位置并找到到達(dá)頂峰路徑的過程。

通常情況下,最優(yōu)化問題是在無約束情況下求解給定目標(biāo)函數(shù)的最小值;在線性搜索中,確定尋找最小值時(shí)的搜索方向需要使用目標(biāo)函數(shù)的一階導(dǎo)數(shù)和二階導(dǎo)數(shù);置信域算法的思想是先確定搜索步長(zhǎng),再確定搜索方向;以人工神經(jīng)網(wǎng)絡(luò)為代表的啟發(fā)式算法是另外一類重要的優(yōu)化方法。

05 信息論:如何定量度量不確定性?

近年來的科學(xué)研究不斷證實(shí),不確定性就是客觀世界的本質(zhì)屬性。換句話說,上帝還真就擲骰子。不確定性的世界只能使用概率模型來描述,這促成了信息論的誕生。

信息論使用“信息熵”的概念,對(duì)單個(gè)信源的信息量和通信中傳遞信息的數(shù)量與效率等問題做出了解釋,并在世界的不確定性和信息的可測(cè)量性之間搭建起一座橋梁。

總之,信息論處理的是客觀世界中的不確定性;條件熵和信息增益是分類問題中的重要參數(shù);KL 散度用于描述兩個(gè)不同概率分布之間的差異;最大熵原理是分類問題匯總的常用準(zhǔn)則。

06 形式邏輯:如何實(shí)現(xiàn)抽象推理?

1956 年召開的達(dá)特茅斯會(huì)議宣告了人工智能的誕生。在人工智能的襁褓期,各位奠基者們,包括約翰·麥卡錫、赫伯特·西蒙、馬文·閔斯基等未來的圖靈獎(jiǎng)得主,他們的愿景是讓“具備抽象思考能力的程序解釋合成的物質(zhì)如何能夠擁有人類的心智?!蓖ㄋ椎卣f,理想的人工智能應(yīng)該具有抽象意義上的學(xué)習(xí)、推理與歸納能力,其通用性將遠(yuǎn)遠(yuǎn)強(qiáng)于解決國(guó)際象棋或是圍棋等具體問題的算法。

如果將認(rèn)知過程定義為對(duì)符號(hào)的邏輯運(yùn)算,人工智能的基礎(chǔ)就是形式邏輯;謂詞邏輯是知識(shí)表示的主要方法;基于謂詞邏輯系統(tǒng)可以實(shí)現(xiàn)具有自動(dòng)推理能力的人工智能;不完備性定理向“認(rèn)知的本質(zhì)是計(jì)算”這一人工智能的基本理念提出挑戰(zhàn)。

本站聲明: 本文章由作者或相關(guān)機(jī)構(gòu)授權(quán)發(fā)布,目的在于傳遞更多信息,并不代表本站贊同其觀點(diǎn),本站亦不保證或承諾內(nèi)容真實(shí)性等。需要轉(zhuǎn)載請(qǐng)聯(lián)系該專欄作者,如若文章內(nèi)容侵犯您的權(quán)益,請(qǐng)及時(shí)聯(lián)系本站刪除。
換一批
延伸閱讀

9月2日消息,不造車的華為或?qū)⒋呱龈蟮莫?dú)角獸公司,隨著阿維塔和賽力斯的入局,華為引望愈發(fā)顯得引人矚目。

關(guān)鍵字: 阿維塔 塞力斯 華為

倫敦2024年8月29日 /美通社/ -- 英國(guó)汽車技術(shù)公司SODA.Auto推出其旗艦產(chǎn)品SODA V,這是全球首款涵蓋汽車工程師從創(chuàng)意到認(rèn)證的所有需求的工具,可用于創(chuàng)建軟件定義汽車。 SODA V工具的開發(fā)耗時(shí)1.5...

關(guān)鍵字: 汽車 人工智能 智能驅(qū)動(dòng) BSP

北京2024年8月28日 /美通社/ -- 越來越多用戶希望企業(yè)業(yè)務(wù)能7×24不間斷運(yùn)行,同時(shí)企業(yè)卻面臨越來越多業(yè)務(wù)中斷的風(fēng)險(xiǎn),如企業(yè)系統(tǒng)復(fù)雜性的增加,頻繁的功能更新和發(fā)布等。如何確保業(yè)務(wù)連續(xù)性,提升韌性,成...

關(guān)鍵字: 亞馬遜 解密 控制平面 BSP

8月30日消息,據(jù)媒體報(bào)道,騰訊和網(wǎng)易近期正在縮減他們對(duì)日本游戲市場(chǎng)的投資。

關(guān)鍵字: 騰訊 編碼器 CPU

8月28日消息,今天上午,2024中國(guó)國(guó)際大數(shù)據(jù)產(chǎn)業(yè)博覽會(huì)開幕式在貴陽(yáng)舉行,華為董事、質(zhì)量流程IT總裁陶景文發(fā)表了演講。

關(guān)鍵字: 華為 12nm EDA 半導(dǎo)體

8月28日消息,在2024中國(guó)國(guó)際大數(shù)據(jù)產(chǎn)業(yè)博覽會(huì)上,華為常務(wù)董事、華為云CEO張平安發(fā)表演講稱,數(shù)字世界的話語權(quán)最終是由生態(tài)的繁榮決定的。

關(guān)鍵字: 華為 12nm 手機(jī) 衛(wèi)星通信

要點(diǎn): 有效應(yīng)對(duì)環(huán)境變化,經(jīng)營(yíng)業(yè)績(jī)穩(wěn)中有升 落實(shí)提質(zhì)增效舉措,毛利潤(rùn)率延續(xù)升勢(shì) 戰(zhàn)略布局成效顯著,戰(zhàn)新業(yè)務(wù)引領(lǐng)增長(zhǎng) 以科技創(chuàng)新為引領(lǐng),提升企業(yè)核心競(jìng)爭(zhēng)力 堅(jiān)持高質(zhì)量發(fā)展策略,塑強(qiáng)核心競(jìng)爭(zhēng)優(yōu)勢(shì)...

關(guān)鍵字: 通信 BSP 電信運(yùn)營(yíng)商 數(shù)字經(jīng)濟(jì)

北京2024年8月27日 /美通社/ -- 8月21日,由中央廣播電視總臺(tái)與中國(guó)電影電視技術(shù)學(xué)會(huì)聯(lián)合牽頭組建的NVI技術(shù)創(chuàng)新聯(lián)盟在BIRTV2024超高清全產(chǎn)業(yè)鏈發(fā)展研討會(huì)上宣布正式成立。 活動(dòng)現(xiàn)場(chǎng) NVI技術(shù)創(chuàng)新聯(lián)...

關(guān)鍵字: VI 傳輸協(xié)議 音頻 BSP

北京2024年8月27日 /美通社/ -- 在8月23日舉辦的2024年長(zhǎng)三角生態(tài)綠色一體化發(fā)展示范區(qū)聯(lián)合招商會(huì)上,軟通動(dòng)力信息技術(shù)(集團(tuán))股份有限公司(以下簡(jiǎn)稱"軟通動(dòng)力")與長(zhǎng)三角投資(上海)有限...

關(guān)鍵字: BSP 信息技術(shù)
關(guān)閉
關(guān)閉