機(jī)器學(xué)習(xí)需要具備哪一些數(shù)學(xué)基礎(chǔ)

時(shí)間：2020-04-28 22:45:01

關(guān)鍵字：機(jī)器學(xué)習(xí) 線性代數(shù) 函數(shù) 線性回歸

手機(jī)看文章

掃描二維碼
隨時(shí)隨地手機(jī)看文章

[導(dǎo)讀] 今天我們分享的內(nèi)容，主要是關(guān)于機(jī)器學(xué)習(xí)中的基礎(chǔ)數(shù)學(xué)。一、機(jī)器學(xué)習(xí)會(huì)用到哪些數(shù)學(xué)基礎(chǔ) 第一部分，我們先來看一看機(jī)器學(xué)習(xí)需要哪些數(shù)學(xué)的基礎(chǔ)。我們可以先引用一個(gè)專家的定義。這個(gè)專家是

今天我們分享的內(nèi)容，主要是關(guān)于機(jī)器學(xué)習(xí)中的基礎(chǔ)數(shù)學(xué)。

一、機(jī)器學(xué)習(xí)會(huì)用到哪些數(shù)學(xué)基礎(chǔ)

第一部分，我們先來看一看機(jī)器學(xué)習(xí)需要哪些數(shù)學(xué)的基礎(chǔ)。我們可以先引用一個(gè)專家的定義。這個(gè)專家是來自美國(guó)華盛頓大學(xué)的佩羅·多明戈斯。這也是人工智能領(lǐng)域的一個(gè)老兵。他對(duì)于機(jī)器學(xué)習(xí)給出了這樣一個(gè)定義，機(jī)器學(xué)習(xí)是由三個(gè)部分組成，分別是表示、評(píng)價(jià)，還有優(yōu)化。這樣的三個(gè)步驟，實(shí)際上也就對(duì)應(yīng)著在機(jī)器學(xué)習(xí)當(dāng)中所需要的數(shù)學(xué)。

（1）機(jī)器學(xué)習(xí)三部曲

表示

在表示這一步當(dāng)中，我們需要建立起數(shù)據(jù)，還有實(shí)際問題的抽象模型。所以，這里面就包括了兩個(gè)方面，一方面我們要對(duì)要解決的這個(gè)實(shí)際的問題進(jìn)行抽象化處理。比方說我們要設(shè)計(jì)一個(gè)算法，判斷一個(gè)郵件它到底是不是一封垃圾郵件，那么得到的結(jié)果無外乎兩種，要么是，要么不是。這樣一個(gè)問題如果對(duì)它做抽象，實(shí)際上就是個(gè)二分分類問題。是，我們可以把它定義成 0，不是，可以把它定義成 1。所以，這個(gè)問題最終要解決的是什么呢？輸出一個(gè) 0 或者 1 的結(jié)果。當(dāng)然把 0 和 1 的意義調(diào)過來也可以，用 1 代表是垃圾郵件，0 代表不是，也是可以的。所以，在表示的過程當(dāng)中，我們要解決的問題就是把我們面臨的真實(shí)世界當(dāng)中的一些物理問題給它抽象化，抽象成一個(gè)數(shù)學(xué)問題。抽象出來這個(gè)數(shù)學(xué)問題之后，我們要進(jìn)一步去解決它，還要對(duì)這個(gè)數(shù)據(jù)進(jìn)行表示。

對(duì)于問題抽象完了以后，我們還要對(duì)數(shù)據(jù)進(jìn)行抽象。在判定這個(gè)郵件到底是不是垃圾郵件的時(shí)候，我們要怎么判斷呢？要根據(jù)它的特征進(jìn)行判斷，看一看這個(gè)郵件里的關(guān)健字是否有關(guān)于推銷的，或者關(guān)于產(chǎn)品的一些關(guān)鍵字。這些特征，這些關(guān)鍵字，我們就要把它表示成一個(gè)特征，表示成一個(gè)向量，或者表示成其他的形式。表示成向量也好，表示成其他形式也好，都是對(duì)這個(gè)數(shù)據(jù)做出了抽象。

在表示階段，我們需要建立的是數(shù)據(jù)，還有問題的抽象模型。把這個(gè)模型建立出來，然后去尋找合理的算法。

K- 近鄰算法。在機(jī)器學(xué)習(xí)當(dāng)中，我們常見的有 K- 近鄰算法。K- 近鄰算法在我們的專欄中沒有提到，因?yàn)樗?jiǎn)單了。它實(shí)際上就是，找到一個(gè)樣本點(diǎn)和這個(gè)樣本點(diǎn)最近的幾個(gè)鄰居，最近的這 K 個(gè)鄰居。按照少數(shù)服從多數(shù)的原則，對(duì)它進(jìn)行分類，這就是 K- 近鄰算法。

回歸模型。除此之外，還有線性回歸，這樣的統(tǒng)計(jì)學(xué)習(xí)方法。我建立一個(gè)線性回歸模型，當(dāng)然，對(duì)二分類我們可以建立邏輯回歸模型。

決策樹。還有像決策樹這樣的方法。決策樹它不依賴于數(shù)據(jù)，它完全是自頂向下的一個(gè)設(shè)計(jì)。線性回歸也好，邏輯回歸也好，它是從數(shù)據(jù)反過來去推導(dǎo)模型，而決策樹直接去用模型判定數(shù)據(jù)，兩個(gè)方向不太一樣。

SVM 支持向量機(jī) 。最后，還有 SVM 支持向量機(jī)這樣的純數(shù)學(xué)方法。所以說表示的部分，我們需要把問題和數(shù)據(jù)進(jìn)行抽象，這個(gè)時(shí)候我們就要用到抽象的工具。

評(píng)價(jià)

給定模型之后，我們?nèi)绾卧u(píng)價(jià)這個(gè)模型的好壞？這個(gè)時(shí)候就需要設(shè)定一個(gè)目標(biāo)函數(shù)，來評(píng)價(jià)這個(gè)模型的性質(zhì)。

1.設(shè)定目標(biāo)函數(shù)

目標(biāo)函數(shù)的選取也可以有多種形式。像對(duì)于我們說到的垃圾郵件這種問題，我們可以定義一個(gè)錯(cuò)誤率。比方說一個(gè)郵件它原本不是垃圾郵件，但是我這個(gè)算法誤判成了垃圾郵件，這就是一個(gè)錯(cuò)例。所以呢，錯(cuò)誤率在分類問題當(dāng)中是個(gè)常用的指標(biāo)，或者說常用的目標(biāo)函數(shù)。

2.最小均方誤差和最大后驗(yàn)概率

那么在回歸當(dāng)中呢，我們會(huì)使用最小均方誤差這樣一個(gè)常用目標(biāo)函數(shù)，尤其是在線性回歸里。除此之外呢，還有最大后驗(yàn)概率，一些其他的指標(biāo)。

優(yōu)化

有了目標(biāo)函數(shù)以后，我們要求解這個(gè)目標(biāo)函數(shù)在模型之下的一個(gè)最優(yōu)解，這個(gè)模型能夠獲取到的最小錯(cuò)誤率，或者最小均方誤差是多少呢？我們要求出一個(gè)特定的值。沒有這個(gè)值的話，你如何評(píng)價(jià)不同的模型它到底是好是壞呢？所以說優(yōu)化這個(gè)步驟它的作用是求解目標(biāo)函數(shù)在模型之下的一個(gè)最優(yōu)解，看看這個(gè)模型在解決這個(gè)問題的時(shí)候，最好能達(dá)到什么樣的程度。

總結(jié)來說，多明戈斯教授總結(jié)到的機(jī)器學(xué)習(xí)的三個(gè)步驟，包括了表示、評(píng)價(jià)、優(yōu)化這樣三個(gè)步驟，在這三個(gè)步驟當(dāng)中我們會(huì)用到不同的數(shù)學(xué)公式來分別解決這三個(gè)問題。

（2）三種數(shù)學(xué)工具

線性代數(shù)

在這三個(gè)步驟中，應(yīng)用了三種不同的工具。在表示這個(gè)步驟當(dāng)中，我們主要使用的工具是什么呢？就是線性代數(shù)。線性代數(shù)呢，我們?cè)谶@個(gè)專欄里面也提到，它起到的一個(gè)最主要的作用就是把具體的事物轉(zhuǎn)化成抽象的數(shù)學(xué)模型。不管你的世界當(dāng)中有多么紛繁復(fù)雜，我們都可以把它轉(zhuǎn)化成一個(gè)向量，或者一個(gè)矩陣的形式。這就是線性代數(shù)最主要的作用。

所以，在線性代數(shù)解決表示這個(gè)問題的過程中，我們主要包括這樣兩個(gè)部分，一方面是線性空間理論，也就是我們說的向量、矩陣、變換這樣一些問題。第二個(gè)是矩陣分析。給定一個(gè)矩陣，我們可以對(duì)它做所謂的 SVD（singular value decomposition）分解，也就是做奇異值分解，或者是做其他的一些分析。這樣兩個(gè)部分共同構(gòu)成了我們機(jī)器學(xué)習(xí)當(dāng)中所需要的線性代數(shù)，當(dāng)然了，這兩者也是各有側(cè)重。線性空間的話，我們主要應(yīng)用在一些解決理論問題當(dāng)中，矩陣分析在理論當(dāng)中有使用，在實(shí)踐當(dāng)中也有一些使用。

概率統(tǒng)計(jì)

我們說到，線性代數(shù)起作用是在表示的過程當(dāng)中。在評(píng)價(jià)過程中，我們需要使用到概率統(tǒng)計(jì)。概率統(tǒng)計(jì)包括了兩個(gè)方面，一方面是數(shù)理統(tǒng)計(jì)，另外一方面是概率論。

數(shù)理統(tǒng)計(jì)好理解，我們機(jī)器學(xué)習(xí)當(dāng)中應(yīng)用的很多模型都是來源于數(shù)理統(tǒng)計(jì)。比方說最簡(jiǎn)單的線性回歸，還有邏輯回歸，它實(shí)際上都是來源于統(tǒng)計(jì)學(xué)。在具體地給定了目標(biāo)函數(shù)之后，我們?cè)趯?shí)際地去評(píng)價(jià)這個(gè)目標(biāo)函數(shù)的時(shí)候，我們會(huì)用到一些概率論。比方說給定了一個(gè)分布，我要求解這個(gè)目標(biāo)函數(shù)的期望值。在平均意義上，這個(gè)目標(biāo)函數(shù)能達(dá)到什么程度呢？這個(gè)時(shí)候就需要使用到概率論。所以說在評(píng)價(jià)這個(gè)過程中，我們會(huì)主要應(yīng)用到概率統(tǒng)計(jì)的一些知識(shí)。

實(shí)際上對(duì)于數(shù)理統(tǒng)計(jì)來說，我們?cè)谠u(píng)價(jià)模型的時(shí)候，不只關(guān)注的是一個(gè)目標(biāo)函數(shù)，我們可能還關(guān)注一些它的統(tǒng)計(jì)特性。比如說它的置信度，或者是其他的一些指標(biāo)。你這個(gè)模型建立起來，它的可信性程度到底有多大，這些在早期的機(jī)器學(xué)習(xí)算法當(dāng)中也是需要考慮的。當(dāng)然隨著神經(jīng)網(wǎng)絡(luò)，隨著深度學(xué)習(xí)的興起，這部分內(nèi)容實(shí)際上漸漸地衰落，或者漸漸地被忽略。你在神經(jīng)網(wǎng)絡(luò)當(dāng)中可能只需要達(dá)到一個(gè)這個(gè)好的目標(biāo)函數(shù)，好的指標(biāo)就行，至于說它的置信度，這些我們不去考慮。

所以說，這也是深度學(xué)習(xí)不太受學(xué)數(shù)學(xué)，或者說學(xué)統(tǒng)計(jì)學(xué)的人待見的一個(gè)原因。因?yàn)榻y(tǒng)計(jì)學(xué)強(qiáng)調(diào)什么呢？強(qiáng)調(diào)可解釋性，你這個(gè)模型能夠達(dá)到什么樣的指標(biāo)，我們能把它清清楚楚地講明白，為什么能夠達(dá)到這樣的指標(biāo)，它的原理在哪？它背后的根據(jù)在哪？我給定一個(gè)分布，假如說高斯分布，那么再給定一個(gè)模型，我就可以通過嚴(yán)謹(jǐn)而簡(jiǎn)潔的這個(gè)數(shù)學(xué)推導(dǎo)，把這個(gè)結(jié)果以公式的形式給它呈現(xiàn)出來，這個(gè)看起來就很高大上，或者說很清楚。但神經(jīng)網(wǎng)絡(luò)和深度學(xué)習(xí)，現(xiàn)在還達(dá)不到這樣可解釋的程度。所以說現(xiàn)在也有人批評(píng)，說深度學(xué)習(xí)是煉金術(shù)，主要的原因在這里。我只能夠通過調(diào)參數(shù)調(diào)出一個(gè)比較好的結(jié)果，但是到底這個(gè)結(jié)果為什么會(huì)出現(xiàn)？哪些因素會(huì)影響到它？可能還不是那么清晰。所以呢，關(guān)于概率統(tǒng)計(jì)，我們主要應(yīng)用在評(píng)價(jià)這個(gè)過程中。

最優(yōu)化理論

關(guān)于優(yōu)化，就不用說了，我們肯定用到的是最優(yōu)化理論。在最優(yōu)化理論當(dāng)中，主要的研究方向是凸優(yōu)化。

凸優(yōu)化當(dāng)然它有些限制，但它的好處是什么呢？能夠簡(jiǎn)化這個(gè)問題的解。因?yàn)樵趦?yōu)化當(dāng)中我們都知道，我們要求的是一個(gè)最大值，或者是最小值，但實(shí)際當(dāng)中我們可能會(huì)遇到一些局部的極大值，局部的極小值，還有鞍點(diǎn)這樣的點(diǎn)。凸優(yōu)化可以避免這個(gè)問題。在凸優(yōu)化當(dāng)中，極大值就是最大值，極小值也就是最小值。

但在實(shí)際當(dāng)中，尤其是引入了神經(jīng)網(wǎng)絡(luò)還有深度學(xué)習(xí)之后，凸優(yōu)化的應(yīng)用范圍越來越窄，很多情況下它不再適用，所以這里面我們主要用到的是無約束優(yōu)化。我在整個(gè)范圍之內(nèi)，我對(duì)參數(shù)，對(duì)輸入并沒有限定。在整個(gè)的輸入范圍內(nèi)去求解，不設(shè)置額外的約束條件。同時(shí)，在神經(jīng)網(wǎng)絡(luò)當(dāng)中應(yīng)用最廣的一個(gè)算法，一個(gè)優(yōu)化方法，就是反向傳播。

（3）三種數(shù)學(xué)工具和三個(gè)步驟并非一一對(duì)應(yīng)

我們今天談?wù)撨@個(gè)機(jī)器學(xué)習(xí)當(dāng)中，用到的基礎(chǔ)數(shù)學(xué)都包括哪些呢？包括這三種，線性代數(shù)，概率統(tǒng)計(jì)，還有最優(yōu)化理論。這是我們?cè)跈C(jī)器學(xué)習(xí)當(dāng)中用到的最基礎(chǔ)的一些數(shù)學(xué)工具。如果大概做一個(gè)分類，分別對(duì)應(yīng)到我們機(jī)器學(xué)習(xí)當(dāng)中，表示、評(píng)價(jià)，還有優(yōu)化這樣三個(gè)步驟。

當(dāng)然，這種應(yīng)用它也并不是說一一對(duì)應(yīng)的關(guān)系。在表示當(dāng)中我只用到線性代數(shù)，概率統(tǒng)計(jì)一點(diǎn)兒都不涉及，同樣地，我在評(píng)價(jià)的時(shí)候，線性代數(shù)也不涉及，不是這樣，都會(huì)有一個(gè)交叉的過程，但是在每個(gè)步驟當(dāng)中應(yīng)用到的主要工具還是有所區(qū)別。

（4）高等數(shù)學(xué)是數(shù)學(xué)工具的基礎(chǔ)

當(dāng)然，在數(shù)學(xué)工具當(dāng)中，我們并沒有涉及到高等數(shù)學(xué)，高等數(shù)學(xué)我們就把它當(dāng)作一個(gè)基礎(chǔ)，一個(gè)基礎(chǔ)中的基礎(chǔ)。不光是人工智能，或者說機(jī)器學(xué)習(xí)，只要有數(shù)學(xué)參與的地方，我們都需要有高等數(shù)學(xué)的這個(gè)基礎(chǔ)。那么具體到機(jī)器學(xué)習(xí)當(dāng)中，我們?cè)诟叩葦?shù)學(xué)這一塊兒用到的比較多的，可能包括求導(dǎo)，微分，這樣的一些內(nèi)容。當(dāng)然還有這個(gè)積分，我們?cè)谇蠼膺@個(gè)目標(biāo)函數(shù)的期望值的時(shí)候可能也會(huì)遇到。

所以到這呢，我們就說，我們介紹了機(jī)器學(xué)習(xí)當(dāng)中用到了哪些數(shù)學(xué)。主要就是這三塊，線性代數(shù)，概率統(tǒng)計(jì)，還有最優(yōu)化，那么任何復(fù)雜的算法實(shí)際上都是由這三者的結(jié)合疊加所構(gòu)造出來的，那么這三者在機(jī)器學(xué)習(xí)當(dāng)中他們起到的作用分別是什么呢？我們可以具體地來看一看。

二、三種數(shù)學(xué)工具在機(jī)器學(xué)習(xí)中的作用

（1）線性代數(shù)

1.將具體事物抽象為數(shù)學(xué)對(duì)象

對(duì)于線性代數(shù)來說，我們可以對(duì)它做一個(gè)簡(jiǎn)單的定義。所謂線性代數(shù)是什么？就是數(shù)量和結(jié)構(gòu)的一個(gè)組合，也就是說，線性代數(shù)等于數(shù)量加上結(jié)構(gòu)。本身數(shù)量呢，它是一個(gè)單獨(dú)的數(shù)。對(duì)于單個(gè)的數(shù)我們沒有結(jié)構(gòu)可言，對(duì)于單個(gè)的對(duì)象沒有結(jié)構(gòu)可言。但是當(dāng)我們把一組數(shù)，或者一堆數(shù)排列到一塊兒的時(shí)候，這個(gè)排列不是隨機(jī)的排列，而是有一定的順序進(jìn)行排列的時(shí)候，這個(gè)時(shí)候，數(shù)目之間的順序或者數(shù)量之間的順序就形成了一種結(jié)構(gòu)，這個(gè)結(jié)構(gòu)就可以蘊(yùn)含一定的信息，能夠供我們?nèi)ナ褂谩?/p>

除了順序之外，結(jié)構(gòu)還有另外一層含義。我可以對(duì)數(shù)量定義一些運(yùn)算。在線性空間里面我們提到，基本的運(yùn)算包括什么呢？包括加法，包括數(shù)乘，這樣一些運(yùn)算。有了運(yùn)算之后，我們就可以對(duì)不同的對(duì)象，單個(gè)的數(shù)目放在一塊兒，按照一定的順序排列在一起，我們可以把它組成一個(gè)向量，組成這樣一個(gè)對(duì)象。那么有了加法，數(shù)乘這樣一些運(yùn)算之后，你就可以對(duì)這個(gè)對(duì)象再來進(jìn)行一些操作。這樣的話，就實(shí)現(xiàn)了把具體事物給它抽象成數(shù)學(xué)對(duì)象，這樣的一個(gè)過程。這就是線性代數(shù)最主要的一個(gè)作用。當(dāng)然不光是在機(jī)器學(xué)習(xí)里面，在其他應(yīng)用到線性代數(shù)的場(chǎng)合也是一樣：把具體的事物抽象成為數(shù)學(xué)對(duì)象。

2.提升大規(guī)模運(yùn)算的效率

當(dāng)然除此之外呢，它還有另外一個(gè)優(yōu)勢(shì)，線性代數(shù)還有另外一個(gè)作用，就是能夠提升大規(guī)模運(yùn)算的效率。因?yàn)樵诂F(xiàn)代的機(jī)器學(xué)習(xí)當(dāng)中，我們要處理的數(shù)據(jù)都是海量的數(shù)據(jù)，數(shù)據(jù)的數(shù)量是呈指數(shù)形式的增長(zhǎng)。我們要處理的數(shù)據(jù)越來越多，如果只是簡(jiǎn)單地說，用最傳統(tǒng)的方法，用一個(gè)一個(gè)的 for 循環(huán)去處理高維的矩陣，它的效率肯定是相當(dāng)?shù)拖?。有了線性代數(shù)之后，我們可以把矩陣的運(yùn)算引入到機(jī)器學(xué)習(xí)的算法當(dāng)中，通過一些額外的庫(kù)，或者一些額外的軟件包，提升大規(guī)模運(yùn)算的效率。這里面最直觀的一個(gè)例子就是 MATLAB 軟件。MATLAB 軟件本身名字叫矩陣實(shí)驗(yàn)室。它的特點(diǎn)，或者說它的賣點(diǎn)就在于，對(duì)矩陣，或者說對(duì)向量它操作的高效率。

所以說呢，線性代數(shù)，我們把它總結(jié)一下，它就等于數(shù)量和結(jié)構(gòu)的組合。它的作用，一方面可以把具體的事物抽象成數(shù)學(xué)對(duì)象，另外一方面，可以提升大規(guī)模運(yùn)算的效率。

（2）概率統(tǒng)計(jì)

1.利用數(shù)據(jù)學(xué)習(xí)模型

如果我們說，線性代數(shù)可以看成是數(shù)量還有結(jié)構(gòu)的組合的話，那么概率統(tǒng)計(jì)就可以看成是模型還有數(shù)據(jù)的組合。

那么模型和數(shù)據(jù)組合在一塊，實(shí)際上是雙向的處理。我們機(jī)器學(xué)習(xí)有學(xué)習(xí)的階段，我們要利用這個(gè)數(shù)據(jù)去訓(xùn)練這個(gè)模型，這個(gè)階段，我們是用數(shù)據(jù)去學(xué)習(xí)這個(gè)模型。在模型里面，我們就可以去選擇。有那么多的模型，像我們剛才說到的，有 K- 近鄰的模型，有回歸模型，有決策樹，還有支持向量機(jī)，這樣不同的模型。我訓(xùn)練的任務(wù)就是用數(shù)據(jù)來學(xué)習(xí)這些模型，來確定這個(gè)模型的參數(shù)，最終得到一個(gè)確定的模型。這就可以看成什么呢？看成是在給定數(shù)據(jù)的情況下，我來求解這個(gè)參數(shù)，它的條件概率。給定的數(shù)據(jù)，如果有一部分參數(shù)的條件概率是最大的，那么就選擇這部分參數(shù)，作為我這個(gè)模型的參數(shù)。實(shí)際上，訓(xùn)練過程解決的就是這樣一個(gè)問題。

當(dāng)然具體來說，包括生成模型，包括判別模型，那么生成模型我們求解的是輸入輸出的一個(gè)聯(lián)合概率分布，那么判別模型是一個(gè)條件概率分布。但不管怎么樣，很多情況下，我們關(guān)注的目標(biāo)都是分布，那么利用數(shù)據(jù)進(jìn)行訓(xùn)練的過程也就是學(xué)習(xí)這個(gè)分布的過程。

2.利用模型推斷數(shù)據(jù)

接下來呢，在訓(xùn)練結(jié)束之后，我們要這個(gè)模型要來干什么呢？要進(jìn)行預(yù)測(cè)，也就是說，利用這個(gè)模型來進(jìn)行數(shù)據(jù)的推斷。給定這個(gè)模型，我給到一個(gè)輸入，我輸入可能是一個(gè)特征，一些特征的組合，形成一個(gè)向量。我把這個(gè)輸入的向量代入到模型當(dāng)中，就可以求出一個(gè)結(jié)果，當(dāng)然也可能是多個(gè)結(jié)果。我取這個(gè)概率最大的結(jié)果作為一個(gè)輸出，這個(gè)過程就是反過來利用模型去推斷數(shù)據(jù)的一個(gè)過程。所以我們說，概率統(tǒng)計(jì)等于模型和數(shù)據(jù)的一個(gè)組合，這個(gè)組合是雙向的。在學(xué)習(xí)階段，我們利用數(shù)據(jù)來訓(xùn)練模型，在預(yù)測(cè)階段，我們利用模型反過來去推斷這個(gè)數(shù)據(jù)。

所以，在概率統(tǒng)計(jì)這一塊，我們關(guān)注的是模型的使用，還有概率的求解。當(dāng)然兩者不是完全區(qū)別開的，是相互融合的。在建立模型的時(shí)候，我們會(huì)利用到一些先驗(yàn)概率分布。在求解目標(biāo)函數(shù)的時(shí)候，我們也會(huì)涉及求解數(shù)學(xué)期望這樣一些操作。這里面我們也給出了一個(gè)實(shí)例，就是回歸分析還有機(jī)器學(xué)習(xí)方法的比較。

（3）最優(yōu)化理論

概率統(tǒng)計(jì)呢，我們可以把它解釋成這個(gè)模型和數(shù)據(jù)的一個(gè)組合，那么最優(yōu)化的話，就可以看成是目標(biāo)和約束的一個(gè)組合。在這里面，我們最優(yōu)化的目標(biāo)是什么呢？是求解，讓這個(gè)期望函數(shù)，或者讓目標(biāo)函數(shù)取到最值的解，手段是什么呢？就是通過調(diào)整模型的參數(shù)來實(shí)現(xiàn)，為什么要調(diào)整這個(gè)模型的參數(shù)？因?yàn)楹芏鄷r(shí)候，我們想求解到這個(gè)解析解是求不出來的。在很多復(fù)雜的問題當(dāng)中呢，這個(gè)解析解是沒有辦法求出來的。對(duì)于線性回歸來說，我們可以求解出 Beta 的一個(gè)表達(dá)式，那樣一個(gè)矩陣相乘，求逆，再進(jìn)行相乘的一個(gè)表達(dá)式。很多時(shí)候，這個(gè)解析解我們求不到，求不到怎么辦？就只能一點(diǎn)一點(diǎn)去試，一步一步去找，我要的最小值或者最大值，它到底在哪？這個(gè)時(shí)候就會(huì)用到我們最優(yōu)化的方法，包括梯度下降，包括其他的一些方法。

在使用這些方法的時(shí)候，我們要注意調(diào)整一些參數(shù)。一方面是模型的參數(shù)，另外一方面還有所謂的超參數(shù)。

調(diào)整模型參數(shù)，一方面，它的作用讓我們找到真正的最小值，或者找到真正的最大值。另外一方面，避免在尋找的過程中把最小值，或者最大值，本來你是能找到的，但是這個(gè)超參數(shù)沒有設(shè)計(jì)好，比如說我的步長(zhǎng)、速率沒有設(shè)計(jì)好，把這個(gè)點(diǎn)錯(cuò)過，要避免這樣一些問題。所以說對(duì)于最優(yōu)化而言，我們可以把它看成是目標(biāo)，還有參數(shù)的一個(gè)組合，通過這兩者來找到我們想要的合適的點(diǎn)。

三、需要掌握到什么程度？

剛才呢，我們結(jié)合這些實(shí)例，解釋了線性代數(shù)，概率論，概率學(xué)統(tǒng)計(jì)，還有最優(yōu)化，在機(jī)器學(xué)習(xí)當(dāng)中的一些作用。接下來我們來看一看，需要掌握到什么程度。需要掌握到什么程度呢？實(shí)際上，應(yīng)該說是一個(gè)見仁見智的問題。當(dāng)然理想的情況肯定是掌握得越多越好，最好你能把所有的數(shù)學(xué)都掌握到，不光是我們提到的這些，甚至更加高級(jí)的你都會(huì)，這是最好的效果。當(dāng)然在實(shí)際當(dāng)中，我們不可能，沒有那么多精力去專門地鉆研到這個(gè)數(shù)學(xué)當(dāng)中，所以說這種理想的情況也是不存在的。那么具體來說，掌握到什么程度呢？

（1）機(jī)器學(xué)習(xí)的三重境界

1. 能使用：利用已知方法解決問題

我在這里列出來了三個(gè)階段。第一個(gè)階段呢，我管它叫做能使用。也就是說，給定一個(gè)模型，我能夠用它來根據(jù)給定的輸入來求解輸出，也就是利用已知的方法來解決問題。那么這個(gè)已知的方法，我可以把它看成一個(gè)黑箱子，我不關(guān)注這個(gè)過程，不關(guān)注這個(gè)方法是如何解決問題，只要能夠解決問題就行?？赡芤呀?jīng)有了一個(gè)算法，那么我只需要對(duì)數(shù)據(jù)做一些處理，把這個(gè)數(shù)據(jù)送入到算法當(dāng)中，得到一個(gè)輸出，我能看明白這個(gè)輸出是怎么回事，這就可以。這是能使用的階段，我只是做一個(gè)算法的使用者，我能把它用清楚就夠了。

2. 能看懂：理解已知方法的工作原理

如果在能使用的基礎(chǔ)上再進(jìn)一步，那么就是能看懂，我不光用這個(gè)已知的方法來解決問題，同時(shí)我還能夠理解這個(gè)方法的工作原理。知其然，還能知其所以然。能使用就是知其然，能看懂就是知其所以然。那么這個(gè)方法可能背后有一些數(shù)學(xué)推導(dǎo)，會(huì)涉及到一些概率，最優(yōu)化，還有線性代數(shù)的一些使用。那么這個(gè)能看懂，就要求你具備相關(guān)的知識(shí)，能夠把這個(gè)推導(dǎo)的過程給它順下來，知道這個(gè)方法具體是怎么來工作。

3. 能設(shè)計(jì)：根據(jù)問題特征開發(fā)新方法

如果在這個(gè)能看懂的基礎(chǔ)上，再進(jìn)一步的話，我們可以把它叫做能設(shè)計(jì)。我把已知方法理解之后，我還可以根據(jù)我的問題，根據(jù)我自己的實(shí)際問題的特點(diǎn)，來開發(fā)一些新的方法。要么呢，可以對(duì)已知的方法我來做一些改進(jìn)，使它更符合我自己的一個(gè)待解決問題的方法，或者說我開發(fā)一個(gè)完全新的方法，就是重新推導(dǎo)，推倒重來，直接設(shè)計(jì)一個(gè)新的方法。那么很顯然，這個(gè)呢，對(duì)于數(shù)學(xué)功底就有更深層次的一個(gè)要求。

所以我們說對(duì)于數(shù)學(xué)的掌握程度包括這樣的三個(gè)層次，能使用，能看懂，還能設(shè)計(jì)。那么具體在實(shí)際當(dāng)中，你需要做到哪個(gè)程度，那么就要根據(jù)自己的實(shí)際情況來做出判斷。

四、如何盡快、高效率掌握數(shù)學(xué)知識(shí)？

（1）掌握核心概念

在這方面，我給出的建議是，一方面是，我們要握核心概念，在線性代數(shù)當(dāng)中核心概念是什么？就是線性空間，向量矩陣以及對(duì)于向量矩陣的度量，包括范數(shù)、包括內(nèi)積這些，這些就是它的核心概念。那么在概率統(tǒng)計(jì)當(dāng)中，頻率學(xué)派，還有貝葉斯學(xué)派，他們兩者之間的區(qū)別是一個(gè)核心概念，同時(shí)呢，像期望方差這些指標(biāo)，還有條件概率，這樣的一些概念，條件概率聯(lián)合概率這樣一些概念也是核心概念。那么在最優(yōu)化當(dāng)中，這些算法，這個(gè)梯度下降法，或者牛頓法，這就是核心概念。

（2）以點(diǎn)帶面

在時(shí)間有限的情況下，我們一定要把有限的精力集中在重要的知識(shí)上。先把這些核心概念搞清楚，再通過這些核心的概念，來以點(diǎn)代面，從這些關(guān)鍵的問題去鋪開，慢慢地去接觸其他的問題。

（3）問題導(dǎo)向

最后一點(diǎn)呢，我覺得，在學(xué)習(xí)的時(shí)候，我們可以以問題為導(dǎo)向，就是結(jié)合著我們實(shí)際的需求，結(jié)合我們實(shí)際的問題，來決定我們?nèi)W(xué)什么。這個(gè)呢，和我們前面所說到的這個(gè)掌握到什么程度也是一樣，掌握到什么程度也是相通的。因?yàn)楫吘刮覀儗W(xué)習(xí)，機(jī)器學(xué)習(xí)，學(xué)習(xí)機(jī)器學(xué)習(xí)當(dāng)中的數(shù)學(xué)都是為了解決問題。如果不能解決問題的話，你學(xué)到的這個(gè)東西的價(jià)值就沒有能夠解決問題的這個(gè)知識(shí)的價(jià)值大。當(dāng)然我們也不能說一點(diǎn)價(jià)值都沒有。在學(xué)習(xí)的時(shí)候，大家可以嘗試著以問題為導(dǎo)向。帶著問題去探索這些知識(shí)，帶著問題去學(xué)習(xí)知識(shí)，可能你會(huì)發(fā)現(xiàn)，這樣會(huì)得到更高的效率。

五、推薦書目

推薦書目在我們專欄里面也有相應(yīng)的推送。在基礎(chǔ)數(shù)學(xué)，基礎(chǔ)學(xué)習(xí)，神經(jīng)網(wǎng)絡(luò)，還有深度學(xué)習(xí)，每個(gè)模塊我們結(jié)束之后都會(huì)推薦一些相關(guān)的書籍。但是在這里，我想要跟大家推薦的兩本書，都是關(guān)于機(jī)器學(xué)習(xí)，或者說都是關(guān)于統(tǒng)計(jì)學(xué)習(xí)，一本叫 An IntroducTIon StaTIsTIcal to Learning ，另一本叫 The Elements of StaTIstical Learning 。

兩本書的作者是同一撥人，有兩個(gè)共同的作者。它們講述的都是統(tǒng)計(jì)學(xué)習(xí)，或者機(jī)器學(xué)習(xí)的方法。其中前一本可以看成是后一本的簡(jiǎn)化版。它更通俗、更簡(jiǎn)單一些，后面這個(gè)稍微有些難。為什么推薦這兩本呢？因?yàn)檫@兩本，它更深入的會(huì)挖掘方法背后的一些數(shù)學(xué)含義。我們能夠看到的教科書，它主要的作用是把這個(gè)方法講清楚。來了個(gè)方法，比如說線性回歸，怎么推導(dǎo)，怎么區(qū)算，一大堆公式寫出來，那么給出一個(gè)推導(dǎo)的結(jié)果，或者說決策樹，或者其他的算法都一樣，可能到這里就結(jié)束了，我的任務(wù)就完成了。

這兩本書，它不光是介紹方法推導(dǎo)，它可能更看中統(tǒng)計(jì)學(xué)上的意義。我們?yōu)槭裁匆@么做，我們?cè)O(shè)計(jì)這個(gè)方法在統(tǒng)計(jì)學(xué)上有什么意義。因?yàn)樽髡叨际墙y(tǒng)計(jì)學(xué)家，有幾十年的積淀，有幾十年的研究積淀，所以，相比于其他市面上教科書，我認(rèn)為他們兩個(gè) insight 可能更多一些。當(dāng)然了，大家看起來，也會(huì)有相應(yīng)的難度，可能并不是像我們平時(shí)的教科書那么簡(jiǎn)單。這些書，我們一遍兩遍是讀不完的，如果真正要從事人工智能、機(jī)器學(xué)習(xí)這方面的工作的話，可能要多讀幾遍，每讀一遍也會(huì)有不同的收獲。

數(shù)學(xué)基礎(chǔ)知識(shí)蘊(yùn)含著處理智能問題的基本思想與方法，也是理解復(fù)雜算法的必備要素。今天的種種人工智能技術(shù)歸根到底都建立在數(shù)學(xué)模型之上，要了解人工智能，首先要掌握必備的數(shù)學(xué)基礎(chǔ)知識(shí)，具體來說包括：

線性代數(shù)：如何將研究對(duì)象形式化？

概率論：如何描述統(tǒng)計(jì)規(guī)律？

數(shù)理統(tǒng)計(jì)：如何以小見大？

最優(yōu)化理論：如何找到最優(yōu)解？

信息論：如何定量度量不確定性？

形式邏輯：如何實(shí)現(xiàn)抽象推理？

01 線性代數(shù)：如何將研究對(duì)象形式化

事實(shí)上，線性代數(shù)不僅僅是人工智能的基礎(chǔ)，更是現(xiàn)代數(shù)學(xué)和以現(xiàn)代數(shù)學(xué)作為主要分析方法的眾多學(xué)科的基礎(chǔ)。從量子力學(xué)到圖像處理都離不開向量和矩陣的使用。而在向量和矩陣背后，線性代數(shù)的核心意義在于提供了?種看待世界的抽象視角：萬事萬物都可以被抽象成某些特征的組合，并在由預(yù)置規(guī)則定義的框架之下以靜態(tài)和動(dòng)態(tài)的方式加以觀察。

著重于抽象概念的解釋而非具體的數(shù)學(xué)公式來看，線性代數(shù)要點(diǎn)如下：線性代數(shù)的本質(zhì)在于將具體事物抽象為數(shù)學(xué)對(duì)象，并描述其靜態(tài)和動(dòng)態(tài)的特性；向量的實(shí)質(zhì)是 n 維線性空間中的靜止點(diǎn)；線性變換描述了向量或者作為參考系的坐標(biāo)系的變化，可以用矩陣表示；矩陣的特征值和特征向量描述了變化的速度與方向。

總之，線性代數(shù)之于人工智能如同加法之于高等數(shù)學(xué)，是一個(gè)基礎(chǔ)的工具集。

02 概率論：如何描述統(tǒng)計(jì)規(guī)律？

除了線性代數(shù)之外，概率論也是人工智能研究中必備的數(shù)學(xué)基礎(chǔ)。隨著連接主義學(xué)派的興起，概率統(tǒng)計(jì)已經(jīng)取代了數(shù)理邏輯，成為人工智能研究的主流工具。在數(shù)據(jù)爆炸式增長(zhǎng)和計(jì)算力指數(shù)化增強(qiáng)的今天，概率論已經(jīng)在機(jī)器學(xué)習(xí)中扮演了核心角色。

同線性代數(shù)一樣，概率論也代表了一種看待世界的方式，其關(guān)注的焦點(diǎn)是無處不在的可能性。頻率學(xué)派認(rèn)為先驗(yàn)分布是固定的，模型參數(shù)要靠最大似然估計(jì)計(jì)算；貝葉斯學(xué)派認(rèn)為先驗(yàn)分布是隨機(jī)的，模型參數(shù)要靠后驗(yàn)概率最大化計(jì)算；正態(tài)分布是最重要的一種隨機(jī)變量的分布。

03 數(shù)理統(tǒng)計(jì)：如何以小見大？

在人工智能的研究中，數(shù)理統(tǒng)計(jì)同樣不可或缺。基礎(chǔ)的統(tǒng)計(jì)理論有助于對(duì)機(jī)器學(xué)習(xí)的算法和數(shù)據(jù)挖掘的結(jié)果做出解釋，只有做出合理的解讀，數(shù)據(jù)的價(jià)值才能夠體現(xiàn)。數(shù)理統(tǒng)計(jì)根據(jù)觀察或?qū)嶒?yàn)得到的數(shù)據(jù)來研究隨機(jī)現(xiàn)象，并對(duì)研究對(duì)象的客觀規(guī)律做出合理的估計(jì)和判斷。

雖然數(shù)理統(tǒng)計(jì)以概率論為理論基礎(chǔ)，但兩者之間存在方法上的本質(zhì)區(qū)別。概率論作用的前提是隨機(jī)變量的分布已知，根據(jù)已知的分布來分析隨機(jī)變量的特征與規(guī)律；數(shù)理統(tǒng)計(jì)的研究對(duì)象則是未知分布的隨機(jī)變量，研究方法是對(duì)隨機(jī)變量進(jìn)行獨(dú)立重復(fù)的觀察，根據(jù)得到的觀察結(jié)果對(duì)原始分布做出推斷。

用一句不嚴(yán)謹(jǐn)?shù)庇^的話講：數(shù)理統(tǒng)計(jì)可以看成是逆向的概率論。數(shù)理統(tǒng)計(jì)的任務(wù)是根據(jù)可觀察的樣本反過來推斷總體的性質(zhì)；推斷的工具是統(tǒng)計(jì)量，統(tǒng)計(jì)量是樣本的函數(shù)，是個(gè)隨機(jī)變量；參數(shù)估計(jì)通過隨機(jī)抽取的樣本來估計(jì)總體分布的未知參數(shù)，包括點(diǎn)估計(jì)和區(qū)間估計(jì)；假設(shè)檢驗(yàn)通過隨機(jī)抽取的樣本來接受或拒絕關(guān)于總體的某個(gè)判斷，常用于估計(jì)機(jī)器學(xué)習(xí)模型的泛化錯(cuò)誤率。

04 最優(yōu)化理論：如何找到最優(yōu)解？

本質(zhì)上講，人工智能的目標(biāo)就是最優(yōu)化：在復(fù)雜環(huán)境與多體交互中做出最優(yōu)決策。幾乎所有的人工智能問題最后都會(huì)歸結(jié)為一個(gè)優(yōu)化問題的求解，因而最優(yōu)化理論同樣是人工智能必備的基礎(chǔ)知識(shí)。最優(yōu)化理論研究的問題是判定給定目標(biāo)函數(shù)的最大值（最小值）是否存在，并找到令目標(biāo)函數(shù)取到最大值（最小值）的數(shù)值。如果把給定的目標(biāo)函數(shù)看成一座山脈，最優(yōu)化的過程就是判斷頂峰的位置并找到到達(dá)頂峰路徑的過程。

通常情況下，最優(yōu)化問題是在無約束情況下求解給定目標(biāo)函數(shù)的最小值；在線性搜索中，確定尋找最小值時(shí)的搜索方向需要使用目標(biāo)函數(shù)的一階導(dǎo)數(shù)和二階導(dǎo)數(shù)；置信域算法的思想是先確定搜索步長(zhǎng)，再確定搜索方向；以人工神經(jīng)網(wǎng)絡(luò)為代表的啟發(fā)式算法是另外一類重要的優(yōu)化方法。

05 信息論：如何定量度量不確定性？

近年來的科學(xué)研究不斷證實(shí)，不確定性就是客觀世界的本質(zhì)屬性。換句話說，上帝還真就擲骰子。不確定性的世界只能使用概率模型來描述，這促成了信息論的誕生。

信息論使用“信息熵”的概念，對(duì)單個(gè)信源的信息量和通信中傳遞信息的數(shù)量與效率等問題做出了解釋，并在世界的不確定性和信息的可測(cè)量性之間搭建起一座橋梁。

總之，信息論處理的是客觀世界中的不確定性；條件熵和信息增益是分類問題中的重要參數(shù)；KL 散度用于描述兩個(gè)不同概率分布之間的差異；最大熵原理是分類問題匯總的常用準(zhǔn)則。

06 形式邏輯：如何實(shí)現(xiàn)抽象推理？

1956 年召開的達(dá)特茅斯會(huì)議宣告了人工智能的誕生。在人工智能的襁褓期，各位奠基者們，包括約翰·麥卡錫、赫伯特·西蒙、馬文·閔斯基等未來的圖靈獎(jiǎng)得主，他們的愿景是讓“具備抽象思考能力的程序解釋合成的物質(zhì)如何能夠擁有人類的心智?！蓖ㄋ椎卣f，理想的人工智能應(yīng)該具有抽象意義上的學(xué)習(xí)、推理與歸納能力，其通用性將遠(yuǎn)遠(yuǎn)強(qiáng)于解決國(guó)際象棋或是圍棋等具體問題的算法。

如果將認(rèn)知過程定義為對(duì)符號(hào)的邏輯運(yùn)算，人工智能的基礎(chǔ)就是形式邏輯；謂詞邏輯是知識(shí)表示的主要方法；基于謂詞邏輯系統(tǒng)可以實(shí)現(xiàn)具有自動(dòng)推理能力的人工智能；不完備性定理向“認(rèn)知的本質(zhì)是計(jì)算”這一人工智能的基本理念提出挑戰(zhàn)。