當前位置:首頁 > 智能硬件 > 人工智能AI
[導讀] 1. 一些基本概念 圖1. 機器學習的基本過程 訓練集(Training Set):為了研究一個變量(x)與另一個變量(y)的關系,而通過觀察、測量等方式獲得的一組數(shù)據(jù)

1. 一些基本概念

圖1. 機器學習的基本過程

訓練集(Training Set):為了研究一個變量(x)與另一個變量(y)的關系,而通過觀察、測量等方式獲得的一組數(shù)據(jù)。這組數(shù)據(jù)中收集了x和與之對應的y——一個數(shù)據(jù)對(x, y)。例如我們要研究房屋面積(x)和售價(y)之間的關系,每觀察一套已出售的房屋,就得到一個數(shù)據(jù)對(x, y)。觀察10套已出售的房屋,就可以得到10個這樣的數(shù)據(jù)對,這時就得到了一個用來研究房屋面積和售價之間的關系的訓練集了(雖然樣本量比較小)。這些數(shù)據(jù)集一般采集自現(xiàn)實環(huán)境中,屬于現(xiàn)象(我們的目的是透過現(xiàn)象看本質)。

樣本(Sample):訓練集中采集數(shù)據(jù)的對象就是一個樣本,例如一套已出售的房屋。

模型(Model):由于某些歷史原因,機器學習中的模型也被叫做假設(hypothesis, h),這個h就是我們透過現(xiàn)象想要尋找的“本質”。建立模型的過程通常就是確定一個函數(shù)表達式的過程(是否還記得寒假作業(yè)中的這類題目:觀察一組數(shù),寫出下一個數(shù)是什么?)。最常見的模型是回歸模型(線性回歸或邏輯回歸等),例如我們假設房屋面積與售價之間的關系是一個線性回歸模型,則可以寫成: h(θ)=θ0+θ1x…(1)h(θ)=θ0+θ1x…(1) 其中h是函數(shù)(可能更習慣叫做y,但在機器學習中y一般表示已知的函數(shù)值,即后面的因變量;這里的h相當于預測得到的y),θ是函數(shù)的參數(shù)(也可以看做是每個自變量的權重,權重越大,對y的影響也越大),x是自變量。

訓練模型(Training Model):選定模型(選擇合適的模型需要豐富的經(jīng)驗)后,函數(shù)的一般形式就確定了。通常所說的訓練模型是指利用訓練集求解函數(shù)的待定參數(shù)的過程。上面的(1)式與直線方程的一般形式y(tǒng) = ax + b是相同的,這里不過換了一種寫法。此時我們知道模型是一條直線,為了確定這條直線的確定方程,我們需要求出兩個未知的參數(shù)——θ0(截距)和θ1(斜率),如果訓練集中只有兩個樣本,那就只是求一個二元二次方程組就解決問題了。

特征(Feature):特征就是在一個模型中,所有想研究的自變量(x)的集合。例如我們在研究房屋售價的模型中,所有可能影響售價的因素都可以看成是一個特征,房屋面積、所在城市、房間個數(shù)等。在建立模型的過程中,特征的選擇是一個大學問,甚至有專門的分支來研究特征選擇或特征表示。

2. 訓練集的表示

上面提到過,訓練集就是許多的(x, y)數(shù)據(jù)對的集合。其中x是因變量,y是自變量。通常認為x的變化引起了y的改變,即x的值決定了y的值。在預測房屋價格的模型中,假如我們能找到所有影響房屋價格的因素(所有的x),并且確定各個因素準確的參數(shù)(θ),那么理論上可以準確的預測出任何房屋的價格(y)。

2.1 單因素訓練集中自變量的表示方法

單因素相當于方程中只有一個自變量,這個自變量可以用一個小寫字母x來表示;

如果收集了多個樣本,則通過在右上角添加帶括號的角標的方式區(qū)分,表示為x(1), x(2), 。。., x(m),其中m表示樣本的個數(shù);

矩陣的表示:向量一般用小寫字母表示,矩陣用大寫字母表示。所有單因素樣本中的x可以用一個m x 1(m行1列)的列向量x(小寫字母)(只有一列的矩陣就是一個列向量)來表示: ???????x=(x(1)x(2)?x(m))

2.2 多因素訓練集中自變量的表示方法

多因素相當于方程中有多個自變量(多個feature),不同的自變量之間使用右下角添加不帶括號的角標來區(qū)分,表示為x1, x2, 。。., xn,其中n表示feature的個數(shù);

當存在多個樣本時,可以用一個m x n(m行n列)的矩陣X(大寫字母)來表示: ?????????X=[x1(1)x2(1)…xn(1)x1(2)x2(2)…xn(2)????x1(m)x2(m)…xn(m)]

2.3 訓練集中因變量的表示方法

無論是單因素還是多因素,每一個樣本中都只包含一個因變量(y),因此只需要區(qū)分不同樣本間的y,y(1), y(2), 。。., y(m),其中m表示樣本的個數(shù);

用列向量y表示為:

???????y=(y(1)y(2)?y(m))

3. 參數(shù)的表示

也許是某種約定,在機器學習中,一般都是用θ來表示參數(shù),參數(shù)是自變量X的參數(shù)(也可以看做是每個自變量的權重,權重越大的自變量對y的影響也越大),理論上,有多少個自變量就有多少個參數(shù),但就像在直線方程y = ax + b中表現(xiàn)出來的那樣,除了x的參數(shù)a,還有一個常數(shù)項b。因此參數(shù)一般比自變量的個數(shù)多一個,當有n個自變量的時候,會有n+1個參數(shù)。

最終的模型是由一個特定的方程來表示的,在訓練模型的過程中,確定了這個方程中的未知參數(shù)。這些參數(shù)對于所有的樣本都是相同的,例如第一個樣本x(1)中的第一個自變量x1的參數(shù)與任意其他樣本x(i)中第一個自變量x1的參數(shù)是相同的。因此不用區(qū)分樣本間的參數(shù),只用區(qū)分不同自變量之間的參數(shù),可以使用一個n+1維的列向量θ來表示所有的參數(shù):

??????θ=(θ0θ1?θn)

4. 模型的表示

這里說的模型就是一個特定的函數(shù),上面已經(jīng)提過,模型一般使用h來表示。下面用線性回歸模型來舉例說明模型的符號表示。

4.1 直接表示

直接表示方法是我們在沒有學習線性代數(shù)之前的代數(shù)表示方式。

單變量線性回歸方程: hθ(x)=θ0+θ1xhθ(x)=θ0+θ1x

多變量線性回歸方程: nhθ(x)=θ0+θ1x1+θ2x2+θ3x3+…+θnxn

4.2 矩陣表示

學習了線性代數(shù)后,可以使用矩陣來表示上面的方程,不僅表示起來方便,直接進行矩陣運算效率也更高效。在這里需要特別說明的一點是,為了配合矩陣的表示,在上面的方程中添加了x0,并且x0=1,且將θ0作為x0的參數(shù)。

單變量/多變量線性回歸方程: ??????hθ(x)=Xθ=[x0(1)x1(1)…xn(1)x0(2)x1(2)…xn(2)????x0(m)x1(m)…xn(m)][θ0θ1?θn] ,此時X是一個m x (n+1)的矩陣,每一行表示一個樣本,每一列表示一個特征,結果是一個m x 1的列向量,其中m表示樣本的個數(shù),n表示變量的個數(shù)(X中的每一列具有同樣的參數(shù),一列表示在不同的樣本中同一個特征的取值);

當只有一個樣本多個變量時,還可以表示為: ??????hθ(x)=θTx=[θ0θ1…θn][x0x1?xn] ,此時x是一個(n+1)維的列向量,每一行表示一個變量的值。

本站聲明: 本文章由作者或相關機構授權發(fā)布,目的在于傳遞更多信息,并不代表本站贊同其觀點,本站亦不保證或承諾內容真實性等。需要轉載請聯(lián)系該專欄作者,如若文章內容侵犯您的權益,請及時聯(lián)系本站刪除。
換一批
延伸閱讀

9月2日消息,不造車的華為或將催生出更大的獨角獸公司,隨著阿維塔和賽力斯的入局,華為引望愈發(fā)顯得引人矚目。

關鍵字: 阿維塔 塞力斯 華為

加利福尼亞州圣克拉拉縣2024年8月30日 /美通社/ -- 數(shù)字化轉型技術解決方案公司Trianz今天宣布,該公司與Amazon Web Services (AWS)簽訂了...

關鍵字: AWS AN BSP 數(shù)字化

倫敦2024年8月29日 /美通社/ -- 英國汽車技術公司SODA.Auto推出其旗艦產(chǎn)品SODA V,這是全球首款涵蓋汽車工程師從創(chuàng)意到認證的所有需求的工具,可用于創(chuàng)建軟件定義汽車。 SODA V工具的開發(fā)耗時1.5...

關鍵字: 汽車 人工智能 智能驅動 BSP

北京2024年8月28日 /美通社/ -- 越來越多用戶希望企業(yè)業(yè)務能7×24不間斷運行,同時企業(yè)卻面臨越來越多業(yè)務中斷的風險,如企業(yè)系統(tǒng)復雜性的增加,頻繁的功能更新和發(fā)布等。如何確保業(yè)務連續(xù)性,提升韌性,成...

關鍵字: 亞馬遜 解密 控制平面 BSP

8月30日消息,據(jù)媒體報道,騰訊和網(wǎng)易近期正在縮減他們對日本游戲市場的投資。

關鍵字: 騰訊 編碼器 CPU

8月28日消息,今天上午,2024中國國際大數(shù)據(jù)產(chǎn)業(yè)博覽會開幕式在貴陽舉行,華為董事、質量流程IT總裁陶景文發(fā)表了演講。

關鍵字: 華為 12nm EDA 半導體

8月28日消息,在2024中國國際大數(shù)據(jù)產(chǎn)業(yè)博覽會上,華為常務董事、華為云CEO張平安發(fā)表演講稱,數(shù)字世界的話語權最終是由生態(tài)的繁榮決定的。

關鍵字: 華為 12nm 手機 衛(wèi)星通信

要點: 有效應對環(huán)境變化,經(jīng)營業(yè)績穩(wěn)中有升 落實提質增效舉措,毛利潤率延續(xù)升勢 戰(zhàn)略布局成效顯著,戰(zhàn)新業(yè)務引領增長 以科技創(chuàng)新為引領,提升企業(yè)核心競爭力 堅持高質量發(fā)展策略,塑強核心競爭優(yōu)勢...

關鍵字: 通信 BSP 電信運營商 數(shù)字經(jīng)濟

北京2024年8月27日 /美通社/ -- 8月21日,由中央廣播電視總臺與中國電影電視技術學會聯(lián)合牽頭組建的NVI技術創(chuàng)新聯(lián)盟在BIRTV2024超高清全產(chǎn)業(yè)鏈發(fā)展研討會上宣布正式成立。 活動現(xiàn)場 NVI技術創(chuàng)新聯(lián)...

關鍵字: VI 傳輸協(xié)議 音頻 BSP

北京2024年8月27日 /美通社/ -- 在8月23日舉辦的2024年長三角生態(tài)綠色一體化發(fā)展示范區(qū)聯(lián)合招商會上,軟通動力信息技術(集團)股份有限公司(以下簡稱"軟通動力")與長三角投資(上海)有限...

關鍵字: BSP 信息技術
關閉
關閉