當(dāng)前位置:首頁(yè) > 測(cè)試測(cè)量 > 測(cè)試測(cè)量
[導(dǎo)讀]摘要:由于基因表達(dá)譜數(shù)據(jù)的高噪聲、高維性、高冗余以及數(shù)據(jù)分布不均勻等特點(diǎn)使得在分析過(guò)程中仍然有很多挑戰(zhàn)性問(wèn)題?;谠撃康模瑢⒁环N無(wú)監(jiān)督學(xué)習(xí)方法--非負(fù)矩陣分解方法,應(yīng)用到基因表達(dá)譜數(shù)據(jù)中,挖掘出與AD相關(guān)

摘要:由于基因表達(dá)譜數(shù)據(jù)的高噪聲、高維性、高冗余以及數(shù)據(jù)分布不均勻等特點(diǎn)使得在分析過(guò)程中仍然有很多挑戰(zhàn)性問(wèn)題?;谠撃康?,將一種無(wú)監(jiān)督學(xué)習(xí)方法--非負(fù)矩陣分解方法,應(yīng)用到基因表達(dá)譜數(shù)據(jù)中,挖掘出與AD相關(guān)的信息基因。然而標(biāo)準(zhǔn)NMF算法其效率較低,并且在基因表達(dá)數(shù)據(jù)的應(yīng)用有效性低。為了適應(yīng)該領(lǐng)域的需求,采用了Alpha-NMF算法。該算法能夠有效的克服標(biāo)準(zhǔn)NMF算法的缺陷,獲得較好的實(shí)驗(yàn)結(jié)果。多次運(yùn)行Alpha-NMF算法,選取分類準(zhǔn)確率和穩(wěn)定性最優(yōu)的實(shí)驗(yàn)結(jié)果,對(duì)其集合基因設(shè)定一閾值,篩選出集合基因中大于該閾值的信息基因。最后通過(guò)基因功能分類以及生物功能結(jié)構(gòu)圖來(lái)驗(yàn)證所捉煉出的特異性基因的有用性和可靠性。
關(guān)鍵詞:無(wú)監(jiān)督學(xué)習(xí);阿爾茨海默病;非負(fù)矩陣分解(NMF);基因表達(dá)譜數(shù)據(jù);Alpha-NMF

    阿爾茨海默病(Alzheimer disease,AD)是德國(guó)神經(jīng)病學(xué)家Alois Alzheimer于1907年首次對(duì)一位51歲的病人描述的,至今對(duì)AD的認(rèn)識(shí)和研究已經(jīng)進(jìn)行了100余年了。它是老年人中最常見(jiàn)的神經(jīng)退行性疾病之一,其臨床特點(diǎn)是隱襲起病,逐漸出現(xiàn)記憶力減退、認(rèn)知功能障礙、行為異常和社交障礙。65歲以上老年癡呆人群中超過(guò)55%的病例是阿爾茨海默病。隨著全球人口的老齡化,癡呆患病人數(shù)大量增加,阿爾茨海默病已經(jīng)成為人類共同面臨的嚴(yán)峻挑戰(zhàn)。
    DNA微陣列技術(shù)能夠?qū)Υ罅康幕蜻M(jìn)行同步、快速測(cè)量,同時(shí)提供成千上萬(wàn)條基因的表達(dá)水平,使得生物學(xué)家能夠在基因組層次上研究任何種類細(xì)胞在任意給定時(shí)間、任意給定條件下的基因表達(dá)模式。由于基因表達(dá)譜數(shù)據(jù)的高噪聲、高維性、高冗余以及數(shù)據(jù)分布不均勻等特點(diǎn)使得在分析過(guò)程中仍然有很多挑戰(zhàn)性問(wèn)題。
    非負(fù)矩陣分解(non-negative matrix factorization,NMF)方法由Lee和Seung在一篇關(guān)于無(wú)監(jiān)督學(xué)習(xí)的文章中提出的一種新的矩陣分解方法。該方法在矩陣分解過(guò)程中對(duì)矩陣元素進(jìn)行非負(fù)約束,在實(shí)際應(yīng)用中具有明確的物理意義。相比一些傳統(tǒng)的算法,NMF具有實(shí)現(xiàn)簡(jiǎn)便,分解形式和分解結(jié)果可解釋性強(qiáng)等靖多優(yōu)點(diǎn)。NMF算法被提出后,隨著研究的不斷深入,為了適應(yīng)不同領(lǐng)域的要求,一些研究者設(shè)計(jì)了基于多種目標(biāo)函數(shù)的算法對(duì)標(biāo)準(zhǔn)NMF算法進(jìn)行改進(jìn)。目前,應(yīng)用比較頻繁的有釋疏非負(fù)矩陣分解(sparse non-negativematrix factorization,SNMF)、非平滑非負(fù)矩陣分解(non-smoothnon-negative matrix factorization,NSNMF)以及加權(quán)非負(fù)矩陣分解(weighted non-negative matrix factorization,WNMF)等。NMF已運(yùn)漸應(yīng)用于語(yǔ)音信號(hào)處理、模式識(shí)別、圖像分析等研究領(lǐng)域中,并且獲得了很好的效果。相信不久的將來(lái),NMF能夠適應(yīng)于更多領(lǐng)域的需求。

1 非負(fù)矩陣分解算法原里
    NMF理論上是利用非負(fù)約束條件來(lái)獲取數(shù)據(jù)表示的一種方法。NMF問(wèn)題可以描述為:已知非負(fù)矩陣Vnxm,找到一個(gè)非負(fù)矩陣Wnxr和Hrxm一個(gè)非負(fù)矩陣,使得:
    V≈WH     (1)
    此時(shí)矩陣V中的列向量可以近似地看作是非負(fù)矩陣W的列向量的非負(fù)線性組合,組合系數(shù)為hj的分量。因此矩陣W=(w1,…,wr)可以看成是對(duì)V進(jìn)行線性估計(jì)的一組基,而H則是V在基W上的非負(fù)投影系數(shù)。
1.1 基本NMF算法
    根據(jù)NMF理論的數(shù)學(xué)模型,必須找到一個(gè)分解過(guò)程V≈WH,使得WH盡量逼近V,可以定義一個(gè)目標(biāo)函數(shù)來(lái)保證逼近的效果。目標(biāo)函數(shù)可以利用某些距離的測(cè)量來(lái)獲得,通常使用的目標(biāo)函數(shù)是歐式距離,即:
   
    當(dāng)且僅當(dāng)V=WH時(shí)取最小值為0。因此NMF問(wèn)題可以轉(zhuǎn)化為優(yōu)化問(wèn)題用迭代方法交替求解W和H。雖然式(2)對(duì)于單獨(dú)的W和H來(lái)講均是凸函數(shù),但是同時(shí)對(duì)于W和H卻不是凸函數(shù),因此找剄一個(gè)全局最優(yōu)解是不太現(xiàn)實(shí)的,但可以尋找一個(gè)局都最優(yōu)解。NMF算法可以定義為如下優(yōu)化問(wèn)題:最小化‖V-WH‖2,交替更新W,H。最簡(jiǎn)單易行的更新方法就是梯度下降法,但是其收斂速度非常緩慢。更新規(guī)則如下:
    
    定理1:在(3)迭代規(guī)則下,歐式距離‖V-WH‖2是單調(diào)不增的,如果當(dāng)W和H的值是固定的,‖V-WH‖2保持不變。
1.2 Alpha-NMF算法
    Alpha-NMF算法是NMF算法的一種改進(jìn),它是針對(duì)信號(hào)處理所提出的一種新的算法。
    Alpha-NMF算法的數(shù)學(xué)模型為:


2 非負(fù)矩陣分解在基因表達(dá)譜數(shù)據(jù)中的應(yīng)用
2.1 數(shù)據(jù)預(yù)處理
    文中所選的實(shí)驗(yàn)數(shù)據(jù)為基因表達(dá)綜合數(shù)據(jù)庫(kù)(GEO)中23組大腦海馬區(qū)域(HIP)和23組內(nèi)嗅區(qū)皮質(zhì)(EC)的AD樣本,54 675個(gè)基因表達(dá)數(shù)據(jù);其中海馬區(qū)域的基因數(shù)據(jù)集由13個(gè)control AD樣本和10個(gè)affected AD樣本組成,內(nèi)鼻皮質(zhì)區(qū)域的基因數(shù)據(jù)集由13個(gè)control AD樣本和10個(gè)affectedAD樣本組成。由于基因表達(dá)譜數(shù)據(jù)的復(fù)雜性,在進(jìn)行聚類分析前必須先進(jìn)行預(yù)處理和數(shù)據(jù)轉(zhuǎn)換等過(guò)程。本文先采用小波變換(wave let transform,WT)方法對(duì)數(shù)據(jù)進(jìn)行降噪,然后通過(guò)微陣列顯著性分析(significance analysis of microarrays,SAM)工具箱篩選出顯著變化的上下調(diào)基因。
2.2 Alpha-NMF算法應(yīng)用于基因表達(dá)譜數(shù)據(jù)
    Alpha-NMF算法被提出后,至今還設(shè)被應(yīng)用于基因表達(dá)數(shù)據(jù)中,通過(guò)大量的實(shí)驗(yàn),證明了Alpha-NMF算法能夠有效的應(yīng)用到該領(lǐng)域中,相比傳統(tǒng)NMF算法,其算法穩(wěn)定性和分類準(zhǔn)確率明顯較高。
    基因表達(dá)譜數(shù)據(jù)的Alpha-NMF混合模型如圖1所示。Y表示mxn維基因表達(dá)譜數(shù)據(jù),每一行表示一個(gè)樣本集,每一列表示一個(gè)基因在不同條件下的表達(dá)水平。yij表示第j個(gè)基因在條件i下的表達(dá)水平。通常nm。


    任一樣本yi可以表示為:
   
    也就是說(shuō)每一個(gè)樣本可以近似看做是非負(fù)矩陣X的行向量的非負(fù)線性組合,組合系數(shù)是矩陣A對(duì)應(yīng)行向量的分量。把分解后的矩陣X的每一行稱為一個(gè)集合基因。矩陣A的第k列為X的第k個(gè)集合基因的系數(shù),若矩陣X能表征原始數(shù)據(jù)的局部特征,則系數(shù)矩陣A與樣本類別緊密相關(guān),即類別c1對(duì)于特征k的貢獻(xiàn)大,而c2對(duì)于特征k的貢獻(xiàn)小。對(duì)于每一個(gè)集合基因(圖2為HIP數(shù)據(jù)經(jīng)Alpha-NMF算法,α=0.5時(shí)分解后相關(guān)系數(shù)為0.97集合基因的柱狀圖),若元素的值相對(duì)較大,說(shuō)明其對(duì)應(yīng)的基因j與AD緊密相關(guān)。



3 實(shí)驗(yàn)結(jié)果與分析
    首先采用WT-SAM方法分別對(duì)HIP和EC數(shù)據(jù)進(jìn)行預(yù)處理,篩選后的基因數(shù)分別為13 587個(gè)、6 567個(gè),再對(duì)數(shù)據(jù)進(jìn)行菲負(fù)化處理,然后通過(guò)Alphs-NMF算法進(jìn)行分解,利用分解后的A矩陣進(jìn)行聚類,本文采用k均值聚類方法對(duì)A的行向量進(jìn)行聚類,得到一聚類結(jié)果。對(duì)于矩陣X,設(shè)定一閾值,篩選出集合基因中大于該閾值的信息基因。
    由于NMF算法受初值和維數(shù)r的影響,因此對(duì)每組實(shí)驗(yàn)分別取r=2,3,4,5時(shí)運(yùn)行NMF算法20次。為了衡量由于r值選取不同導(dǎo)致的聚類的穩(wěn)定性問(wèn)題,定義了一個(gè)共表型相關(guān)系數(shù)(圖3分類穩(wěn)定性比較),共表型相關(guān)系數(shù)越接近于1,分類越穩(wěn)定。


    觀察圖3和圖4的結(jié)果,通過(guò)比較可以發(fā)現(xiàn),隨著r的增加,其相關(guān)系數(shù)和分類正確率普遍降低,當(dāng)r=2時(shí),其分類穩(wěn)定性和識(shí)別正確率明顯高于r=3,4,5時(shí)的情況。此時(shí),Alpha-NMF算法相比標(biāo)準(zhǔn)NMF算法具有較高的分類準(zhǔn)確性和穩(wěn)定性。尤其當(dāng)α=0.5時(shí),效果最佳。因此,選擇Alpha-NMF算法α=0.5,r=2處理后的集合基因,如圖2所示,選擇某一閾值(此處閾值為50),可以分別提煉出268個(gè)(HIP)、172(EC)個(gè)探針表達(dá)變化具有顯著差異。

4 討論
4.1 特異性基因及其功能分類
    將上節(jié)提煉出的探針號(hào)與AD基因組進(jìn)行比對(duì),共確定有320個(gè)基因?yàn)樘禺愋曰?。這些基因主要于細(xì)胞信號(hào)傳導(dǎo)、物質(zhì)代謝、物質(zhì)傳輸?shù)壬镞^(guò)程有關(guān)。
    MiMI(Michigan Molecular Interactions)是國(guó)家衛(wèi)生研究所疾病預(yù)防控制綜合生物情報(bào)中心中的一部分。它可以提供蛋白質(zhì)間的相互作用,并且利用這些數(shù)據(jù)進(jìn)行融合,集合成一個(gè)復(fù)雜的網(wǎng)絡(luò);還能檢索大量基因的生物功能。
    使用MiMI對(duì)上上述特異性基因進(jìn)行功能分類,其中有88基爵在GO(Gene Ontology)上沒(méi)有注釋,因此沒(méi)有對(duì)其分類,僅對(duì)其余的232個(gè)基因進(jìn)行分類,根據(jù)分類結(jié)果,主要分為以下幾類:1)物質(zhì)代謝過(guò)程;包括蛋白質(zhì)代謝、細(xì)胞氮化合物代謝、核苷酸代謝;2)細(xì)胞周期過(guò)程,包括細(xì)胞形態(tài)發(fā)生和發(fā)展、細(xì)胞自動(dòng)調(diào)節(jié)機(jī)能、生殖細(xì)胞形成;3)定位過(guò)程,包括蛋白質(zhì)定位、細(xì)胞定位、大分子定位;4)細(xì)胞成分組織,包括細(xì)胞內(nèi)大分子聚集、細(xì)胞膜組織以及細(xì)胞內(nèi)各器官組織;5)生物合成過(guò)程,包括核苷酸合成、小分子合成;6)基因表達(dá)、轉(zhuǎn)錄、翻譯;7)神經(jīng)系統(tǒng)調(diào)節(jié),包括神經(jīng)元的形成、神經(jīng)突觸傳導(dǎo)、神經(jīng)元變異、神經(jīng)傳導(dǎo)素生成及傳輸;8)細(xì)胞凋亡;9)物質(zhì)運(yùn)輸,包括ATP水解耦合質(zhì)子運(yùn)輸、陽(yáng)離子運(yùn)輸、胞內(nèi)蛋白質(zhì)運(yùn)輸、離子跨膜運(yùn)輸。上述基因功能分類如表1所示。


4.2 利用Cytoscape工具構(gòu)建基因功能結(jié)構(gòu)圖
    BiNGO是Cytoscape里的一個(gè)插件,它讓Cytoscape鏈接到Gene Ontology,使每個(gè)基因賦予注釋,構(gòu)建基于目的的基因功能的結(jié)構(gòu)圖。
將232個(gè)特異性基因提交給BINGO,輸出一幅包含123個(gè)節(jié)點(diǎn)和165條邊的結(jié)構(gòu)圖,基因功能結(jié)構(gòu)圖中每個(gè)節(jié)點(diǎn)表示一個(gè)生物過(guò)程,每一條邊表示生物功能間的關(guān)系。其中節(jié)點(diǎn)的大小表示與該過(guò)程相關(guān)的基因占232個(gè)信息基因的比例,點(diǎn)的顏色與p-value相關(guān),顏色越深表示p-value越大,也就是說(shuō)該節(jié)點(diǎn)顯著過(guò)表達(dá)。如圖5所示,可以發(fā)現(xiàn),提取的232個(gè)基因主要在細(xì)胞周期過(guò)程、定位過(guò)程及傳輸過(guò)程等生物過(guò)程上顯著過(guò)表達(dá);在生物合成、代謝過(guò)程和一些與神經(jīng)系統(tǒng)相關(guān)的生物過(guò)程也有一定程度的顯著過(guò)表達(dá)。這些特異性基因有的與AB的聚集有關(guān),有的與神經(jīng)遞質(zhì)的傳輸有關(guān)或與神經(jīng)元的形成發(fā)展有關(guān),還有的與金屬的代謝相關(guān),它們都能伴隨著細(xì)胞的炎癥反應(yīng),導(dǎo)致神經(jīng)元損害,引起記憶
減退和認(rèn)知障礙,產(chǎn)生癡呆癥狀。



5 結(jié)論
    通過(guò)以上的實(shí)驗(yàn)和闡述可以看出,Alpha-NMF算法較傳統(tǒng)NMF算法具有較高的分類準(zhǔn)確性和穩(wěn)定性,算法的運(yùn)算速度也有較大的提高。由Alpha-NMF算法處理后所提煉出來(lái)的特異性基因具有顯著差異表達(dá),并且它能提煉出目前確定與AD致病相關(guān)的基因(APP)。通過(guò)構(gòu)建基因功能結(jié)構(gòu)圖,加深了對(duì)生物過(guò)程的理解,從而為生物學(xué)實(shí)驗(yàn)的驗(yàn)證提供的明確的方向。

本站聲明: 本文章由作者或相關(guān)機(jī)構(gòu)授權(quán)發(fā)布,目的在于傳遞更多信息,并不代表本站贊同其觀點(diǎn),本站亦不保證或承諾內(nèi)容真實(shí)性等。需要轉(zhuǎn)載請(qǐng)聯(lián)系該專欄作者,如若文章內(nèi)容侵犯您的權(quán)益,請(qǐng)及時(shí)聯(lián)系本站刪除。
換一批
延伸閱讀

9月2日消息,不造車的華為或?qū)⒋呱龈蟮莫?dú)角獸公司,隨著阿維塔和賽力斯的入局,華為引望愈發(fā)顯得引人矚目。

關(guān)鍵字: 阿維塔 塞力斯 華為

倫敦2024年8月29日 /美通社/ -- 英國(guó)汽車技術(shù)公司SODA.Auto推出其旗艦產(chǎn)品SODA V,這是全球首款涵蓋汽車工程師從創(chuàng)意到認(rèn)證的所有需求的工具,可用于創(chuàng)建軟件定義汽車。 SODA V工具的開(kāi)發(fā)耗時(shí)1.5...

關(guān)鍵字: 汽車 人工智能 智能驅(qū)動(dòng) BSP

北京2024年8月28日 /美通社/ -- 越來(lái)越多用戶希望企業(yè)業(yè)務(wù)能7×24不間斷運(yùn)行,同時(shí)企業(yè)卻面臨越來(lái)越多業(yè)務(wù)中斷的風(fēng)險(xiǎn),如企業(yè)系統(tǒng)復(fù)雜性的增加,頻繁的功能更新和發(fā)布等。如何確保業(yè)務(wù)連續(xù)性,提升韌性,成...

關(guān)鍵字: 亞馬遜 解密 控制平面 BSP

8月30日消息,據(jù)媒體報(bào)道,騰訊和網(wǎng)易近期正在縮減他們對(duì)日本游戲市場(chǎng)的投資。

關(guān)鍵字: 騰訊 編碼器 CPU

8月28日消息,今天上午,2024中國(guó)國(guó)際大數(shù)據(jù)產(chǎn)業(yè)博覽會(huì)開(kāi)幕式在貴陽(yáng)舉行,華為董事、質(zhì)量流程IT總裁陶景文發(fā)表了演講。

關(guān)鍵字: 華為 12nm EDA 半導(dǎo)體

8月28日消息,在2024中國(guó)國(guó)際大數(shù)據(jù)產(chǎn)業(yè)博覽會(huì)上,華為常務(wù)董事、華為云CEO張平安發(fā)表演講稱,數(shù)字世界的話語(yǔ)權(quán)最終是由生態(tài)的繁榮決定的。

關(guān)鍵字: 華為 12nm 手機(jī) 衛(wèi)星通信

要點(diǎn): 有效應(yīng)對(duì)環(huán)境變化,經(jīng)營(yíng)業(yè)績(jī)穩(wěn)中有升 落實(shí)提質(zhì)增效舉措,毛利潤(rùn)率延續(xù)升勢(shì) 戰(zhàn)略布局成效顯著,戰(zhàn)新業(yè)務(wù)引領(lǐng)增長(zhǎng) 以科技創(chuàng)新為引領(lǐng),提升企業(yè)核心競(jìng)爭(zhēng)力 堅(jiān)持高質(zhì)量發(fā)展策略,塑強(qiáng)核心競(jìng)爭(zhēng)優(yōu)勢(shì)...

關(guān)鍵字: 通信 BSP 電信運(yùn)營(yíng)商 數(shù)字經(jīng)濟(jì)

北京2024年8月27日 /美通社/ -- 8月21日,由中央廣播電視總臺(tái)與中國(guó)電影電視技術(shù)學(xué)會(huì)聯(lián)合牽頭組建的NVI技術(shù)創(chuàng)新聯(lián)盟在BIRTV2024超高清全產(chǎn)業(yè)鏈發(fā)展研討會(huì)上宣布正式成立。 活動(dòng)現(xiàn)場(chǎng) NVI技術(shù)創(chuàng)新聯(lián)...

關(guān)鍵字: VI 傳輸協(xié)議 音頻 BSP

北京2024年8月27日 /美通社/ -- 在8月23日舉辦的2024年長(zhǎng)三角生態(tài)綠色一體化發(fā)展示范區(qū)聯(lián)合招商會(huì)上,軟通動(dòng)力信息技術(shù)(集團(tuán))股份有限公司(以下簡(jiǎn)稱"軟通動(dòng)力")與長(zhǎng)三角投資(上海)有限...

關(guān)鍵字: BSP 信息技術(shù)
關(guān)閉
關(guān)閉