巨量資料分析方法真的能克服癌癥基因組嗎?
在日前一場(chǎng)由美國(guó)加州大學(xué)柏克萊分校舉辦的年度大會(huì)上,研究人員們展示其于加速癌癥基因療法以及擴(kuò)展電腦理論領(lǐng)域的研究方面所取得的進(jìn)步。加州大學(xué)柏克萊分校電腦科學(xué)系教授David A.Patterson呼吁,業(yè)界應(yīng)共同利用百萬(wàn)個(gè)基因庫(kù)以推動(dòng)癌癥治療的工作。目前彼此獨(dú)立的基因庫(kù)擁有不到1萬(wàn)件基因資訊,其中有許多還只是基因的部份片段。
“目前可說(shuō)是藉由電腦科學(xué)來(lái)建立快速且精確的基因管線,并促進(jìn)個(gè)人化治療的大好時(shí)機(jī),我希望能盡快利用這個(gè)來(lái)幫助我和我的家庭,”Patterson并透露,目前研究人員們經(jīng)常在完成實(shí)驗(yàn)后刪除基因資料。
電腦科學(xué)家David Patterson期望透過(guò)巨量資料分析方法克服癌癥基因組的問(wèn)題。
Patterson協(xié)助開(kāi)發(fā)了一款名為SNAP的工具,這款工具明顯提供了更快且更精確地基因分析,目前也已被癌癥研究人員所廣泛使用。不過(guò),仍然需要基準(zhǔn)工具來(lái)改善在目前這一領(lǐng)域中所使用仍然具有高度主觀性的方法,他指出。
另外,加州大學(xué)準(zhǔn)備花費(fèi)6,000萬(wàn)美元成立一所新的學(xué)院,期望未來(lái)的十年內(nèi)能在電腦科學(xué)上實(shí)現(xiàn)新的突破。“我們想要開(kāi)發(fā)出一種新的運(yùn)算理論,它將遠(yuǎn)遠(yuǎn)超出目前的研究范疇,并涵蓋其它領(lǐng)域中的問(wèn)題,”指導(dǎo)這項(xiàng)工作的Richard Karp表示。
“許多現(xiàn)象可被視為具有運(yùn)算特性的,”他指出,”如果仔細(xì)觀察活細(xì)胞的作業(yè)方式,我們可以把它想像為一種資訊處理;而經(jīng)濟(jì)也是一種資訊處理的活動(dòng)。”
該校還將在今年5月舉辦一場(chǎng)學(xué)術(shù)研討會(huì),以聚集各界的專(zhuān)家共同研究新理論的可能性。
利用巨量資料治療癌癥
Patterson的目標(biāo)在于利用柏克萊分校正開(kāi)發(fā)中的巨量資料工具,使其得以導(dǎo)入分析癌癥研究的大量基因資料。
這些工具套件包含Spark——一種用于電腦叢集的程式語(yǔ)言,可提供類(lèi)似谷歌(Google)搜尋引擎使用的Map Reduce功能。柏克萊分析資料分析系統(tǒng)(Data AnalyTIcs System)就是一種基于Spark的開(kāi)放源碼引擎。
柏克萊實(shí)驗(yàn)室(Berkeley Lab)的科學(xué)家們已經(jīng)利用演算法和運(yùn)算管線,詳細(xì)整理出大量的影像組合,并找出腫瘤的次型態(tài)。它還可分析出異質(zhì)性或腫瘤在不同程度時(shí)所包含的組織結(jié)構(gòu)。接著,該運(yùn)算管線可使用臨床資料進(jìn)行細(xì)胞特征排序,以預(yù)測(cè)病患的預(yù)后。同時(shí),它還使用了大規(guī)模的基因組資料,透過(guò)巨量資料分析以確定每一種次型態(tài)的分子相關(guān)性。
研究人員們開(kāi)發(fā)出可自動(dòng)分析大量腫瘤影像的方法,有助于預(yù)測(cè)癌癥治療的反應(yīng)。箭頭處放大該腫瘤影像中明顯不同的區(qū)域。(來(lái)源:Berkeley Labs)
目前,巨量資料研究的挑戰(zhàn)在于開(kāi)發(fā)出一種技術(shù),能夠針對(duì)巨量資料問(wèn)題取得及時(shí)且具成本效益的答案。柏克萊分校的研究團(tuán)隊(duì)正透過(guò)幾項(xiàng)行動(dòng)來(lái)解決這一挑戰(zhàn):開(kāi)發(fā)基于統(tǒng)計(jì)機(jī)器學(xué)習(xí)的演算法;利用云端中的多臺(tái)機(jī)器;以及發(fā)展集資技術(shù),結(jié)合群眾之力協(xié)助回答對(duì)于其演算法與機(jī)器來(lái)說(shuō)太困難的問(wèn)題。
透過(guò)這些技術(shù)將有助于突破對(duì)于癌癥的治療。為了實(shí)現(xiàn)更快且更具成本效率地處理基因組資料,目前需要的是一個(gè)能夠同時(shí)使用云端機(jī)器的全新基礎(chǔ)架構(gòu)。而當(dāng)有關(guān)癌癥基因的發(fā)現(xiàn)與診斷問(wèn)題超越這些演算法與機(jī)器時(shí),還需要集合眾人的資源與智慧共同克服挑戰(zhàn)。