云計算提速人工智能輔助藥物發(fā)現(xiàn)(AIDD),藥物研發(fā)全面步入“AI時代”
2020年底,DeepMind旗下人工智能(AI)系統(tǒng)AlphaFold在蛋白質(zhì)分子結(jié)構(gòu)預(yù)測領(lǐng)域取得了史無前例的進步。這不僅有力推動了生命科學(xué)領(lǐng)域的發(fā)展,也愈發(fā)印證了具備掌握“暗知識”能力的AI能夠助力人們直接跳過在“未知”暗箱中摸索的過程,而直接抵達“新知”的彼岸。
因此,也就不難理解近年來日漸成熟且炙手可熱的人工智能輔助藥物發(fā)現(xiàn) (以下稱AIDD: AI Drug Design)為何在短短數(shù)年間就從萌芽發(fā)展到幾乎參與從藥物靶點發(fā)現(xiàn)到臨床試驗等藥物研發(fā)的全流程。尤其面對新藥研發(fā)中的靶點篩選、化合物發(fā)現(xiàn)等存在人類認知盲區(qū)的環(huán)節(jié),AIDD正在顯著降低對專家知識和海量數(shù)據(jù)的苛求,并有望改變新藥研發(fā)“九死一生”的困局。
除了AI技術(shù)自身進步之外,AIDD的快速普及也離不開“生逢其時”——成熟的云計算技術(shù)也恰到其處為AIDD提供必需的數(shù)字化基礎(chǔ)設(shè)施和能力,讓藥企得以迅速突破存儲、算力、機器學(xué)習模型等數(shù)字化瓶頸,使AIDD得以成為高效的常態(tài)化工具。例如,在新冠疫苗研發(fā)中,莫德納(Moderna)通過在亞馬遜云科技平臺構(gòu)建的機器學(xué)習能力,2 天內(nèi)就完成了 mRNA COVID-19 疫苗的序列,25天就發(fā)布了第一個臨床批次。由此預(yù)示著藥物研發(fā)正全面步入“AI時代”。
AIDD帶來藥物研發(fā)大提速
新藥研發(fā)一直是人類科研領(lǐng)域中極具風險和復(fù)雜度、且耗時最漫長的技術(shù)研究領(lǐng)域之一。根據(jù)《自然》(Nature)雜志的數(shù)據(jù)顯示,一款新藥的整體成本大約是26億美元,耗時約10年,成功率卻不到十分之一。
自20世紀90年代中期,計算機輔助藥物研發(fā)(CADD: Computer Aided Drug Design)開始被使用并逐漸成為藥企的主流數(shù)字化輔助技術(shù)。但CADD的能力局限于對已有的知識和數(shù)據(jù)的篩選與優(yōu)化,其作用更多是對人力的“替代”而非“突破”,因此無法觸達人類尚未涉足的認知盲區(qū)。
相較之下,AIDD能夠充分探索未知的分子結(jié)構(gòu)空間,生成現(xiàn)有經(jīng)驗與數(shù)據(jù)之外的全新分子化合物結(jié)構(gòu),給藥物研發(fā)帶來了真正的顛覆性變革。通過將AI所擁有的機器學(xué)習、深度學(xué)習、圖像識別、認知計算等能力嵌入藥物研發(fā)各環(huán)節(jié),可預(yù)測識別更為準確的疾病靶點,并基于濕實驗及CADD模擬數(shù)據(jù)進行新藥分子設(shè)計、化合物活性評價、毒性評價等研發(fā)過程,大幅降低了對數(shù)據(jù)量和專家知識的依賴。
AIDD最直觀的價值還在于顯著減少傳統(tǒng)藥物研發(fā)的高昂資金和時間成本,給研發(fā)效率帶來巨大飛躍。據(jù)Exscientia Company Deck數(shù)據(jù)顯示,使用AI技術(shù)可以減少約35%的新藥研發(fā)成本,研發(fā)周期也縮短到了1-2年。
云計算推進AIDD成為常態(tài)化工具
2021年,亞馬遜云科技客戶、AI藥物研發(fā)公司英矽智能宣布了全球第一款由AI發(fā)現(xiàn)并設(shè)計的用于特發(fā)性肺纖維化治療的候選藥物已進入臨床試驗階段。從靶點發(fā)現(xiàn)到化合物驗證,英矽智能用時不到18個月,花費僅260萬美元,降低了約99%的新藥研發(fā)計算成本。
英矽智能的藥物發(fā)現(xiàn)引擎建立在亞馬遜云科技平臺之上,是公司產(chǎn)品組合的核心。該引擎使用數(shù)百萬個數(shù)據(jù)樣本和多種數(shù)據(jù)類型來發(fā)現(xiàn)疾病生物標志物,確定最有希望的靶點,并設(shè)計具有特定屬性的小分子化合物。
由于英矽智能的人工智能平臺要處理大量的實驗和文本數(shù)據(jù),所以對于圖形處理器 (GPU) 的要求很高。英矽智能的AI工具如PandaOmics?和Chemistry42?都運行于Amazon Elastic Compute Cloud(),以獲得具有極具靈活性和可擴展性的云端服務(wù)器而無需維護龐大的本地計算集群。另外,英矽智能還使用了對象存儲服務(wù)Amazon Simple Storage Service (Amazon S3)存儲相關(guān)數(shù)據(jù),使其分布于6個國家的團隊能夠輕松訪問所需數(shù)據(jù)并進行跨國合作。
成熟、易用且“AI友好”的云平臺為各行業(yè)創(chuàng)造了邁入AI時代的“捷徑”。到目前為止,云上超過75%的人工智能應(yīng)用都基于亞馬遜云科技平臺開發(fā),也使亞馬遜云科技積累了豐富的人工智能和機器學(xué)習技術(shù)和成功經(jīng)驗。對于AIDD所必需的算力、算法、數(shù)據(jù)三大數(shù)字化基礎(chǔ)及安全合規(guī)要求,亞馬遜云科技都能提供完善的服務(wù)與技術(shù)支撐:
無需初期基礎(chǔ)架構(gòu)投入,即可獲得AIDD所需的高性能GPU/ CPU算力,且按需付費;
提供大量的訓(xùn)練推理和部署工具,支持多種深度學(xué)習框架。機構(gòu)和人員無需深入了解相關(guān)知識即可以快速展開研發(fā)和試驗;
亞馬遜云科技Marketplace提供數(shù)百種算法和模型。亞馬遜公開數(shù)據(jù)集中也提供多種藥物研發(fā)所需的科學(xué)數(shù)據(jù),如ChEMBL,ZINC與Open Target等。
亞馬遜云科技的云基礎(chǔ)設(shè)施通過全球98項安全合規(guī)認證,并遵循和支持超過全球50種生命科學(xué)合規(guī)規(guī)范,包括GxP、HIPAA,、HITRUST,以及獲得《中國人類遺傳資源管理條例》中方單位認證,使團隊、機構(gòu)之間可進行安全無憂的數(shù)據(jù)合作。
據(jù)不完全統(tǒng)計,全球已經(jīng)有近40款以上利用AI涉及的藥物管線已經(jīng)步入了臨床階段。隨著AIDD得到廣泛應(yīng)用,已有國內(nèi)外的眾多企業(yè)選擇亞馬遜云科技作為部署AIDD的云計算平臺。而亞馬遜云科技不僅能提供AIDD所需的云上基礎(chǔ)設(shè)施,還可直接助力AI工具的開發(fā)和使用,或者使用亞馬遜云科技多達92種生命科學(xué)公開數(shù)據(jù)集快速進入模型訓(xùn)練。
近年來,基于亞馬遜云科技,阿斯利康開發(fā)了由機器學(xué)習驅(qū)動的病理圖像識別檢測模型,用于替代以往在候選藥物研發(fā)時以人工進行樣本編目的方式。借助Amazon SageMaker Ground Truth,阿斯利康能夠快速注釋、收集和分類訓(xùn)練樣本,并形成可用于模型訓(xùn)練的數(shù)據(jù)集,而所用的時間僅為之前的50%。
除了節(jié)省時間和人力成本,使用數(shù)據(jù)集訓(xùn)練的模型還幫助研發(fā)人員獲得更準確的分析結(jié)果。在雙方開展的試點中,阿斯利康使用2000個樣本來分析造成糖尿病損傷的關(guān)鍵結(jié)構(gòu),準確率達到95%,使科學(xué)家能夠快了解藥物的安全性和有效性,加速了新藥研發(fā)和上市的進程。
釋放AIDD更大潛力使藥物研發(fā)全面步入“AI時代"
“開放”是AI技術(shù)得以發(fā)展與應(yīng)用的關(guān)鍵要素。要使AIDD在未來得到更充分的開發(fā)與探索,勢必要讓其走出僅賦能單個企業(yè)的孤島。著眼未來,借助公有云對數(shù)據(jù)安全的保護及合規(guī)分享機制,制藥企業(yè)之間將有機會在確保核心數(shù)據(jù)安全的前提下,實現(xiàn)跨企業(yè)的數(shù)據(jù)合作,以更開放的生態(tài)不斷提升AIDD的能力、應(yīng)用范圍和影響力。
早在2019年,亞馬遜云科技就與全球十大制藥公司共同構(gòu)建了用于藥物發(fā)現(xiàn)的聯(lián)邦學(xué)習平臺(Federated machine learning for drug discovery on Amazon Web Services) MELLODDY,讓藥企在安全、合規(guī)、確保數(shù)據(jù)隱私的環(huán)境下,進行多方合作,加速整個行業(yè)的科研發(fā)現(xiàn)進程。當前,MELLODDY 平臺以前所未有的規(guī)模運行在亞馬遜云科技平臺上,在數(shù)十億個實驗數(shù)據(jù)點上采用聯(lián)邦學(xué)習方式訓(xùn)練模型,分析了超過 2000 萬個化學(xué)分子結(jié)構(gòu)及理化性質(zhì)。而且MELLODDY在企業(yè)無需共享專有數(shù)據(jù)和模型的基礎(chǔ)上即可開展機器學(xué)習協(xié)作,合作訓(xùn)練藥物發(fā)現(xiàn)模型。這一項目成功證明了制藥企業(yè)可通過云計算進行合作來加速發(fā)現(xiàn)新藥物的可行性。
中國的藥物研發(fā)領(lǐng)域的眾多企業(yè)在迎來政策激勵的同時,也開始發(fā)掘AIDD背后的商業(yè)潛力。在輔助臨床前試驗階段之外,AI技術(shù)尚存在更多可發(fā)掘的應(yīng)用潛力,如AI與物聯(lián)網(wǎng)、數(shù)據(jù)湖倉等技術(shù)融合,可促進數(shù)字化實驗、多中心臨床、智能制造及真實世界分析等藥物的全流程改進。越來越多的企業(yè)也逐步開始了AIDD的實質(zhì)性應(yīng)用,并助推國內(nèi)藥物研發(fā)進入新的“高產(chǎn)”階段。
據(jù)Data Bridge Market Research分析,亞太地區(qū)藥物發(fā)現(xiàn)市場的AI價值復(fù)合年增長率將在2022至2029 年期間達到50.9%,且預(yù)計中國將成為該領(lǐng)域主導(dǎo)國家。隨著云計算不斷為AIDD等AI應(yīng)用落地鋪平道路,國內(nèi)制藥企業(yè)將有望完成研發(fā)能力躍遷,讓上述預(yù)測成為最終事實。