云計算作為一種新的計算理念和模式,在技術(shù)上是將大型服務(wù)器集群,包括計算服務(wù)器,存儲服務(wù)器和網(wǎng)絡(luò)帶寬資源集中起來,通過對各類可分配資源的虛擬化,利用專門軟件實現(xiàn)對資源的按需分配,支持各種應(yīng)用程序的運行,使得用戶只需關(guān)注并提供業(yè)務(wù)相關(guān)的解決方案,無需在硬件平臺、綜合計算、安全存儲、信息的一致性等方面耗費大量的人力、物力和財力,有利于提高系統(tǒng)的整體效率、降低成本,促進技術(shù)創(chuàng)新。
盡管基于云計算模式的計算平臺或服務(wù)已被廣泛接受并逐步走進應(yīng)用,但云計算的研究總體上還處于起步階段,許多現(xiàn)有的問題還沒有被完全解決。本文提出了部分具有挑戰(zhàn)性的云計算關(guān)鍵技術(shù)和研究問題。
1 虛擬機遷移
云計算通過允許虛擬機遷移實現(xiàn)整個數(shù)據(jù)中心負載平衡。此外,虛擬機遷移提高數(shù)據(jù)中心的健壯性和高度響應(yīng)。
虛擬機遷移是由進程遷移演變而來的。最近Xen和VMWare已經(jīng)實現(xiàn)了虛擬機的實時遷移。文獻[1]指出遷移整個操作系統(tǒng)和它的所有應(yīng)用程序作為一個單元可以避免進程級遷移方法要面對的許多困難,并分析了虛擬機實時遷移的優(yōu)勢。
虛擬機遷移的主要優(yōu)勢是避免熱點,然而,這并不簡單。目前,檢測工作負載熱點和啟動一個遷移缺乏應(yīng)對突然的工作負載變化的靈活性。此外,虛擬機遷移時內(nèi)存中的狀態(tài)應(yīng)當(dāng)一致且高效地傳輸,同時還需綜合考慮應(yīng)用程序和物理服務(wù)器的資源負載。
2 服務(wù)器整合
服務(wù)器整合可以最大化資源的利用率,同時最小化能耗的有效方法。虛擬機遷移常用來整合駐留在多個很少使用的服務(wù)器的虛擬機到一個服務(wù)器,這樣剩余的服務(wù)器可以設(shè)置為節(jié)能狀態(tài)。在數(shù)據(jù)中心優(yōu)化整合服務(wù)器通常是一個NP難的變種裝箱優(yōu)化問題。針對這個問題已經(jīng)提出各種啟發(fā)式方法。
服務(wù)器整合不應(yīng)該影響應(yīng)用程序的性能。眾所周知,單個虛擬機資源的使用不停的在變化。對于虛擬機間共享的服務(wù)器資源(比如帶寬、內(nèi)存緩存和磁盤I/O),最大限度地整合服務(wù)器可能導(dǎo)致?lián)矶隆?/p>
因此,觀察虛擬機負載的波動和使用這些信息有效的整合服務(wù)器是很重要的。最后,在資源擁塞發(fā)生時,系統(tǒng)必須能快速響應(yīng)。
3 能耗管理
提高能源效率是云計算另一個主要問題。據(jù)估計,能耗成本占數(shù)據(jù)中心運營支出總額的53%。因此基礎(chǔ)設(shè)施提供商承受了巨大的壓力減少能源消耗。目標是不僅要減少數(shù)據(jù)中心的能源成本,還要達到政府法規(guī)和環(huán)境標準。
設(shè)計節(jié)能數(shù)據(jù)中心最近受到越來越多的重視。這個問題可以從多個方向解決。例如,節(jié)能的硬件架構(gòu)、減慢CPU速度和關(guān)閉部分硬件組件已成為研究者的共識。
有節(jié)能感知的作業(yè)調(diào)度和服務(wù)器整合兩種方式可以減少能源消耗。最近的研究也已開始研究節(jié)能的網(wǎng)絡(luò)協(xié)議和基礎(chǔ)設(shè)施。
一個關(guān)鍵的挑戰(zhàn)是實現(xiàn)節(jié)省能源和應(yīng)用程序的性能之間達到一個好的平衡。在這方面,一些研究人員最近已經(jīng)開始在一個動態(tài)的云環(huán)境實現(xiàn)性能和能耗管理的協(xié)調(diào)解決方案[3]。
4 流量管理和分析
分析數(shù)據(jù)流量對于今天的數(shù)據(jù)中心是重要的。例如,許多web應(yīng)用程序依賴于分析數(shù)據(jù)流量來優(yōu)化用戶體驗。網(wǎng)絡(luò)運營商還需要知道數(shù)據(jù)流量進行許多管理和規(guī)劃決策。然而,把互聯(lián)網(wǎng)服務(wù)提供商(ISP)現(xiàn)有的流量測量和分析方法擴展到云計算數(shù)據(jù)中心還存在一些挑戰(zhàn)性的問題。首先,數(shù)據(jù)中心鏈接的密度要比ISP高得多;
其次,大多數(shù)現(xiàn)有的方法可以計算幾百臺主機的流量矩陣,但一個小型數(shù)據(jù)中心可能擁有幾千臺服務(wù)器;最后,現(xiàn)有的方法通?;谝恍㊣SP的流量模式,但是部署在數(shù)據(jù)中心應(yīng)用程序(比如MapReduce作業(yè))極大的改變了流量模式。
此外,在云計算中應(yīng)用程序的網(wǎng)絡(luò)使用、計算和存儲資源存在更緊密的耦合。
目前,并沒有很多工作在測量和分析數(shù)據(jù)中心的流量。文獻 [4]報告了數(shù)據(jù)中心流量的特征,以及使用這些指導(dǎo)網(wǎng)絡(luò)基礎(chǔ)設(shè)施的設(shè)計。
5 軟件框架
云計算提供了進行大規(guī)模數(shù)據(jù)密集型應(yīng)用程序的平臺。通常這些應(yīng)用程序利用MapReduce框架(如Hadoop可伸縮的和容錯數(shù)據(jù)處理)。研究表明MapReduce作業(yè)的性能和資源消耗的是高度依賴應(yīng)用程序的類型。例如,Hadoop任務(wù)sort是I/O密集型,而grep則要求大量CPU資源。
此外,分配在每個Hadoop節(jié)點的VM可能是異構(gòu)的。例如,一個VM可用帶寬依賴于配置在同一個服務(wù)器的其他VM。
因此,通過仔細選擇它的配置參數(shù)值和設(shè)計更高效的調(diào)度算法能優(yōu)化MapReduce應(yīng)用程序的性能和成本。通過緩解瓶頸資源,可以將應(yīng)用程序的執(zhí)行時間顯著提高。關(guān)鍵的挑戰(zhàn)包括Hadoop的性能建模(無論是在線還是離線)和動態(tài)條件下自適應(yīng)調(diào)度。
另一個相關(guān)的方法認為讓MapReduce框架有節(jié)能感知[5]。這種方法的基本思想是將完成工作且等待新任務(wù)的Hadoop節(jié)點進入睡眠狀態(tài)。這就要求Hadoop和HDFS必須由有節(jié)能感知。此外,通常會在性能和節(jié)能感知之間進行權(quán)衡。根據(jù)目標,找到一個理想的權(quán)衡點仍是一個沒有探索的研究課題。
6 存儲技術(shù)和數(shù)據(jù)管理
軟件框架MapReduce和它的不同實現(xiàn)(Hadoop和Dryad)針對分布式處理的數(shù)據(jù)密集的任務(wù)。這些框架通常運行在網(wǎng)際文件系統(tǒng)(比如GFS和HDFS)。這些文件系統(tǒng)的存儲結(jié)構(gòu)、訪問模式和應(yīng)用程序編程接口不同于傳統(tǒng)的分布式文件體系。特別是他們沒有實現(xiàn)標準POSIX接口,因此引入和傳統(tǒng)文件系統(tǒng)和應(yīng)用程序的兼容性問題。目前的解決方法主要包括提支持MapReduce框架使用集群文件體系(如IBM的GPFS)方法和基于新的API原語支持可伸縮和并發(fā)數(shù)據(jù)訪問等。
7 結(jié)束語
需求推動、技術(shù)進步和商業(yè)模式轉(zhuǎn)變共同促進了云計算的快速發(fā)展,其核心是構(gòu)建了一種全新的信息與數(shù)據(jù)存儲、處理和服務(wù)模式。本文從云計算平臺建設(shè)與管理、應(yīng)用的構(gòu)建等多角度總結(jié)了這種新興計算模式存在關(guān)鍵技術(shù)及難點,提出了未來云計算研究與應(yīng)用中所需解決的問題。