“騰百萬”之后,騰訊的云操作系統(tǒng)VStation單集群調(diào)度達(dá)10萬臺(tái)
今年5月,騰訊全網(wǎng)服務(wù)器總量邁過100萬臺(tái)里程碑,成為中國首家服務(wù)器總量超過百萬的公司,也是全球五家服務(wù)器數(shù)量過百萬的公司之一。同時(shí),今年騰訊的帶寬峰值也突破100T。
而在近期,騰訊云又宣布自研的云計(jì)算操作系統(tǒng)VStation已經(jīng)實(shí)現(xiàn)在單集群內(nèi)調(diào)度超過10萬臺(tái)服務(wù)器,成為業(yè)界首個(gè)達(dá)到此項(xiàng)能力的云廠商。
記者了解到,Vstation是騰訊自研的云計(jì)算操作系統(tǒng),起始于2012年,從那時(shí)起,就被部署到騰訊云分布在全球的地域里面(到今天25個(gè)地域、53個(gè)數(shù)據(jù)中心),要解決的就是大規(guī)模服務(wù)器資源調(diào)度問題。
不過,Vstation比較復(fù)雜,與其他操作系統(tǒng)類似,需要很多分布式組件來實(shí)現(xiàn)協(xié)同和統(tǒng)一。
一直以來,計(jì)算資源的調(diào)度與管理能力,以及服務(wù)器的虛擬化是云計(jì)算的關(guān)鍵基礎(chǔ)技術(shù)。云計(jì)算是一個(gè)非常大的平臺(tái),其本質(zhì)是把物理服務(wù)器做了集合與共享,對(duì)傳統(tǒng)IT基礎(chǔ)設(shè)施做了優(yōu)化。
之所以調(diào)度顯得如此重要,主要在于規(guī)模帶來的復(fù)雜度的提升。
騰訊云云服務(wù)器產(chǎn)品負(fù)責(zé)人李力談到,舉例來看,如果一個(gè)人只有一臺(tái)電腦不需要調(diào)度,如果有兩臺(tái)電腦就感覺有點(diǎn)麻煩了,有一個(gè)切換的困擾,距離它的存儲(chǔ)更近,業(yè)務(wù)更近,整個(gè)的資源分配最合理。
云計(jì)算調(diào)度也一樣,一個(gè)運(yùn)維管十臺(tái)機(jī)器和管一百臺(tái)機(jī)器是完全不同的,這是一個(gè)復(fù)雜度持續(xù)上升的過程。
我們首先解決的第一個(gè)問題是如何將成千上萬臺(tái)的服務(wù)器的管理做到像管理一臺(tái)那么簡單。
其言下之意是操作不當(dāng)會(huì)導(dǎo)致客戶很難快速獲得相應(yīng)的IT的能力。
基于這個(gè)初衷,Vstation順勢(shì)而出。
記者(公眾號(hào):記者)注意到,尤其是對(duì)于騰訊本身來說,1999年做QQ(1臺(tái)服務(wù)器),2005年做QQ空間(5000臺(tái)服務(wù)器),2010年推出微信(超10萬臺(tái)服務(wù)器),2011年推出騰訊視頻(超20萬臺(tái)服務(wù)器),都掐住了互聯(lián)網(wǎng)發(fā)展的最佳節(jié)點(diǎn),在這樣的過程中,其內(nèi)需的服務(wù)器規(guī)模一直在增長。
用李力的話來說,2013年當(dāng)騰訊云正式成立時(shí),服務(wù)器數(shù)量已經(jīng)超過40萬臺(tái),整個(gè)騰訊的計(jì)算規(guī)模是以指數(shù)級(jí)的指標(biāo)在往上走。
Vstation具備的主要能力有三個(gè):自主研發(fā)、安全可控;高可用高并發(fā);支持異構(gòu)硬件,支持物理機(jī)。
某種程度上看,用戶對(duì)云服務(wù)器的需求有點(diǎn)超出了云本身應(yīng)該做的范圍。當(dāng)面向產(chǎn)業(yè)互聯(lián)網(wǎng)的客戶時(shí),騰訊云在Vstation之上又增加了黑石物理計(jì)算的支持,這樣“云服務(wù)器、物理服務(wù)器都變成客戶的資產(chǎn)”。
據(jù)李力介紹,從第一行代碼開始,他們就完全按照騰訊的高規(guī)格要求去做的安全可控的操作系統(tǒng),適配高可用、高并發(fā)的需求。騰訊的業(yè)務(wù)都是一級(jí)的用戶,在騰訊的內(nèi)部,他們所有的業(yè)務(wù)要求都非常嚴(yán)格,不容出錯(cuò)——這意味著,Vstation的起點(diǎn)也比較高。
目前,騰訊云VStation已經(jīng)部署在騰訊云遍布全球的數(shù)據(jù)中心中,支持?jǐn)?shù)萬臺(tái)虛擬機(jī)分鐘級(jí)別創(chuàng)建,并可以在十款不同硬件中協(xié)同操作。
怎么體現(xiàn) VStation 的價(jià)值?
李力表示,云服務(wù)器是完全對(duì)物理服務(wù)器的抽象,以前在控制臺(tái)上去創(chuàng)建一臺(tái)云服務(wù)器,要經(jīng)歷多個(gè)技術(shù)模塊,創(chuàng)建耗時(shí)5分鐘到10分鐘。騰訊云在設(shè)計(jì) VStation之初就讓其肩負(fù)著大規(guī)模調(diào)度、海量并發(fā)和支持異構(gòu)計(jì)算的歷史使命,在做了深度優(yōu)化之后,Vstation創(chuàng)建一臺(tái)云服務(wù)器只需要5到10秒,在并發(fā)的場(chǎng)景上,如果有一個(gè)用戶需要業(yè)務(wù)擴(kuò)容1000臺(tái)服務(wù)器,騰訊云可以在30秒到60秒之內(nèi)完成,這意味著一個(gè)中等偏大的公司整體的計(jì)算資源的需求可以在騰訊云上1分鐘得到交付。
關(guān)于“秒級(jí)計(jì)費(fèi)”,記者注意到,2013年的時(shí)候,騰訊云就支持了秒級(jí)計(jì)費(fèi),這個(gè)能力是同行在幾年之后才開始支持的。這種收費(fèi)方式的好處是能夠更好支撐企業(yè)大規(guī)模計(jì)算部署需求,并有效降低突發(fā)性業(yè)務(wù)的計(jì)算成本支出。
為何騰訊全網(wǎng)服務(wù)器數(shù)量達(dá)到100萬臺(tái)而單集群內(nèi)VStation只能調(diào)度超過10萬臺(tái)服務(wù)器?李力就此進(jìn)行了答疑。他表示:
這里還是強(qiáng)調(diào)“單集群”,騰訊在云計(jì)算的單集群里面還是十萬臺(tái)的規(guī)模,在單集群的規(guī)模里面短時(shí)間之內(nèi)也不會(huì)達(dá)到百萬臺(tái)。云有分區(qū)的屬性,不太可能在一個(gè)地方搞太大。
在未來計(jì)劃上,李力表示,VStation會(huì)維持十萬、數(shù)十萬的單集群調(diào)度服務(wù)器規(guī)模,往海外部署,通過技術(shù)上的EC點(diǎn)和OC點(diǎn)往國內(nèi)中小城市延展(只不過集群規(guī)模會(huì)越來越小,中心區(qū)的集群規(guī)模是最大的)。
可以看到,早期的電商、游戲、視頻甚至一些金融的客戶給了騰訊不小的機(jī)會(huì),使得騰訊云能夠迅速做起來,而到了傳統(tǒng)行業(yè)開始數(shù)字化的當(dāng)下,雖然其對(duì)云接受相對(duì)比較慢,但是計(jì)算量要求卻是非常巨大,加上政府、央企等大客戶要上云,這給今天的騰訊帶來了新的挑戰(zhàn),但同時(shí)也催生了掙錢的新機(jī)會(huì)。