阿里云云上穩(wěn)定性體系建設(shè),“連接”為了永不中斷的業(yè)務(wù)
在2023年于杭州舉辦的云棲大會(huì)論壇現(xiàn)場,阿里云高級技術(shù)專家、客戶系統(tǒng)穩(wěn)定性工程師劉清龍,與越秀地產(chǎn)云計(jì)算架構(gòu)師張可,共同分享了名為《公共云云上業(yè)務(wù)穩(wěn)定性建設(shè)實(shí)踐》的主題演講,從阿里云客戶穩(wěn)定性工程師,與合作企業(yè)架構(gòu)師雙視角,介紹了阿里云基于云上分布式的技術(shù)設(shè)施,結(jié)合云上穩(wěn)定性實(shí)踐經(jīng)驗(yàn),對云上業(yè)務(wù)穩(wěn)定性體系建設(shè)進(jìn)行系統(tǒng)講解。
新技術(shù)也面臨新挑戰(zhàn)
在數(shù)字產(chǎn)業(yè)蓬勃發(fā)展的當(dāng)下,我國云計(jì)算市場仍處于快速發(fā)展期,根據(jù)2023年工信部數(shù)據(jù)顯示,目前我國上云企業(yè)累計(jì)超過380萬家,仍有較大發(fā)展空間。預(yù)計(jì) 2025 年我國云計(jì)算整體市場規(guī)模將超萬億元。隨著客戶云上業(yè)務(wù)規(guī)模越來越大,迭代速度越來越快,系統(tǒng)復(fù)雜度越來越高,如何保障云上業(yè)務(wù)穩(wěn)定性這個(gè)話題也變的愈發(fā)重要。
劉清龍介紹自己崗位目前是一名客戶穩(wěn)定性工程師(簡稱CRE),負(fù)責(zé)對接阿里云客戶穩(wěn)定性建設(shè)需求和故障應(yīng)急響應(yīng),這也是一個(gè)近年來因?yàn)樵萍夹g(shù)發(fā)展而新生的崗位,劉清龍也是國內(nèi)第一批客戶穩(wěn)定性工程師(簡稱CRE)。
客戶穩(wěn)定性工程師的使命
隨著云服務(wù)的不斷發(fā)展,越來越多的企業(yè)將核心業(yè)務(wù)遷移到云端,以降低運(yùn)維成本、提高業(yè)務(wù)靈活性和可擴(kuò)展性。云計(jì)算在業(yè)務(wù)穩(wěn)定性方面的優(yōu)勢越來越受到企業(yè)和開發(fā)者的關(guān)注,如何在云上提高客戶的業(yè)務(wù)穩(wěn)定性變?yōu)樵茝S商要努力的方向。阿里云因此設(shè)立了客戶穩(wěn)定性工程師這個(gè)角色,基于客戶的視角和立場來提高業(yè)務(wù)在云上的穩(wěn)定性。(從tam到cre)
云上穩(wěn)定性工程師(簡稱CRE)負(fù)責(zé)幫助客戶建設(shè)云上穩(wěn)定性體系,穩(wěn)定用云;建設(shè)應(yīng)急體系,云上應(yīng)急;踐行行業(yè)最佳用云實(shí)踐,用云標(biāo)準(zhǔn)。作為CRE他們需要具備極高的專業(yè)性,熟悉云計(jì)算平臺的各種功能和性能指標(biāo),能夠與客戶溝通,快速、精準(zhǔn)找到企業(yè)痛點(diǎn),發(fā)現(xiàn)問題并解決問題,以確保企業(yè)云端業(yè)務(wù)的穩(wěn)定運(yùn)行。
在演講中,劉清龍將影響企業(yè)云上穩(wěn)定的原因分為以下幾類:
業(yè)務(wù)系統(tǒng):企業(yè)遺留債務(wù)重,很多系統(tǒng)上下游關(guān)系不清楚,運(yùn)行現(xiàn)狀不清
架構(gòu)老化:企業(yè)很多應(yīng)用還是單點(diǎn)架構(gòu),很難使用容器類彈性的能力
成本壓力大:企業(yè)客戶沒有人力成本、時(shí)間成本、費(fèi)用成本進(jìn)行大刀破斧的改造
運(yùn)維資源少,體系不健全:2到3人小組承擔(dān)了業(yè)務(wù)、云資源、發(fā)布的全部工作
沒有實(shí)踐與演練:穩(wěn)定性存在未知,總會(huì)有“異常”情況發(fā)生
辦法一定比困難多
遇見問題就想辦法解決問題,劉清龍認(rèn)為CRE這個(gè)崗位就是在不穩(wěn)定中尋求最穩(wěn)定,在信息交錯(cuò)中直擊要點(diǎn),同時(shí)他們面對這項(xiàng)復(fù)雜工作背后的底氣,更多是能基于阿里云的強(qiáng)大架構(gòu)支持來解決客戶在使用阿里云服務(wù)過程中遇到的問題。
阿里云有較為完善的云上分布式技術(shù)設(shè)施,能夠進(jìn)行容量、容錯(cuò)、容災(zāi)運(yùn)維調(diào)度,落地穩(wěn)定性建設(shè),在容量上做好容量評估,流量管控;在容錯(cuò)上做好鏈路跟蹤,服務(wù)治理;在容災(zāi)上做好異地部署,支持容災(zāi)演練;實(shí)現(xiàn)全局架構(gòu)的高可用,做到高可用的可觀測行,業(yè)務(wù)的流量調(diào)度,高可用的演練。
不存在永不出錯(cuò)的技術(shù)架構(gòu),也不存在能包容所有底層問題的業(yè)務(wù)架構(gòu),通過從CRE先動(dòng)到一起聯(lián)動(dòng),從簡到難的原則,連接來打通客戶屏障與技術(shù)的壁壘,有針對性解決企業(yè)痛點(diǎn)問題,在客企業(yè)資源有限的背景下,盡量解決穩(wěn)定性的各類隱患。
安全治理
劉清龍首先安全治理是重要的一步,他認(rèn)為:“對于任何一家提供云服務(wù)的公司來說,安全都是首要任務(wù)。信息安全問題隨著系統(tǒng)數(shù)量的增長,發(fā)生頻率越來越高,無論是數(shù)據(jù)泄露、系統(tǒng)被黑、還是資源盜用,都會(huì)造成企業(yè)資金上、商譽(yù)上的重大損失;CRE與企業(yè)對接溝通,識別風(fēng)險(xiǎn),通過構(gòu)建全面的網(wǎng)絡(luò)安全綜合防護(hù)體系,包括網(wǎng)絡(luò)安全等級保護(hù)、關(guān)鍵信息基礎(chǔ)設(shè)施安全保護(hù)、數(shù)據(jù)安全保護(hù)等,確保企業(yè)客戶的業(yè)務(wù)數(shù)據(jù)安全?!?
信息互通
接下來的話題是信息互通的價(jià)值。他說: “在當(dāng)今的數(shù)字化時(shí)代,信息的流通與交換對企業(yè)的發(fā)展至關(guān)重要。信息互通才是穩(wěn)定性建設(shè)的根基,信息系統(tǒng)運(yùn)維等級建設(shè)是技術(shù)架構(gòu)、運(yùn)維資源投入和運(yùn)維精細(xì)化管理的基礎(chǔ),是快速處理信息系統(tǒng)服務(wù)中斷事件的重要依據(jù)。通過對現(xiàn)有信息系統(tǒng)整理和分類, CRE更了解客戶業(yè)務(wù)、讓客戶更了解云,才能提升在云上的“安全感和穩(wěn)定性”。
通過加強(qiáng)云原生、人工智能、大數(shù)據(jù)等技術(shù)同基礎(chǔ)設(shè)施平臺的融合,實(shí)現(xiàn)業(yè)務(wù)信息對齊、云資源信息同步、云上風(fēng)險(xiǎn)預(yù)警、達(dá)到業(yè)務(wù)信息聯(lián)動(dòng)?!碑?dāng)有了信息的互通后,我們?yōu)榱诵畔⒌臏?zhǔn)確,和更新高效,第三步便是探索流程的互通;
流程對接
劉清龍?jiān)敿?xì)介紹了流程對接的實(shí)施過程,他認(rèn)為:“阿里云擁有完備的團(tuán)隊(duì)研發(fā)運(yùn)維流程機(jī)制,以及技術(shù)同學(xué)的良好意識和能力,這些都是團(tuán)隊(duì)穩(wěn)定性建設(shè)思路的重要組成部分。
在組織流程上:阿里云CRE會(huì)通過定期會(huì)議對齊一些業(yè)務(wù)變動(dòng)大促護(hù)航等信息、云產(chǎn)品能力,保證雙方的信息是準(zhǔn)確的;在系統(tǒng)流程上: CRE嘗試通過不同手段將雙方在系統(tǒng)層面打通,提升應(yīng)急效率。
基于阿里云多場景互聯(lián)互通的不斷探索,通過穩(wěn)定流程系統(tǒng)等級建設(shè),企業(yè)能夠在制定業(yè)務(wù)系統(tǒng)穩(wěn)定性的目標(biāo)同時(shí),規(guī)范管理公司信息系統(tǒng)服務(wù)中斷事件處理流程,并進(jìn)一步提升系統(tǒng)的可用性和運(yùn)維效率。
演練驗(yàn)證
有了信息和流程后需要一個(gè)比較好的方式進(jìn)行驗(yàn)證和發(fā)掘企業(yè)云上不穩(wěn)定因素的核心痛點(diǎn);那就是演練。防火的最高境界是,防患于未然。
故障演練是提升系統(tǒng)和服務(wù)穩(wěn)定性的重要手段之一,通過模擬真實(shí)故障場景,能夠及時(shí)發(fā)現(xiàn)系統(tǒng)存在的問題、強(qiáng)化應(yīng)急響應(yīng)的流程和技術(shù)能力、增加跨團(tuán)隊(duì)和供應(yīng)商的合作和溝通能力,并最終提升企業(yè)上云體驗(yàn)。
與企業(yè)共建容災(zāi)演練的能力,通過云上故障演練能力的服務(wù)化,提高演練效率
從業(yè)務(wù)視角做到業(yè)務(wù)、服務(wù)、業(yè)務(wù)組件、云服務(wù)云資源、云可用區(qū)的不同層級的容演練
通過云的宕機(jī)、網(wǎng)絡(luò)中斷、單可用區(qū)不可用可以快速驗(yàn)證業(yè)務(wù)的容災(zāi)和容錯(cuò)能力,找到目前用云的風(fēng)險(xiǎn)點(diǎn)
在演練中,可以快速考驗(yàn)雙方的業(yè)務(wù)、云資源的監(jiān)控能力、主動(dòng)通知能力,阿里云與客戶之間的應(yīng)急聯(lián)動(dòng)協(xié)調(diào)能力,業(yè)務(wù)的逃逸能力,云服務(wù)是否可以平滑飄走。
只有經(jīng)得住驗(yàn)證的高可用才能在故障時(shí)起作用;演練過程發(fā)現(xiàn)的信息對齊不完成,流程對接有瑕疵,用云方式有不足等問題就將進(jìn)行專項(xiàng)提升;
專項(xiàng)提升
目前阿里云穩(wěn)定體系建設(shè)支持與服務(wù)支撐能力是可以根據(jù)客戶業(yè)務(wù)痛點(diǎn)進(jìn)行定制化支持;是可定制化,能夠提供從上云前、上云中、上云后的全面服務(wù)能力,針對存量云上穩(wěn)定運(yùn)行的核心系統(tǒng)和準(zhǔn)備上云的系統(tǒng),擁有設(shè)計(jì)各類產(chǎn)品的方案、最佳實(shí)踐、云上優(yōu)化的能力。
通過演練發(fā)現(xiàn)風(fēng)險(xiǎn)點(diǎn)或者業(yè)務(wù)痛點(diǎn)進(jìn)行針對性優(yōu)化,讓針對核心發(fā)展痛點(diǎn)能力,通過逐項(xiàng)優(yōu)化,滿足云上業(yè)務(wù)發(fā)展的訴求客戶上云從權(quán)限、部署、可觀測性、彈性等維度做到容量、容錯(cuò)、容災(zāi)的設(shè)計(jì),清不斷提升企業(yè)用云質(zhì)量與穩(wěn)定性。
越秀地產(chǎn)專項(xiàng)提升方案圖示
雙向連接,實(shí)現(xiàn)云上穩(wěn)定性業(yè)務(wù)永不斷連
這次演講希望能夠提供一種新的視角,從客戶穩(wěn)定性工程師(簡稱CRE)的與企業(yè)客戶的視角來分析如何提升企業(yè)云服務(wù)的穩(wěn)定性。通過阿里云云上穩(wěn)定性體系建相互連接,促成云平臺與企業(yè)客戶雙向連接,實(shí)現(xiàn)云上穩(wěn)定性業(yè)務(wù)永不斷連。
把一個(gè)大型云服務(wù)運(yùn)營起來,運(yùn)營穩(wěn)定,本身就是一件極難的、門檻極高的活,只有保障了穩(wěn)定性,才能幫助業(yè)務(wù)蓬勃增長,因此穩(wěn)定性治理始終是工程師基本能力之一。
云計(jì)算是一個(gè)快速發(fā)展的領(lǐng)域,新的技術(shù)和工具不斷涌現(xiàn)。穩(wěn)定工程師需要保持對新技術(shù)的關(guān)注和學(xué)習(xí),以便在需要時(shí)能夠采用最新的技術(shù)來提高系統(tǒng)的穩(wěn)定性。通過深入理解云服務(wù)的基礎(chǔ)設(shè)施,掌握監(jiān)控和診斷工具,具備良好的問題解決能力,以及關(guān)注最新的技術(shù)發(fā)展,來維護(hù)云上業(yè)務(wù)的穩(wěn)定。這是一項(xiàng)充滿挑戰(zhàn)的工作,但也是一項(xiàng)至關(guān)重要的工作。
云上穩(wěn)定性建設(shè),推動(dòng)企業(yè)信息化轉(zhuǎn)型發(fā)展
云上穩(wěn)定性建設(shè)是保障云計(jì)算服務(wù)可靠性和安全性的關(guān)鍵環(huán)節(jié),是一個(gè)系統(tǒng)的基石,也是一個(gè)長期、持續(xù)化的建設(shè)過程,也是企業(yè)信息化建設(shè)中不可忽視的部分。需要通過實(shí)踐經(jīng)驗(yàn)的不斷積累, 輸出體系化的標(biāo)準(zhǔn)和流程,建立科學(xué)有效的穩(wěn)定性評估提升量化標(biāo)準(zhǔn),另一方面也需要不斷提升數(shù)字化、工具化能力,讓穩(wěn)定性提升有數(shù)據(jù)可依托,讓故障應(yīng)急響應(yīng)流程 從由人工驅(qū)動(dòng)升級到由平臺系統(tǒng)驅(qū)動(dòng),
憑借其深厚的技術(shù)積累和豐富的實(shí)踐經(jīng)驗(yàn),阿里云也正在努力打造一個(gè)能夠滿足企業(yè)各種需求的云服務(wù)平臺。未來,智能化穩(wěn)定性解決方案、多云架構(gòu)的穩(wěn)定性管理和企業(yè)與云計(jì)算服務(wù)提供商的深度合作將成為云上穩(wěn)定性建設(shè)的重要趨勢。企業(yè)需要積極探索和應(yīng)用各種穩(wěn)定性解決方案和技術(shù)手段,以提高自身的云上穩(wěn)定性水平,從而更好地推動(dòng)企業(yè)信息化建設(shè)的轉(zhuǎn)型發(fā)展。