服務(wù)創(chuàng)造價值、存在造就未來
12月10日,2021云上架構(gòu)與運維峰會上,阿里云發(fā)布了業(yè)界首部《云上自動化運維白皮書》(簡稱“CloudOps白皮書”),并在其中提出了CloudOps成熟度模型。
阿里云資深技術(shù)專家、彈性計算體驗與控制系統(tǒng)負(fù)責(zé)人田濤濤在會上進(jìn)行了《CloudOps:自動化運維的新思路》的演講,闡述他對未來云上運維與DevOps發(fā)展趨勢的看法。以下是他的演講實錄:
? DevOps的新趨勢
DevOps從提出到廣泛使用已經(jīng)超過10年了,近幾年,我們能看到DevOps的一些趨勢:
1、DevOps的范圍和內(nèi)容隨著公共云平臺的興起有了非常大的變化,不再需要像傳統(tǒng)運維一樣自行管理基礎(chǔ)設(shè)施,術(shù)業(yè)有專攻,DevOps和SRE使企業(yè)能夠以更高的變化率構(gòu)建和發(fā)布應(yīng)用程序。
2、隨著微服務(wù)改造和服務(wù)治理的深入以及云原生理念的深入,我們看到了垂直化和規(guī)范化帶來的好處是快速交付,越來越多的企業(yè)架構(gòu)有著服務(wù)化的設(shè)計,意味著服務(wù)的主題從內(nèi)部延伸到更大的范圍,這樣應(yīng)用數(shù)量激增無疑給運維帶來了前所未有的挑戰(zhàn),在極度復(fù)雜的網(wǎng)狀應(yīng)用結(jié)構(gòu)下,可觀測性的實時性和準(zhǔn)確性是個巨大的挑戰(zhàn),同時因為某些不受關(guān)注的應(yīng)用產(chǎn)生了遠(yuǎn)大于預(yù)期的爆炸半徑。
3、過去的幾年,自動化已經(jīng)是DevOps中最重要的策略,但是隨著企業(yè)應(yīng)用的變化和越來越快、越來越敏捷的組織和應(yīng)用交付形態(tài),包括從傳統(tǒng)的單體或者產(chǎn)品思路,到今天的開放化背景下,API化和AS Service化對自動化的要求更加迫切。
開放性帶了巨大挑戰(zhàn),從之前的點對點支持,到了單點的一個基礎(chǔ)設(shè)施平臺需要對接眾多的內(nèi)外的客戶,各團(tuán)隊能夠獨立、快速地排查出問題將使得組織更敏捷,因此自助服務(wù)已經(jīng)成為一個重要的趨勢,只有自助化服務(wù)才能實現(xiàn)服務(wù)邊際成本充分的降低。而自助服務(wù)能力恰好也是云計算最重要的能力。
? 云可以進(jìn)一步發(fā)揮DevOps的優(yōu)勢
上述三個DevOps所面臨的趨勢和挑戰(zhàn),都可以通過充分利用云,得到很好的回應(yīng)與解決。如何解決我們先按下不表,但這也許并非是一種巧合,因為DevOps和云計算有非常多的共同點。
DevOps帶來的主要優(yōu)點是降低成本、提升交付的效率、提升靈活性、提升交付質(zhì)量的可靠性四大方面。在這四個方面云計算也具有非常大的優(yōu)勢。
l 降低成本: DevOps可以減少組織之間的溝通協(xié)作成本,提升自動化程度;而云能幫助降低企業(yè)的硬件采購支持和基礎(chǔ)資源運維的投入,同時提供更多更方便的選型形態(tài)。
l 提升交付速度: DevOps的敏捷組織和自動化構(gòu)建可以極大提升交付速度,對于應(yīng)用需要的大量資源,云平臺就是一個巨大的資源池,可以按需創(chuàng)建釋放,通過結(jié)合云和DevOps可以極大的提升從資源到應(yīng)用的構(gòu)建速度。
l 提升靈活性: DevOps文化天然在靈活性上有著巨大的優(yōu)勢,讓企業(yè)運營人員更加關(guān)注業(yè)務(wù)創(chuàng)新,而云計算能夠快速自助的交付資源適應(yīng)運營的需求。
l 增強(qiáng)系統(tǒng)的可靠性: 通過系統(tǒng)建設(shè)以及標(biāo)準(zhǔn)化和工具化建設(shè),DevOps對于系統(tǒng)可靠性的幫助是巨大的, 通過工具和平臺建設(shè)避免和降低人為問題和故障,同時高效的組織融合可以減少內(nèi)部的不必要溝通。而云平臺的首要責(zé)任就是可靠性和可用性,云天然提供了高可用的基礎(chǔ)設(shè)施,以及工具和服務(wù)化能力,可以大大降低系統(tǒng)成本,創(chuàng)建更具彈性、安全性和標(biāo)準(zhǔn)化的系統(tǒng)。
DevOps和云的助力企業(yè)更好的實現(xiàn)降本增效。
? DevOps進(jìn)化的下一站:CloudOps
從傳統(tǒng)的研發(fā)到運維的模式到DevOps,極大改善了從組織文化到應(yīng)用交付部署的效率,對于系統(tǒng)交付和運維是巨大的進(jìn)步,方便企業(yè)更加專注業(yè)務(wù)創(chuàng)新。
如今,隨著越來越多的企業(yè)使用了云資源,將基礎(chǔ)設(shè)施的運維責(zé)任主體委托給了云廠商,我們認(rèn)為一個新的時代已經(jīng)到來,就是以云為中心的DevOps,將重新定義DevOps。通過充分的結(jié)合云計算和DevOps的優(yōu)勢和能力,我們定義了一個新的詞匯:CloudOps,著重強(qiáng)調(diào)如何在云平臺上更好的踐行DevOps,再次實現(xiàn)運維的進(jìn)化。
CloudOps是傳統(tǒng)IT運維和DevOps的延展,通過云原生架構(gòu)實現(xiàn)運維的再進(jìn)化,充分幫助企業(yè)降低IT運維成本、提升交付速度和系統(tǒng)靈活敏捷度、增強(qiáng)系統(tǒng)可靠性,構(gòu)建更加安全可信開放的業(yè)務(wù)平臺。
CloudOps成熟度模型
報告顯示,目前幾乎所有企業(yè)都十分認(rèn)可公共云帶來的產(chǎn)品和服務(wù)和能力,并且大部分的企業(yè)已經(jīng)在公共云中使用DevOps,但是,只有很少一部分的企業(yè)認(rèn)為自己真的發(fā)揮了云的潛力。
我們認(rèn)為,云需要正確管理才能實現(xiàn)最佳性能與收益,為此,云也提供了大量的自動化和自助服務(wù)能力幫助企業(yè),在實踐CloudOps的過程中,我們需要思考下面的問題:
1、云提供了大量的自動化工具和自助服務(wù)能力,如何更好地使用這些工具來實現(xiàn)自動化?
2、云平臺天然提供了足夠的彈性能力,如何利用彈性能力?
3、云上的高可靠性和可用性應(yīng)該如何來實現(xiàn)?
4、云上的網(wǎng)絡(luò)管理和安全和可審計能力挑戰(zhàn)遠(yuǎn)大于線下,應(yīng)該如何管理?
5、云資源如果不做好成本管理、閾值設(shè)計和資源量化管理將帶來巨大的浪費,應(yīng)該如何優(yōu)化?
結(jié)合上面提到的幾個部分的挑戰(zhàn)。我們歸納CloudOps的5個建設(shè)與衡量維度:
? 自動化能力
DevOps最核心的一個能力是自動化能力,同樣,自動化能力是云最核心的能力,為了提升自動化能力和可編程能力,云平臺暴露了大量的開放API,同時也提供了大量的自動化產(chǎn)品和能力。借助于云平臺的提供的自動化能力,企業(yè)可以減少尋找更多的DevOps專家,充分的使用云平臺的自動化能力。
云平臺提供的主要的自動化能力包括3大部分:
首先是Infrastructure as Code能力,借助于IaC工具和開放的OpenAPI可以快速自動化的實現(xiàn)重復(fù)部署和部署腳本的版本化管理,盡量使用標(biāo)準(zhǔn)化的策略減少環(huán)境差異,同時實現(xiàn)應(yīng)用交付和操作審計。為了更好的支持自動化,阿里云也構(gòu)建了類似資源編排、Terrform等多種形態(tài)來編排基礎(chǔ)資源。
完成了基礎(chǔ)資源和應(yīng)用交付之后,日常運維主要是對存量資源進(jìn)行操作。隨著越來越多的任務(wù)使用自動化模式,運維任務(wù)復(fù)雜度越來越大,需要將復(fù)雜的任務(wù)解構(gòu),通過組合更多的原子性任務(wù)完成運維自動化,越來越多的企業(yè)開始使用Pipeline(Ops) as Code的能力。通過將執(zhí)行任務(wù)的上下文清晰梳理和可視化依賴關(guān)系;讓各個Job單元原子化,可以高效的完成單元任務(wù)并降低單個任務(wù)的復(fù)雜度;通過任務(wù)抽象進(jìn)行功能的維護(hù)和擴(kuò)展。
除了前面提到的基礎(chǔ)設(shè)施自動化和基礎(chǔ)資源的自動化運維,云平臺將大量的資源可編程化,通過OpenAPI暴露了大量的其他輔助能力對資源全生命周期管理。但是隨著業(yè)務(wù)系統(tǒng)的復(fù)雜度提升,平臺需要暴露更多的能力,例如通過事件體系將底層資源的變化實時發(fā)送出來,提升透明度;通過監(jiān)控體系暴露出來更多的metrics;在應(yīng)用出現(xiàn)問題之后,通過簡單的自助診斷服務(wù)可以簡化問題發(fā)現(xiàn)時間,借助于我們的管控運維通道云助手甚至可以一鍵修復(fù)問題。
彈性能力是云計算的最重要的能力之一,通過超大規(guī)模的資源池配置能力,快速實現(xiàn)分鐘級的資源需求供給,滿足不同規(guī)模場景的彈性需求,借助于靈活的彈性能力可以充分的幫助企業(yè)降低成本、提升可用性。在云上使用彈性能力可以整體提升企業(yè)業(yè)務(wù)的靈活性和穩(wěn)定性。
? 彈性能力
彈性能力按照業(yè)務(wù)需求可以分為2個方向,一個是垂直的彈性能力,一個是水平的彈性能力。
垂直彈性適合于應(yīng)用不太能水平擴(kuò)容的場景,常見的如單體應(yīng)用、獨立應(yīng)用、有狀態(tài)應(yīng)用的場景下,需要快速升級或降低配置以應(yīng)對業(yè)務(wù)變化。
水平彈性比較適合于分布式應(yīng)用、無狀態(tài)應(yīng)用,通過控制臺、API和我們的自動化工具可以實現(xiàn)分鐘級的擴(kuò)容數(shù)千臺計算資源。
為了降低使用彈性伸縮的成本。彈性伸縮支持通過設(shè)定不同模式來自動化實現(xiàn)資源的彈性伸縮,甚至根據(jù)歷史記錄智能預(yù)測資源需求量。
? 可靠性能力
云平臺提供了從數(shù)據(jù)中心、硬件、數(shù)據(jù)、自助服務(wù)等多個層次的可靠性構(gòu)建能力。
云計算的超大規(guī)模的數(shù)據(jù)中心,以及多可用區(qū)支持,讓用戶可用基于云以低成本、高擴(kuò)展、高可靠性快速的構(gòu)建同城容災(zāi)、異地容災(zāi)等高可用方案,規(guī)劃和部署應(yīng)用時需要優(yōu)先做好容災(zāi)架構(gòu)的設(shè)計和部署,提升可靠性。
在數(shù)據(jù)可靠性上,云平臺的規(guī)模紅利也有天然的優(yōu)勢。這不僅體現(xiàn)在存儲的多副本和數(shù)據(jù)可靠性極高的SLA保障上,云平臺還以服務(wù)化的方式向用戶暴露了OpenAPI,用戶可利用云廠商提供的快照、鏡像等能力,實現(xiàn)數(shù)據(jù)備份容災(zāi)的高可靠性能力建設(shè)。
可觀測性能力最近幾年是DevOps中非常受關(guān)注的特點,為了支持不同層次的用戶需求,云平臺通常會提供以下幾大類監(jiān)控服務(wù)能力:云資源監(jiān)控、應(yīng)用層APM、用戶業(yè)務(wù)層監(jiān)控。
除了在基礎(chǔ)設(shè)施、數(shù)據(jù)上的容錯能力外,云服務(wù)廠商通常也會提供應(yīng)用服務(wù)的容錯能力,幫助用戶構(gòu)建具備彈性、容錯能力的分布式系統(tǒng)。例如通過安全組采用一些斷網(wǎng)演練通過AHAS(Application High Availability Service),可以通過流量防護(hù)、故障演練、多活容災(zāi)、開關(guān)預(yù)案等實現(xiàn)應(yīng)用的自動化流量控制、業(yè)務(wù)降級與預(yù)案執(zhí)行。
? 安全與合規(guī)能力
根據(jù)Flexera 2021 state of cloud report ,81%的企業(yè)最關(guān)心的是云上安全,排第一位,75%的企業(yè)非常關(guān)注云上合規(guī)。所以安全和合規(guī)是云上重中之重的話題。
云平臺提供了眾多策略、控制和技術(shù),共同幫助用戶確保數(shù)據(jù)、基礎(chǔ)設(shè)施和應(yīng)用安全,保護(hù)云計算環(huán)境免受外部和內(nèi)部網(wǎng)絡(luò)安全威脅和漏洞的影響。
安全合規(guī)能力上,云平臺負(fù)責(zé)基礎(chǔ)設(shè)施和產(chǎn)品安全可信可審計,包括身份和訪問控制和管理、監(jiān)控和運營,從而為客戶提供高可用和高安全的云服務(wù)??蛻粜枰m當(dāng)?shù)呐渲煤屠闷脚_和產(chǎn)品的能力,構(gòu)建自己的云上應(yīng)用。
網(wǎng)絡(luò)是所有云服務(wù)的唯一入口,網(wǎng)絡(luò)攻擊是種類最多、危害最大,也是最難防護(hù)的風(fēng)險之一。云計算平臺會提供一套成熟的網(wǎng)絡(luò)安全架構(gòu),以應(yīng)對來自互聯(lián)網(wǎng)的各種威脅??梢酝ㄟ^安全組、子網(wǎng)ACL以及路由策略來保障內(nèi)網(wǎng)之間的通訊和隔離,通過云安全中心提供的云防火墻應(yīng)用防火墻、DDOS防護(hù)等保障系統(tǒng)的網(wǎng)絡(luò)安全能力。
操作審計和追蹤是安全生命周期的重要組成部分,可以識別潛在安全配置錯誤、威脅或意外行為,也用于支持質(zhì)量流程、法律或合規(guī)義務(wù),還可以用于威脅識別和響應(yīng)工作。通過類似日志審計服務(wù)提供了審計和更改跟蹤功能,方便快速追溯變更范圍和源頭。
傳統(tǒng)的運維通道需要借助SSH取得密鑰進(jìn)行管理,并開放相應(yīng)的網(wǎng)絡(luò)端口,密鑰管理不當(dāng)以及網(wǎng)絡(luò)端口暴露都會對云上資源帶來很大的安全隱患。原生的阿里云云上自動化運維通道——云助手,可以幫助客戶安全、高效的運維云上資源。
? 成本與資源量化管理
云服務(wù)相比IDC的最大特點之一是使用資源而非持有資產(chǎn)。在云上不僅可以快速的創(chuàng)建和釋放資源,相比IDC也可大大的降低使用成本。同樣根據(jù)Flexera 2021 state of cloud report,云上客戶第二關(guān)注的就是云上成本支出和管理。
以云服務(wù)器為例,它的資源成本主要由計算、存儲、網(wǎng)絡(luò)三大部分構(gòu)成。在云上,計費方式直接決定資源的定價,選擇合適的計費方式可以直接節(jié)省成本。如相比使用按量計費,選擇搶占式實例最高可節(jié)省90%的成本;同時,不同產(chǎn)品提供豐富的規(guī)格和計費方式,選擇合適的規(guī)格能有效的降低資源成本;同樣通過提升資源的利用率也能夠比較大的節(jié)省開支。
為了實現(xiàn)成本優(yōu)化和資源量化,我們也提供了一系列的產(chǎn)品,從成本分析、資源優(yōu)化、資源規(guī)格、資源使用洞察和自動化工具可以充分的幫助企業(yè)降低不必要的云上資源支出。
? CloudOps成熟的模型全景
云上運維是一個從簡單到復(fù)雜,從成長到成熟的過程管理,以降低成本提高效率為核心目標(biāo)。在現(xiàn)實中,根據(jù)使用者的上云狀態(tài)、使用規(guī)模等,其云上運維的思路都不盡相同。我們結(jié)合常用的成熟度的模型將CloudOps的成熟度模型分為5個等級。
為了方便大家更好的理解和應(yīng)用剛剛我所闡述的成熟度模型的詳細(xì)內(nèi)容,我們制作了云上自動化運維(CloudOps) 白皮書的第一版,大家可以在這本《云上自動化運維(CloudOps) 白皮書》中看到完整內(nèi)容。
云平臺的責(zé)任是構(gòu)建堅實可靠的基礎(chǔ)設(shè)施,以及圍繞著技術(shù)設(shè)施構(gòu)建的全套運維服務(wù)和能力(其中絕大部分都是免費的)。除非企業(yè)愿意將自己做成云平臺,否則在這上面的投資都是某種程度的浪費。
今天,我們一直強(qiáng)調(diào)唯快不破,軟件研發(fā)到交付正在發(fā)生劇烈的變化。從單體巨石應(yīng)用到分布式和微服務(wù)架構(gòu),從自動化到可觀測性,傳統(tǒng)的運維需要進(jìn)化到新的思路,企業(yè)應(yīng)該是更少地關(guān)注基礎(chǔ)設(shè)施和基礎(chǔ)資源,更多的回歸到應(yīng)用本身。
我們相信,擁抱云原生的企業(yè),將用新的工具與思路快速完成應(yīng)用的開發(fā)與運維,需要云平臺與企業(yè)一起共建、持續(xù)進(jìn)化,應(yīng)云而生、應(yīng)運而生。
原文鏈接:
https://developer.aliyun.com/article/833488?utm_content=g_1000313236本文為阿里云原創(chuàng)內(nèi)容,未經(jīng)允許不得轉(zhuǎn)載。