企業(yè)云如何進行成本優(yōu)化?
近年來低碳發(fā)展已成為國家重要戰(zhàn)略,2022年黨的二十大報告中再次強調了碳達峰、碳中和的重要性,云計算作為促進能源效率提升和能源結構優(yōu)化的關鍵技術,可以幫助企業(yè)實現(xiàn)“減排不減產,增收不增耗”的可持續(xù)發(fā)展,在企業(yè)雙碳節(jié)能工作中起到重大作用,正加速成為各行業(yè)企業(yè)數(shù)字化與低碳發(fā)展的新引擎。
然而,隨著企業(yè)上云廣度、深度持續(xù)拓展,云計算的成本投入與用云復雜程度也不斷增加,成本過高、效益不及預期等問題開始顯現(xiàn),降本增效成為企業(yè)關注重點,企業(yè)工作中心逐漸從如何遷移上云轉變?yōu)槿绾蝺?yōu)化用云。
云計算使企業(yè)IT消費模型產生巨大變革,原有的成本管控模式不再適用于云計算環(huán)境,各類業(yè)務陸續(xù)上云導致成本管理難度不斷提高,云資源浪費情況越發(fā)嚴重 。企業(yè)如何應對日益復雜的云環(huán)境,提升自身成本優(yōu)化能力成為關鍵課題。
近年來,越來越多企業(yè)采用云計算來代替?zhèn)鹘y(tǒng)IT基礎設備,以降低成本、提高生產效率、運維效率和能源效率。盡管企業(yè)上云的采用率不斷攀升,但高采用率并未對應高成功率。
云計算使用成本和復雜程度均超出企業(yè)的預期。企業(yè)上云用云成本過高、價值釋放不足、管控難度大等問題日益顯現(xiàn),《中國云使用優(yōu)化報告》數(shù)據(jù)顯示,企業(yè)上云后成本不可控制是企業(yè)用云面臨的最大挑戰(zhàn),且九成以上用云企業(yè)面臨成本浪費問題,過高的成本導致云資源投入與產出收益不匹配。麥肯錫調查數(shù)據(jù)顯示,74%的企業(yè)云轉型未能獲取預期價值,受訪者認為,云技術比他們最初預期的更復雜,40%的受訪者認為云資源成本超出了企業(yè)的預算,云轉型所帶來的實際價值與預期價值仍存在較大差距。
Flexera 發(fā)布的《2023 年云狀態(tài)調查報告》顯示,企業(yè)在上云用云成本的管理取代了安全性話題,成為當下云使用者面臨的首要問題。調查數(shù)據(jù)顯示,上云用云企業(yè)仍然面臨約30%的成本浪費,82% 的受訪者認為管理云計算支出是他們面臨的首要挑戰(zhàn),其中有 71% 的重度云用戶將優(yōu)先考慮優(yōu)化云的現(xiàn)有使用情況以節(jié)省云成本。近年來,隨著產業(yè)界對云計算的理解不斷深入,企業(yè)也逐漸意識到實施成本優(yōu)化,更應關注云資源為業(yè)務帶來的效益,而非單純的成本節(jié)省。
企業(yè)成本優(yōu)化也隨之進入新階段,即在成本可控的前提下,全方面提升云資源使用效益。云資源效益是衡量企業(yè)上云用云成效的關鍵因素,可以理解為企業(yè)使用各種云資源為業(yè)務發(fā)展所帶來的貢獻度,即云計算投入與收益比。云資源的使用與運營關乎著云平臺整體效能水平、云業(yè)務敏捷性、創(chuàng)新性和安全性等。促進云資源為業(yè)務提供更加優(yōu)質的支持,提升云資源效益是企業(yè)云計算價值釋放的重要標志。
云計算重塑企業(yè) IT 消費模型,云成本與傳統(tǒng) IT 固定成本不同,云計算成本類型由固定成本CapEX重塑為CapEX+OpEX可變成本,云計算資源采購方式從集中式重塑為分布式,云計算采購決策從短期決策重塑為長期運營,云計算成本管理從前置評估重塑為后置監(jiān)控,這些變化需要企業(yè)優(yōu)化調整組織建設來應對云成本的管控。
一方面,企業(yè)需要建立云成本優(yōu)化的文化制度與運營機制,另一方面,企業(yè)需要從人員組織、工具平臺、流程制度等多方面建立可持續(xù)的云成本優(yōu)化能力體系。
企業(yè)實施云成本優(yōu)化不僅包括從技術層面的資源優(yōu)化,還應包括云成本優(yōu)化文化的建設,例如人員組織的適配,運營模式的轉變,獎勵機制的保障等。
云成本優(yōu)化的文化建設應貫穿企業(yè)用云全周期,從企業(yè)上云歷程看,大致可以劃分為戰(zhàn)略、采購、上云、用云、持續(xù)運營五個階段,在每個階段,企業(yè)需要關注不同的工作重點。
戰(zhàn)略階段,企業(yè)需要決策云部署和技術選型,選擇不同的云計算模式和架構類型將影響成本構成和優(yōu)化方式。采購階段,企業(yè)需要選擇適合業(yè)務特性的資源和付費方式,以避免成本浪費。上云階段,企業(yè)需要明確云上成本治理責任模型,明確業(yè)務、開發(fā)、運維、架構、財務和采購等多角色義務與責任。用云階段,企業(yè)需要對云資源進行全面監(jiān)控管理,并采取針對性優(yōu)化措施以處理閑置和低效率情況。持續(xù)運行階段,定期復盤各環(huán)節(jié)成本優(yōu)化工作,并匯總分析歷史數(shù)據(jù), 對各部門資源使用進行統(tǒng)一價值量化,按照優(yōu)化成果給予明確的獎勵措施,形成更有效的優(yōu)化策略并應用于各環(huán)節(jié)中,實現(xiàn)持續(xù)的成本優(yōu)化閉環(huán)。
能力企業(yè)需要從人員角色、工具平臺、流程制度三方面建立可持續(xù)的云成本優(yōu)化能力體系。
人員角色是云成本優(yōu)化工作的關鍵抓手,成本優(yōu)化需要企業(yè)業(yè)務、財務、技術等方面多個角色共同參與,打破原有各管一段、各自為戰(zhàn)的傳統(tǒng)IT管理方式,形成FinOps成本優(yōu)化團隊,各角色長期協(xié)同共同努力達到成本長期治理的目標。
工具平臺是云成本優(yōu)化工作的重要手段,成本優(yōu)化是個復雜且耗時的工作,例如賬單的拆分、計費的管理,僅靠人工是無法使成本優(yōu)化工作效率提升至較高水平,需要將各項能力沉淀到工具中。企業(yè)可以通過自建或采購成本優(yōu)化工具驅動自助降本。
流程機制是云成本優(yōu)化工作的前提保障,面對云計算特殊的消費和運營模式,成本優(yōu)化工作需要組織內部對應流程機制進行輔助,權限管控體系、資源申請流程、獎罰機制等優(yōu)化流程機制能夠確保閉環(huán)優(yōu)化策略在企業(yè)內部精確、高效運轉。
當前,企業(yè)對于自身云資源使用情況了解程度不深,相關人員的關注點通常在云資源的采購,對于上云后的如何用云、資源運營情況方面的關注程度較低,造成資源閑置、資源使用低效等現(xiàn)象。在此背景下,提升云資源效益尤為重要,企業(yè)可從云資源規(guī)劃、云資源監(jiān)控和調度三方面優(yōu)化云資源使用,并通過云資源效益度量了解自身效益情況。
云規(guī)劃階段,企業(yè)需要對云資源容量進行合理評估及采購。
容量評估方面,企業(yè)可通過調研業(yè)務部門未來一段時間的業(yè)務規(guī)劃,梳理并列出適合業(yè)務并留有一定冗余量的資源規(guī)格和用量。通常情況下,容量評估可以從常駐資源和彈性資源兩個維度進行評估和規(guī)劃。
企業(yè)云資源的申請普遍存在過度申請的情況,常駐資源和彈性資源結合可以有效減低冗余資源成本。常駐資源通常承載在線業(yè)務、常駐的作業(yè)等,這部分的容量規(guī)劃通常需要根據(jù)實際業(yè)務場景的水位來預估。對于可靠性要求較高的場景,可以設置峰值水位為常駐容量。而將非預期內的激峰流量和臨時任務,交給彈性資源進行補充和供給。
資源采購方面,根據(jù)業(yè)務特性選擇合適的付費方式是成本優(yōu)化最直接的方式,企業(yè)可以根據(jù)自身業(yè)務特性選擇合理的資源付費模式,以達到節(jié)省成本的目的。云服務商資源實例通常包含以下三種:
(1)按需:隨用隨啟,根據(jù)運行的實例以按小時或按秒的方式計算容量并付費。適用于短期突發(fā)性的業(yè)務資源需求,具備更高的靈活性。
(2)預留:有一定的使用承諾(如:1年,3年的使用承諾),與按需實例的定價相比,預留實例可提供大幅折扣(通常為按需實例的60%)。適用于長期使用并且較為穩(wěn)定的業(yè)務資源需求,具備更高的穩(wěn)定性。
(3)競價:極端彈性和廉價的計算資源。它的價格根據(jù)供需關系變化,與其他實例的相比具有非常明顯的價格優(yōu)勢(通常為按需實例的10%-20%),但存在資源被廠商回收無法使用的風險。適用于無狀態(tài)且可容錯的業(yè)務資源需求,具備更高的性價比。
此外,企業(yè)可以利用云端彈性的優(yōu)勢配置自動伸縮功能,以多種資源實例的組合來滿足業(yè)務需求,維持業(yè)務穩(wěn)定性的同時獲取最佳的成本效益。
用云階段,企業(yè)需要對云資源使用情況進行監(jiān)控和分析,配置資源監(jiān)控標準庫,通過監(jiān)控識別資源成本運行狀態(tài),以明確自身云資源使用現(xiàn)狀,為資源優(yōu)化提供數(shù)據(jù)支撐。
企業(yè)在上云之后,應該實時監(jiān)控自身資源的使用狀態(tài),及時的發(fā)現(xiàn)、識別低效的云資源,進而進行相應的調整和優(yōu)化,提升資源利用效率。建立完善的資源監(jiān)控體系能夠幫助企業(yè)對云資源進行全面監(jiān)控,獲取云平臺在運行過程中的底層資源利用率數(shù)據(jù),例如CPU使用率、內存使用率等指標。企業(yè)可以利用資源監(jiān)控數(shù)據(jù)有效的識別低效資源,并將此類資源分離出來,通過一段時間的監(jiān)控數(shù)據(jù)來評估是否可以對其進行優(yōu)化。
低效資源通常包括閑置資源與低負載資源,閑置資源主要包括一直處于關機狀態(tài)的資源或開機卻并未使用的資源,低負載資源主要包括業(yè)務閑時使用率數(shù)據(jù)較低的資源。
在監(jiān)控云平臺整體資源使用情況的同時,企業(yè)應同步監(jiān)控各組織、各業(yè)務場景下的資源使用情況,以便更好的規(guī)劃和推動資源優(yōu)化工作。在監(jiān)控過程中,如果某業(yè)務出現(xiàn)長時間的配額閑置情況,管理員應當重新評估和規(guī)劃業(yè)務的容量配額,適當減少該業(yè)務配額,并將資源優(yōu)先分配給處于瓶頸的業(yè)務,提升云資源使用效率。
此外,企業(yè)還可以根據(jù)以往的監(jiān)控數(shù)據(jù)進行分析和預測未來各業(yè)務資源容量的需求和變化,提前預警和規(guī)劃業(yè)務資源分配,保障業(yè)務性能的同時避免云資源浪費。
企業(yè)在明確云資源使用情況后,需要對閑時資源與閑置資源進行優(yōu)化治理。
對業(yè)務資源進行閑時縮容與降配,可以有效提升資源利用率。具有周期性規(guī)律的業(yè)務通??梢灶A測其未來的流量情況,可以根據(jù)未來流量預測定時自動擴縮容,從而大幅降低云上成本。具有周期性規(guī)律的業(yè)務主要優(yōu)化策略包括:一是開發(fā)、測試類系統(tǒng),可以使用按量付費資源在非工作時間自動啟停;二是社交類業(yè)務系統(tǒng),如微博、抖音等,峰值流量出現(xiàn)在中午1點和晚上10點左右,可以設置閾值自動調配資源;三是證券類業(yè)務系統(tǒng),在工作時間內有穩(wěn)定的訪問需求,可以在晚間或者節(jié)假日適度降配;四是運行在企業(yè)內部的軟件系統(tǒng),如ERP、CRM等辦公類系統(tǒng),可以在節(jié)假日適量降低資源配額或配置。企業(yè)需要明確自身業(yè)務情況,對周期性業(yè)務進行合理評估和規(guī)劃,避免在資源自動擴縮容的過程中出現(xiàn)業(yè)務穩(wěn)定性問題。
對業(yè)務閑置資源進行技術關停,可以規(guī)避大量的云成本浪費。企業(yè)在云上的閑置資源關停通常有兩種情況,一是過剩資源關停,即大部分資源的使用率或配額低于規(guī)劃的范圍且是合理使用,此時應降低預算配額,合理優(yōu)化成本;二是遺留資源關停,即依賴關系不存在時的遺留資源,例如快照資源,依賴于其他資源生成數(shù)據(jù),當其他資源不存在時,快照也無需存在,建議及時停止或刪除這類資源。企業(yè)在關停閑置資源之前需對其中應用和數(shù)據(jù)進行遷出,避免關停后的應用故障和數(shù)據(jù)丟失。
當前,企業(yè)云成本優(yōu)化能力體系建設還處于初級階段,尚無大規(guī)模落地經(jīng)驗,企業(yè)缺少相關環(huán)節(jié)的標準規(guī)范引領,企業(yè)云成本優(yōu)化能力體系建設相關的標準、成效評價體系成為新的關注方向。
在此背景下,中國信通院牽頭制定并發(fā)布了《云成本優(yōu)化服務能力》、《云成本優(yōu)化工具能力要求》、《云資源效益度量模型》等全方位、多角度的標準和評估模型,并將持續(xù)研究企業(yè)云能力優(yōu)化課題,完善企業(yè)在云成本、性能、安全、數(shù)據(jù)等方面的優(yōu)化和治理標準體系,并面向央國企、行業(yè)云等場景展開深入研究,形成多維度完整的評估體系。
云成本優(yōu)化能力建設標準規(guī)范和評價體系助力企業(yè)構建高質量、高效率的成本優(yōu)化體系,標準涵蓋對企業(yè)云成本優(yōu)化領域能力建設、工具水平、服務質量的規(guī)范,同時還提出企業(yè)事后云資源效益情況度量的一套方法,為企業(yè)云成本優(yōu)化前期規(guī)劃、中期執(zhí)行、后期復盤全流程提供專業(yè)指導。
能力建設方面,中國信息通信研究院研究發(fā)布了成本優(yōu)化服務商、成本優(yōu)化工具等多項標準。成本優(yōu)化服務商標準考察服務方成本優(yōu)化咨詢能力、工具服務能力、實施能力、培訓賦能能力四方面,對服務方成本優(yōu)化流程和質量進行規(guī)范性要求。成本優(yōu)化工具標準分別針對原生成本優(yōu)化工具和混合多云成本優(yōu)化工具提出了場景化的能力要求,為企業(yè)選擇成本優(yōu)化工具提供重要依據(jù)。成本優(yōu)化能力成熟度標準考察企業(yè)自身成本優(yōu)化能力是否完備,從技術、流程、組織維度評價企業(yè)成本優(yōu)化能力成熟度,引導企業(yè)正確規(guī)劃未來成本優(yōu)化建設方案。
評價體系方面,中國信息通信研究院提出了企業(yè)云資源效益度量模型(Cloud CAPEX Efficiency Model ),依據(jù)《云資源效益度量模型》幫助企業(yè)分層次、分模塊的評估衡量云計算使用成效,評估價值結果分為基礎級、增強級、優(yōu)秀級、卓越級和引領級五個級別,企業(yè)可選擇IaaS模塊、PaaS模塊、業(yè)務應用模塊等部分分別評估云計算價值成效,并頒發(fā)相應水平等級證書。《云資源效益度量模型》通過定因、定則、定權、定級四個步驟,對企業(yè)業(yè)務云資源效益進行專業(yè)度量。
云資源浪費普遍存在,云成本優(yōu)化成為必然
企業(yè)用云效果不佳,云計算價值釋放不足
資源效益?zhèn)涫荜P注,成本優(yōu)化進入新階段
云改變企業(yè)IT成本模型,組織建設是云成本優(yōu)化的關鍵保障
轉變云資產管理模式,關注文化建設實現(xiàn)長效運營
構建云成本治理能力,完善人員、工具和流程體系
云改變企業(yè)IT運行模式,資源提效是云成本優(yōu)化的核心本質
適當降低資源冗余,配置彈性資源補給
配置資源監(jiān)控標準,有效識別低效資源
閑時資源自動縮容,閑置資源合理關停
標準規(guī)范和評價體系讓企業(yè)云能力建設“有規(guī)可依”
云成本優(yōu)化能力建設標準規(guī)范和評價體系