在論壇上,國(guó)外某企業(yè)的真實(shí)案例引發(fā)了熱議。一開始該企業(yè)只顧技術(shù)創(chuàng)新,積極上云,不顧成本。
直到有一天,高層介入喊停:“這個(gè)云不能再上了,成本已經(jīng)遠(yuǎn)大于收益了”。該企業(yè)因?yàn)槌杀臼Э貙?dǎo)致上云進(jìn)度延遲兩年,嚴(yán)重影響企業(yè)技術(shù)創(chuàng)新。
(資料圖片僅供參考)
隨著企業(yè)上云越來越普及,企業(yè)會(huì)發(fā)現(xiàn)用云成本也水漲船高,似乎與當(dāng)初云計(jì)算誕生時(shí)宣稱的“降低IT成本”理念背道而馳。
正因如此,云時(shí)代如何有效控制成本、質(zhì)量和效率,成為企業(yè)用云管云的新課題。與之對(duì)應(yīng)的云成本優(yōu)化(FinOps)一詞,也變得越來越流行。
在Google Trends上,“FinOps”關(guān)鍵字的搜索量在2019年到2023年的四年間增長(zhǎng)了410倍。在國(guó)外,有18000多人把FinOps技能列在了自己的LinkedIn簡(jiǎn)歷里。
CNCF發(fā)布的云原生2023年趨勢(shì)預(yù)測(cè)報(bào)告中,10個(gè)熱點(diǎn)趨勢(shì)中有4個(gè)與FinOps相關(guān),分別是FinOps、GreenOps、GitOps和削減成本。
今天就來聊聊,什么是FinOps,以及企業(yè)該如何實(shí)踐FinOps?
FinOps:用最低成本創(chuàng)造最大價(jià)值
FinOps的歷史并不悠久,公有云早期用戶Adobe和Intuit在2012年首次描繪出了FinOps的雛形。FinOps本質(zhì)上是一個(gè)理論框架,沒有特定的技術(shù)棧,其方法論來自各個(gè)云廠商最佳實(shí)踐的整合和抽象,從組織流程、識(shí)別浪費(fèi)、優(yōu)化措施等方面給出建議。
FinOps定義了一系列云財(cái)務(wù)管理規(guī)則和最佳實(shí)踐,通過助力工程和財(cái)務(wù)團(tuán)隊(duì)、技術(shù)和業(yè)務(wù)團(tuán)隊(duì)彼此合作,進(jìn)行數(shù)據(jù)驅(qū)動(dòng)的成本決策,使組織能夠獲得最大收益。
FinOps基金會(huì)的這張圖被引用了很多次,圖里簡(jiǎn)單列出了FinOps理論的原則、目標(biāo)和參與方等。
圖片來源:FinOps基金會(huì)(中譯版)
FinOps理論的最終目的是要最低的成本來創(chuàng)造最大的價(jià)值,并指出了成本優(yōu)化的三個(gè)階段:
●成本感知節(jié)點(diǎn)關(guān)注成本可視化、成本分?jǐn)偟龋?/p>
●成本優(yōu)化階段可聚焦目標(biāo)制定,然后通過費(fèi)率優(yōu)化和用量?jī)?yōu)化來節(jié)省成本;
●運(yùn)維階段通過持續(xù)優(yōu)化流程、規(guī)范和資源運(yùn)營(yíng)手段等實(shí)現(xiàn)持續(xù)成本優(yōu)化。
同時(shí),F(xiàn)inOps理論還有一些成熟度評(píng)估模型,來評(píng)估企業(yè)做得好不好。
這三個(gè)方面牽扯廣、執(zhí)行難,是一個(gè)需要拉動(dòng)企業(yè)全員參與的系統(tǒng)工程,因此成功的前提是組織目標(biāo)的高度對(duì)齊,全員經(jīng)營(yíng)意識(shí)的建立,組織堅(jiān)定的執(zhí)行力和不斷提升的執(zhí)行效率,實(shí)踐的本身就是對(duì)組織效率的大練兵。
FinOps如何實(shí)施?
知名IT軟件企業(yè)Flexera對(duì)云計(jì)算決策者進(jìn)行年度調(diào)研已經(jīng)持續(xù)12年,在3月8日發(fā)布的《Flexera 2023年云計(jì)算現(xiàn)狀報(bào)告》中顯示,82%的受訪者表示,他們面臨的最大挑戰(zhàn)是管理云支出。
近一半(45%)受訪者表示,由于經(jīng)濟(jì)不確定性,他們預(yù)計(jì)的云使用量和支出要比原計(jì)劃中的略高或大幅度提高。
因此,云成本管理的關(guān)注度也許并不令人意外。如今的經(jīng)濟(jì)波動(dòng)意味著,盡管云的使用和支出依然保持強(qiáng)勁增長(zhǎng),但企業(yè)對(duì)與之相關(guān)的費(fèi)用越來越敏感。
那么,涉及到云成本優(yōu)化時(shí),到底該如何降本增效呢?
企業(yè)要做到降本增效,無非是兩個(gè)途徑:一是減量,減少浪費(fèi)。國(guó)外有調(diào)查報(bào)告顯示,現(xiàn)在至少有35%的云資源是被浪費(fèi)掉的。二是減價(jià),從計(jì)費(fèi)模式切入優(yōu)化。
確立了路徑之后,企業(yè)具體該如何實(shí)施呢?有業(yè)內(nèi)專業(yè)給出了以下步驟:
第一,全體動(dòng)員。讓該參與的這種角色或者組織或者團(tuán)隊(duì)加入進(jìn)來。
第二,構(gòu)建精確的IT資源全景地圖。通過CMDB的方式構(gòu)建一個(gè)企業(yè)全局的資源圖譜,便于各個(gè)團(tuán)隊(duì)之間的溝通,或者在談某個(gè)項(xiàng)目或某一個(gè)環(huán)境的降本增效時(shí),確保大家的信息是對(duì)齊的。
第三,合理的標(biāo)簽。成本的分?jǐn)偅峭ㄟ^在IT資源全景地圖上,基于系統(tǒng)的層次架構(gòu)、技術(shù)架構(gòu)、業(yè)務(wù)架構(gòu)等來分?jǐn)?,在這其中有一套標(biāo)簽體系是非常重要的,需要把它當(dāng)成日常重要的工作來做。
第四,有效的IT資源利用率監(jiān)控。很多時(shí)候,企業(yè)做IT資源的可觀測(cè)性,大家比較關(guān)注系統(tǒng)可用性監(jiān)控,或是性能監(jiān)控,不太重視資源利用率的監(jiān)控。如果連利用率監(jiān)控都監(jiān)控不準(zhǔn)的話,那么就沒法判斷哪些資源是浪費(fèi)的。
值得注意的是,面向FinOps的利用率監(jiān)控和傳統(tǒng)的運(yùn)維監(jiān)控不太一樣。傳統(tǒng)的運(yùn)維監(jiān)控比較關(guān)注平均利用率,而FinOps更加關(guān)注峰值。如果不按照峰值去算容量的話,那么降本增效之后,系統(tǒng)大概率就崩潰了。
除了減量減價(jià)的優(yōu)化方式,還有一些被忽視的“省錢之道”也需要受到企業(yè)關(guān)注,例如:
●選擇適合自己的多云架構(gòu)。并非所有的業(yè)務(wù)都適合上云,有的業(yè)務(wù)上了云之后可能更貴。同時(shí),需關(guān)注多云的最大公約數(shù),保證既能跨云,又不會(huì)被某一個(gè)云廠商鎖定。
●善用托管服務(wù)。比如有的企業(yè)數(shù)據(jù)中心上云后,將原有數(shù)據(jù)中心的機(jī)器托管給服務(wù)商,基于原有的機(jī)器去上云,可以節(jié)省一大筆成本。
知名互聯(lián)網(wǎng)企業(yè)的FinOps實(shí)踐
盡管FinOps在國(guó)內(nèi)提及不多,但早在2020年12月,中國(guó)信通院就牽頭成立FinOps產(chǎn)業(yè)推進(jìn)方陣,推進(jìn)規(guī)?;瘜?shí)踐。
在那些率先擁抱云原生的互聯(lián)網(wǎng)大廠內(nèi)部,云成本優(yōu)化的種子其實(shí)早就生根萌芽,形成了最佳實(shí)踐的方法論。FinOps的出現(xiàn),讓大廠們的優(yōu)化經(jīng)驗(yàn)得到了更體系化的表達(dá)。
以字節(jié)跳動(dòng)為例,他們內(nèi)部已有相關(guān)實(shí)踐,例如云賬單分析,多云架構(gòu)下對(duì)不同廠商定價(jià)策略的審視,推薦、廣告、搜索的在離線任務(wù)混合部署等。目前,字節(jié)跳動(dòng)在云成本優(yōu)化上的最佳實(shí)踐,將通過火山引擎對(duì)外提供服務(wù)。
阿里集團(tuán)也搭建了自己的混合云資源管理平臺(tái)(HCRM),推進(jìn)自身成本數(shù)字化從無到有的建設(shè),重新疏通集團(tuán)內(nèi)部的云資源計(jì)費(fèi)和結(jié)算鏈路。
在騰訊內(nèi)部,云業(yè)務(wù)成本中心承擔(dān)著FinOps團(tuán)隊(duì)的職責(zé),需要背上資源優(yōu)化的考核指標(biāo),從平臺(tái)側(cè)、業(yè)務(wù)側(cè)著手,甚至可以向上匯報(bào),通過GM的層級(jí)去推動(dòng)。
以騰訊為例,其內(nèi)部構(gòu)建了豐富的成本和利用率績(jī)效看板,每天晾曬績(jī)效,做得好或不好都會(huì)及時(shí)披露。
騰訊內(nèi)部的成本看板主要包括兩個(gè)維度:第一個(gè)是哪個(gè)帳號(hào)買了哪些資源,第二個(gè)是哪些業(yè)務(wù)使用了這些資源,包括一些分?jǐn)偧?xì)節(jié)。
此外,還有面向平臺(tái)和業(yè)務(wù)的利用率、成熟度等成熟度指標(biāo)看板,主要了解資源大盤的整體情況,看投入使用部分用得好不好,同時(shí)盤活閑置資源、減少浪費(fèi)。
平臺(tái)側(cè)提供的FinOps能力從以下幾個(gè)角度助力業(yè)務(wù)和平臺(tái)達(dá)成目標(biāo):
業(yè)務(wù)優(yōu)化:在云控制臺(tái)上提供了資源優(yōu)化專項(xiàng)頁(yè)面,基于業(yè)務(wù)的資源用量歷史進(jìn)行預(yù)測(cè),構(gòu)建業(yè)務(wù)資源畫像,并給出資源優(yōu)化建議。
規(guī)格建議:通過對(duì)比業(yè)務(wù)資源的申請(qǐng)量和使用量,可以告訴業(yè)務(wù)可以節(jié)省的成本數(shù)據(jù),然后業(yè)務(wù)可以通過系統(tǒng)的控制臺(tái)直接做優(yōu)化。
彈性建議:比如某個(gè)工作日資源使用非常高,但周末基本沒有流量,這時(shí)候周末就要縮容,這些業(yè)務(wù)也可以通過控制臺(tái)自己優(yōu)化。
平臺(tái)優(yōu)化:云平臺(tái)在進(jìn)行業(yè)務(wù)調(diào)度時(shí),提供了眾多基于資源畫像的調(diào)度能力。
調(diào)度優(yōu)化:提出了面向真實(shí)利用率的動(dòng)態(tài)調(diào)度能力,管理員設(shè)定節(jié)點(diǎn)目標(biāo)利用率,只要利用率還未達(dá)標(biāo),調(diào)度器就可以調(diào)度更多業(yè)務(wù)進(jìn)來。
混部能力:引入差異化 SLA,允許高優(yōu)在線業(yè)務(wù)和低優(yōu)近離線業(yè)務(wù)混部,壓榨每一分算力,同時(shí)離線服務(wù)可以在發(fā)生資源競(jìng)爭(zhēng)時(shí)立即讓渡資源需求,實(shí)現(xiàn)對(duì)在線業(yè)務(wù)零干擾。
據(jù)悉,騰訊內(nèi)部的在線業(yè)務(wù)通過調(diào)度優(yōu)化手段把資源利用率拉到48%,再加上離線混部,部分集群資源利用率可以達(dá)到65%以上。
整體來看,騰訊CPU規(guī)模達(dá)到了5000萬(wàn)核,而云成本優(yōu)化總節(jié)省30億元。
企業(yè)何時(shí)下場(chǎng)FinOps?
盡管互聯(lián)網(wǎng)大廠們已做出表率,在FinOps實(shí)踐中取得了可觀的成績(jī),這是否意味著眼下所有的企業(yè)都應(yīng)該進(jìn)入到FinOps的實(shí)踐中?
事實(shí)上,企業(yè)對(duì)上云的關(guān)注點(diǎn)是循序漸進(jìn)的:第一階段企業(yè)關(guān)注的更多是隱私、穩(wěn)定,以及行業(yè)監(jiān)管政策;第二階段則是云與業(yè)務(wù)、研發(fā)、管理等體系的適配,關(guān)注效率的提升;第三階段,才會(huì)來到成本優(yōu)化的層次。
目前大多數(shù)國(guó)內(nèi)企業(yè)還處在業(yè)務(wù)遷上云原生的時(shí)期,當(dāng)企業(yè)面對(duì)業(yè)務(wù)壓力時(shí),成本管控的優(yōu)先級(jí)自然會(huì)先“放一放”;當(dāng)業(yè)務(wù)趨于穩(wěn)定,應(yīng)用的容器化、架構(gòu)的現(xiàn)代化接近完成,也就是時(shí)候?qū)㈥P(guān)注點(diǎn)轉(zhuǎn)到成本優(yōu)化上來。
但現(xiàn)狀如此,并不代表這就是理想的狀態(tài)。
有業(yè)內(nèi)專家直言,云成本優(yōu)化應(yīng)該從上云的第一天就開始規(guī)劃,并且不斷優(yōu)化。
“很多企業(yè)在上云的過程中,只是把過去的經(jīng)驗(yàn)簡(jiǎn)單粗暴的套用在新技術(shù)棧上。也有眾多團(tuán)隊(duì)武斷地認(rèn)為成本優(yōu)化和業(yè)務(wù)穩(wěn)定性是相背離的,二者只能取其一”,該專家表示。
結(jié)語(yǔ)
FinOps是大勢(shì)所趨,而且正處于快速發(fā)展的早期階段。對(duì)于企業(yè)來說,早期的實(shí)踐和轉(zhuǎn)變總會(huì)帶來陣痛,實(shí)踐者需要做好這樣的心理準(zhǔn)備。而 FinOps未來如何幫助企業(yè)把云“用好”,還需要全行業(yè)的不懈努力和探索。
相關(guān)閱讀
“物有所值”還是“有所不值”?FinOps算一筆云計(jì)算的經(jīng)濟(jì)賬
中美云巨頭盈利差距拉大,中國(guó)云計(jì)算為什么不賺錢?
云計(jì)算“躺賺”時(shí)代過去了,算清賬變得更重要
【科技云報(bào)道原創(chuàng)】
轉(zhuǎn)載請(qǐng)注明“科技云報(bào)道”并附本文鏈接