IT運維大(dà)牛萬字自述:道盡十多年血淚史與轉型自救路
時間:2022/5/26 14:30:30浏覽次數:524
運維大(dà)牛萬字自述:道盡十多年血淚史與轉型自救路
與一(yī)個行業大(dà)牛的朋友交流時,在聽(tīng)到他年輕時在大(dà)廠的一(yī)些關于将工(gōng)作方法升華爲方法論,比如“監、管、控”、“新網點”理念,并推動整個行業建設時爲之一(yī)震。這個觸動讓我(wǒ)(wǒ)有了讓自己的運維知(zhī)識體(tǐ)系建設做第一(yī)次飛躍的打算,即如何将知(zhī)識體(tǐ)系通過一(yī)個主線串起來。
關于這個主線,找過一(yī)些朋友做了交流,比如“風險可控”、“一(yī)體(tǐ)化”、“更高效更優化的資(zī)源配置”、“可擴展性”。由于自己主要身處一(yī)線運維團隊,所以選了“可擴展性”的主線,接下(xià)來打算根據這條主線,不斷完善知(zhī)識體(tǐ)系,目标是體(tǐ)系化的整理知(zhī)識體(tǐ)系,主要從組織、流程、工(gōng)具的可持續整合。
以下(xià)内容,主要是對運維整體(tǐ)的概覽,講講對運維的認識,以及一(yī)些轉型理念思考。
一(yī)、運維不簡單
前陣子,跟一(yī)個項目經理溝通能否提前半天将變更申請提交過來時,這位項目經理很不理解地問我(wǒ)(wǒ):“你們運維不就是在生(shēng)産環境部署個程序這麽簡單的工(gōng)作嗎(ma)?你們又(yòu)不懂程序,評審不出什麽吧?”
運維多年,對運維的這類認識聽(tīng)過很多,它反映了企業裏不同的組織團隊對運維的認識往往僅限于一(yī)些簡單操作性的工(gōng)作,比如生(shēng)産應用系統在故障時的重啓、應用變更時敲敲命令、平時增删改查數據,或者是辦公室和電(diàn)有關的所有軟硬件的使用問題等等。
那麽如何理解運維呢?百度百科對運維的解釋爲:企業IT部門采用相關的方法、手段、技術、制度、流程和文檔等,對IT軟硬運行環境(軟件環境、網絡環境等)、IT業務系統和IT運維人員(yuán)進行的綜合管理。從百度百科的解釋看,運維崗位需要一(yī)個綜合性的技術與管理能力,需要掌握大(dà)量的方法論與技術棧。
運維狹義“運維技術與資(zī)源”可以定義爲“監、管、控”,技術與資(zī)源主要是支撐運維/運營的質量、效率、成本的平衡。以下(xià)簡單摘錄了運維的一(yī)些能力要求:
圖1.1
圖1.2
講到這,肯定會有人說上述的技術棧的能力要求,通常是由于某個運維組織的仍處于專家式運維,自動化程度不夠高導緻。
的确,理論上所有運維操作性、命令的工(gōng)作都可以整合爲經驗,并通過自動化落地實現,現在互聯網企業對外(wài)都宣稱自動化在運維工(gōng)作覆蓋面很高,己經開(kāi)始邁向智能化,AIOps,甚至提出了NoOps的解決方案。
關于這些互聯網企業的自動化對日常運維工(gōng)作真實的覆蓋面暫時無法考究,但以我(wǒ)(wǒ)的經驗看,至少金融企業的自動化覆蓋面還有很長的路要走,且肯定還會很大(dà)一(yī)部分(fēn)工(gōng)作很難自動化,畢竟工(gōng)作類型太多,在有限的投入上隻能集中(zhōng)力氣去(qù)做投入産出比更高的運維自動化。這裏再以一(yī)個運維工(gōng)具思維導圖(圖1.3)簡單列示一(yī)些常規的運維操作,可以看出其實很難有一(yī)套能解決所有運維操作的工(gōng)具平台。
圖1.3
所以我(wǒ)(wǒ)覺得,随着業務要求越來越高、規模越來越大(dà)、監管要求越來越高,縱使外(wài)部如何宣稱自動化、智能化對運維人員(yuán)經驗、技術、管理能力替代,金融企業内的運維還需要認清實際情況,結合企業的整體(tǐ)戰略定位,強調運維團隊在運維管理與技術能力的廣度與深度,再有側重、有先後的實現自動化水平。
在未來一(yī)段時間裏,金融企業的運維崗位仍是一(yī)個複雜(zá)的、綜合性技能的工(gōng)作崗位。
二、運維之痛
近年來,随着運維技術的快速發展,各行業的運維水平在得到了較大(dà)的提升同時,運維圈的分(fēn)享也越來越開(kāi)放(fàng),從國外(wài)Google的SRE理念,到國内新技術領跑者以及借助于各種運維專題的公衆号、運維大(dà)會有大(dà)量的互聯網、傳統企業的運維組織進行分(fēn)享。
1、組織之痛
前面講過,在企業内部其它團隊對運維的認識通常是簡單操作,出故障時才會找的團隊,随着信息技術的發展與業務的發展,運維組織痛點越來越明顯,企業内對運維組織的不滿的聲音越來越多,反思一(yī)下(xià)原因,分(fēn)外(wài)部客觀因素和内部因素。
1)外(wài)部客觀因素
在當前大(dà)數據時代,金融企業的運維面臨業務規模的不斷擴大(dà),業務競争越來越激烈,監管要求越來越高,數據中(zhōng)心的規模也越來越高,大(dà)量新技術、開(kāi)源架構的引入取代了傳統穩定的系統架構等等因素影響。
2)内部因素
網上有一(yī)個調查數據,在整個運維成本的分(fēn)配中(zhōng),軟硬件和網絡設備的維護成本占 30%,維護服務成本占30%,内部運維人力成本則占了40%。這裏的人力成本包括現在維護、培訓、流失與引入等成本,如果将維護服務成本也納入到人力成本之上,則人力這一(yī)塊的成本将上升爲70%,影響這個人力成本的因素主要有:
2、個體(tǐ)之痛
作爲運維組織中(zhōng)的運維人員(yuán)同樣面臨不少痛點,有來自工(gōng)作時間、工(gōng)作壓力、學習壓力、職業發展等等,以下(xià)簡單羅列:
三、自救
1、SRE
SRE這個名詞最早是從《Google SRE 運維解密》一(yī)書(shū)中(zhōng)獲得,全稱是Site Reliability Engineering,翻譯過來就是:站點可靠性工(gōng)程師。Google對SRE的職責描述爲:确保站點的可用,爲了達到這個目的,一(yī)方面他需要對站點涉及的系統、組件熟悉,也要關注生(shēng)産運行時的狀态。
爲此,他需要自開(kāi)發并維護很多工(gōng)具和系統支撐系統的運行,比如自動化發布系統、監控系統、日志(zhì)系統、服務器資(zī)源分(fēn)配和編排等。SRE是一(yī)個綜合素質很高的全能手,如果對他的能力進行分(fēn)解主要有三塊:
2、運維開(kāi)發
關于運維開(kāi)發的理解主要體(tǐ)現在運維工(gōng)具層面,不同的組織有不同的理解,通常有三類:
總的來說,不管選用上面哪一(yī)種方式,運維開(kāi)發團隊都應該有一(yī)個整體(tǐ)、統一(yī)的一(yī)體(tǐ)化工(gōng)具建設規劃,并在建設過程中(zhōng)始終保持對運維工(gōng)具體(tǐ)系的掌控能力,并在工(gōng)具體(tǐ)系的上層爲其它運維人員(yuán)提供簡易的、可創造性的“開(kāi)發能力”,比如所見即所得的工(gōng)具可視化、可定制的運維報表、拖拉拽方式的流程及腳本組件的拼裝等運維開(kāi)發方式。
3、DevOps
1)DevOps概述
DevOps一(yī)詞的來自于Development和Operations的組合,突出重視軟件開(kāi)發人員(yuán)和運維人員(yuán)的溝通合作,通過自動化流程來使得軟件構建、測試、發布更加快捷、頻(pín)繁和可靠,他是一(yī)種方法論,包含一(yī)套基本原則和實踐,工(gōng)具是爲有效落實這套方法論提供支持。
在軟件全生(shēng)命周期管理過程中(zhōng),包括開(kāi)發、構建、測試、發布、運營,在這個全生(shēng)命周期管理過程中(zhōng)出現了開(kāi)發組織與運維組織的部門牆,這是因爲開(kāi)發組織關注需求的實現,希望盡快實現變更;運維組織關注系統運行穩定,而變更又(yòu)往往是生(shēng)産應用不穩定的原因。
DevOps方法論的出現主要是爲了解決這個協作問題,以讓軟件交付更加高效,質量更高,生(shēng)産端更加敏捷,生(shēng)産運行過程中(zhōng)的問題能更加高效的反饋到開(kāi)發,形成一(yī)個全生(shēng)命周期的閉環。随着業務對運維交付能力的時效性要求越來越高,運維組織面臨“吃力不讨好”的問題:
2)運維實踐中(zhōng)的DevOps
可以從工(gōng)具鏈、組織文化、自動化、敏捷看闆等角度講DevOps,比如在目前比較活躍的DevOps36計,基本覆蓋了運維領域很大(dà)的一(yī)塊:
圖1.4
從DevOps的落地效率來看,需要将DevOps進行聚焦,聚焦到交付能力上,這方面,行業裏比較标準化的評估是去(qù)年底由中(zhōng)國信息通信研究院,聯合一(yī)些互聯網企業、運維社區,以及一(yī)些金融、傳統企業聯合進行編制的DevOps标準(券商(shāng)行業中(zhōng)華泰參加了編制)。從這個能力模型公布出來的一(yī)些介紹看,标準對DevOps範圍比較克制主要以交付能力來分(fēn)解敏捷開(kāi)發、持續交付、技術運營、應用架構、組織架構,這和最早的DevOps能力環比較吻合:
圖1.5
從運維的交付場景看,主要是資(zī)源交付與應用交付,其中(zhōng)資(zī)源交付以IaaS、PaaS雲的建設爲主,通過雲管平台的工(gōng)具鏈将基礎設施、網絡、硬件、虛拟化、容器、運行中(zhōng)間件等系統軟硬件交付能力自動化,并通過CMDB整合DevOps能力環之上的應用場景,實現資(zī)源的快速交付。
資(zī)源交付能力主要在于IaaS、PaaS層的雲平台标準化、自動化、平台擴展性等方面的建設程度。應用的快速交付比資(zī)源交付更爲複雜(zá),應用交付涉及全鏈路的整合,鏈路上的節點越多落地的難度越大(dà),因爲它不僅涉及技術,還涉及理念的認同與聚焦。
應用交付能力要實現,最簡單的技術棧工(gōng)具需要CMDB、應用發布工(gōng)具、應用版本庫、監控工(gōng)具,上述工(gōng)具對内要與雲平台對接,對外(wài)要提供接口給開(kāi)發、測試工(gōng)具。當然如開(kāi)發、測試也能和運維使用同一(yī)套發布工(gōng)具、應用版本庫則效果更好,不過,實際實施過程中(zhōng)組織之間還是會有不少沖突,比如開(kāi)發關注源代碼版本管理,測試、運維關注運行版本的管理,需各個組織共同付出共建技術鏈。
4、運營
關于運維圈裏運營的概念,以轉型口号喊得比較多,我(wǒ)(wǒ)對運維當中(zhōng)的運營有業務運營與技術運營兩個維度的理解。業務運營是通過功能優化或工(gōng)具開(kāi)發等方式解決業務工(gōng)作痛點,或通過運行分(fēn)析發現影響業務開(kāi)展的因素,并推動相關的優化,最終提升業務能力。技術運營則主要從技術角度去(qù)降低IT成本,提升IT服務質量與效率。具體(tǐ)的實施内容可以考慮如下(xià):
圖1.6
從上述概括可以看出,當前運維裏面的運營,與運維數據密切相關,需要基于運維大(dà)數據平台來提升運營質量。
爲了進一(yī)步說明運營,這裏舉兩個例子:
1)理論
優锘科技CEO的陳傲寒在2016年寫過一(yī)篇文章《IT:從運維到運營》,仍是我(wǒ)(wǒ)讀過最好的一(yī)篇。全文從企業、運維組織角度出發分(fēn)析什麽是運維、什麽是運營,再将運營分(fēn)解到不同角色上的理解與落地的方向,全文均是幹貨,值得通讀,這裏隻列出一(yī)個思維導圖。
圖1.7
2)實戰
參加過一(yī)場騰訊QQ關于DevOps的培訓,對于它們提到的一(yī)個自救方式的運營手段很有印象。那就是在騰訊QQ逐漸被微信團隊替代過程中(zhōng),QQ技術運維團隊是如何通過各種方式去(qù)爲企業帶來效益,比如他們通過運維分(fēn)析,得到如何更加合理的使用帶寬、資(zī)源,大(dà)大(dà)減少了公司在基礎設施方面的投入。
在金融企業中(zhōng),也同樣有很多空間可以去(qù)嘗試,比如分(fēn)析業務痛點,爲業務提供快速的策略性的工(gōng)具來替代重複操作性的業務操作;通過運維數據分(fēn)析,發現客戶體(tǐ)驗方面的痛點,推動業務功能的優化等等。
4、AIOps
AIOps這個詞最早是在2016年由Gartner提出(當然國内很多廠商(shāng)也提出它們早幾年也提出了這個理念)。AIOps是Algorithmic IT Operations的縮寫,是基于算法的IT運維,即通過使用統計分(fēn)析和機器學習的方法處理從各IT設備、業務應用、運維工(gōng)具收集的數據,從而加強增強運維自動化能力,以便更快、更有效、更全面地自動化效果。以下(xià)是Gartner提出AIOps的一(yī)張圖:
圖1.8
Gartner通過使用圖1.9中(zhōng)的圖解釋了AIOps平台的工(gōng)作原理。AIOps有兩個主要組件:大(dà)數據和機器學習。它需要從孤立的IT數據中(zhōng)移除,以便将大(dà)量數據平台内的觀察數據(例如監控系統和作業日志(zhì)中(zhōng)發現的數據)與參與數據(通常在故障單,事件和事件記錄中(zhōng)找到)相結合。
AIO然後針對組合的IT數據實施全面的分(fēn)析和機器學習(ML)策略。期望的結果是持續的見解,通過自動化産生(shēng)持續的改進和修複。AIO可以被認爲是核心IT功能的持續集成和部署(CI/CD)。
圖1.9
6、AIOps與自動化的關系
AIOps很火(huǒ),所以對AIOps和自動化做了一(yī)些對比。暫以一(yī)句話(huà)作個區别:AIOps是基于對運維數據(日志(zhì)類、指标類數據等)的機器學習,進一(yī)步解決自動化成本高或無法解決的問題,屬于運維自動化的優化,細化一(yī)下(xià)區别有:
雖然行業内的智能運維理念十分(fēn)火(huǒ)熱,但實際落地成效上還主要處于研究階段。從運維工(gōng)具技術解決方案的角度看,對于智能的解讀也有差别,如果将智能的特點解讀爲具備“模拟人,具備自學習,能夠從數據中(zhōng)獲取知(zhī)識,進而進行預測/決策”來判斷是否智能,智能是自動化的一(yī)個輔助手段,自動化才是終态。
建立在這個認識下(xià),我(wǒ)(wǒ)們首先需要通過自動化手段解決痛點,提高工(gōng)作效率,控制風險;利用運維數字化的建設爲運維智能化提供數據、數據計算的能力;在自動化、數字化水平得到一(yī)定程度後,再通過人工(gōng)智能的技術去(qù)解決自動化手段解決起來費(fèi)力或無法解決的局部問題,讓自動化具備智能的水平。
四、體(tǐ)系
1、運維的可持續改進
在管理領域,戴明推出的PDCA循環可以解釋運維體(tǐ)系需要具備的可持續改進的能力條件。
PDCA循環爲四個階段,即計劃(plan)、執行(do)、檢查(check)、調整(Action),即在實際工(gōng)作開(kāi)展過程中(zhōng),把各項工(gōng)作按照作出計劃、計劃實施、檢查實施效果,然後将成功的納入标準,并不斷循環改進的過程。
将這個思路引入到企業的運維體(tǐ)系中(zhōng)則是針對企業業務發展的需求,制定運維體(tǐ)系的整體(tǐ)發展目标,通過不斷改進的措施提高運維工(gōng)作效率、控制風險,以達到更高效、更優化的資(zī)源配置,進而推動業務的發展。要做到運維體(tǐ)系的可持續改進,需要做到以業務導向,整體(tǐ)部局;組織、流程、工(gōng)具三位一(yī)體(tǐ);不斷審視優化。
1)P:以業務導向、整體(tǐ)部局
運維的最根本作用是保障IT數據的連續性,這裏的IT數據包括業務,以及反映業務的數據,或者換句話(huà)可以表達爲:網絡不斷、系統不癱、數據不丢。随着業務對IT系統依賴程度越來越高,運維又(yòu)會承擔更高的期望,也就是運維向運營的轉化,這就需要從業務角度去(qù)不斷完善運維,以促進業務爲大(dà)目标,要明白(bái)“IT for IT”是爲了更好的“IT for Business”。
有了這個目标,那我(wǒ)(wǒ)們的運維體(tǐ)系的構建就需要與企業業務的發展保持同步,要讓運維體(tǐ)系具備可持續改進的能力。
另外(wài),可持續改進的過程不應該是大(dà)拐彎的方式進行改進,而應該不斷的小(xiǎo)調整,這就需要确保首先要建立一(yī)個整體(tǐ)、全局的運維體(tǐ)系,對運維各項工(gōng)作做一(yī)個整體(tǐ)的規劃,把眼光看得更遠,往往可以更好的把控當前。
2)D:組織、流程、工(gōng)具的三位一(yī)體(tǐ)
可持續改進的運維體(tǐ)系需要讓運維的組織、流程、工(gōng)具三位一(yī)體(tǐ)的作用,比方說:提高工(gōng)作效率,需要組織的專業化分(fēn)工(gōng)、流程的标準化、工(gōng)具的自動化配合作用;推動業務的發展,既需精細化運維分(fēn)析、業務服務、運營等維度的工(gōng)作資(zī)源投入,也需要有工(gōng)具的建設來減少操作性的工(gōng)作來釋放(fàng)人力,需要工(gōng)具提供更高效的數據來源。
這裏說的組織主要是從運維人力資(zī)源的分(fēn)工(gōng)、團隊建設、工(gōng)作目标導向、運維KPI等;流程是指以成熟的運維方法論爲主體(tǐ),結合企業和外(wài)部監管的規章制度、企業業務發展需要,而落地的标準化工(gōng)作方法;工(gōng)具既包括狹義運維的“監、管、控”,也包括運營體(tǐ)系所需要數字化、智能化的工(gōng)具平台。
3)C+A : 不斷審視優化
在實際工(gōng)作過程中(zhōng),審視檢查的過程很容易被忽略,但實際上最大(dà)的收獲可能就來自于這個總結、歸納的過程中(zhōng),這也是可持續改進的運維體(tǐ)系的關鍵所在。
比方說,運維組織可以考慮在必要環節增加橫向的優化團隊;運維流程也需要定期對流程的落地進行分(fēn)析,并對規章制度進行查漏補缺、删減不合理的流程規範、調整無法執行的規範要求;工(gōng)具的建設要不斷的分(fēn)析工(gōng)具的使用覆蓋率,如何提高覆蓋率,分(fēn)析是否提高了運維的效率,還是帶來了反作用等分(fēn)析,并不斷調整優化工(gōng)具的建設。
2、轉型思路
在提出可持續的運維體(tǐ)系前,我(wǒ)(wǒ)們先歸納一(yī)下(xià)運維組織常見的運維痛點,以提出運維轉型的思路,再看看如何構建一(yī)個可持續改進的運維體(tǐ)系來支撐運維轉型。前面的運維之痛中(zhōng)提到了 “救火(huǒ)”、“背鍋”、“低價值”、”重複操作“等标簽,我(wǒ)(wǒ)們歸納下(xià)己有特點再看轉型:
1)特點
3、構建運維體(tǐ)系
上二節提到運維體(tǐ)系以業務導向,整體(tǐ)部局,組織、流程、工(gōng)具三位一(yī)體(tǐ),不斷審視優化的建設思路,也提出了“主動精細化”、“價值驅動”、“運維開(kāi)發”、“智能化運維”的轉型目标,我(wǒ)(wǒ)們再将這些思路分(fēn)解到組織、流程、工(gōng)具的建設中(zhōng),并歸納爲:三大(dà)建設,十個文化的實踐方法:
1)組織建設:專業化、精細化、運營化
我(wǒ)(wǒ)們将運維實施主體(tǐ)運維組織理解爲組織,理想情況下(xià),優秀的組織應該具備有合适的工(gōng)作、合适的時間、合适的人、合适的行爲四個要素組成。即組織要結合企業實際發展方向,制定符合企業、運維組織、個人發展的工(gōng)作内容,并選擇具備合适的知(zhī)識、技能、認知(zhī)、能力的人去(qù)完成工(gōng)作,去(qù)實現個人的自我(wǒ)(wǒ)價值。
前面也提到,目前的運維織是一(yī)個被動保障業務系統運行,日常計劃性工(gōng)作容易被打斷、擱置的工(gōng)作,這種工(gōng)作狀态下(xià)的運維組織往往工(gōng)作效率不高、容易出現操作風險。
爲了讓運維組織具備可持續改進的能力,需要提高運維組織的工(gōng)作效率,我(wǒ)(wǒ)們需要将運維工(gōng)作專業化,整合通用性、操作性的工(gōng)作,提高工(gōng)作效率,在釋放(fàng)運維人員(yuán)工(gōng)作量後,引導運維人員(yuán)有計劃、可量化的去(qù)做更多分(fēn)析類、優化類、業務運營的主動性工(gōng)作。
2)流程建設:标準化、可視化、可量化
大(dà)部分(fēn)運維組織會以内部企業積累的規章制度、外(wài)部監管機構的監管要求爲基礎,依照ITIL、ISO20000、ITSS.1、DevOps的方法論中(zhōng)的一(yī)個或多個組合的方式開(kāi)展運維工(gōng)作。這些規章制度、監管要求、方法論的整合、落地、持續改進的過程即爲流程建設的過程。
流程建設首先需要标準化流程,要先梳理好己有的流程制度,約定工(gōng)作的流轉方式,再通過可視化将流程整合在日常工(gōng)作中(zhōng),最後通過流程落地數據的分(fēn)析與工(gōng)具建設,持續改善提高流程落地的效率,控制操作風險。
3)工(gōng)具建設:自動化、數字化、智能化、服務化
工(gōng)具的建設也以可持續改進的思路構建,以整合存量資(zī)源、引入成熟或開(kāi)源技術爲主,建立一(yī)體(tǐ)化的運維工(gōng)具體(tǐ)系。
通過體(tǐ)系化的思路實現運維工(gōng)具(“監、管、控”)的互聯互通,有序建設,實現自動化運維,全面控制風險、提高工(gōng)作效率、釋放(fàng)人力;通過建立運維數據分(fēn)析平台,實現數字化運營,提供運維數據集中(zhōng)與治理、主動分(fēn)析的能力;在數字化運營的基礎上通過運維數據挖掘、學習,優化運維或運營場景,向智能化發展;服務化則是以IT服務的方式将運維能力向外(wài)輸出。
與一(yī)個行業大(dà)牛的朋友交流時,在聽(tīng)到他年輕時在大(dà)廠的一(yī)些關于将工(gōng)作方法升華爲方法論,比如“監、管、控”、“新網點”理念,并推動整個行業建設時爲之一(yī)震。這個觸動讓我(wǒ)(wǒ)有了讓自己的運維知(zhī)識體(tǐ)系建設做第一(yī)次飛躍的打算,即如何将知(zhī)識體(tǐ)系通過一(yī)個主線串起來。
關于這個主線,找過一(yī)些朋友做了交流,比如“風險可控”、“一(yī)體(tǐ)化”、“更高效更優化的資(zī)源配置”、“可擴展性”。由于自己主要身處一(yī)線運維團隊,所以選了“可擴展性”的主線,接下(xià)來打算根據這條主線,不斷完善知(zhī)識體(tǐ)系,目标是體(tǐ)系化的整理知(zhī)識體(tǐ)系,主要從組織、流程、工(gōng)具的可持續整合。
以下(xià)内容,主要是對運維整體(tǐ)的概覽,講講對運維的認識,以及一(yī)些轉型理念思考。
一(yī)、運維不簡單
前陣子,跟一(yī)個項目經理溝通能否提前半天将變更申請提交過來時,這位項目經理很不理解地問我(wǒ)(wǒ):“你們運維不就是在生(shēng)産環境部署個程序這麽簡單的工(gōng)作嗎(ma)?你們又(yòu)不懂程序,評審不出什麽吧?”
運維多年,對運維的這類認識聽(tīng)過很多,它反映了企業裏不同的組織團隊對運維的認識往往僅限于一(yī)些簡單操作性的工(gōng)作,比如生(shēng)産應用系統在故障時的重啓、應用變更時敲敲命令、平時增删改查數據,或者是辦公室和電(diàn)有關的所有軟硬件的使用問題等等。
那麽如何理解運維呢?百度百科對運維的解釋爲:企業IT部門采用相關的方法、手段、技術、制度、流程和文檔等,對IT軟硬運行環境(軟件環境、網絡環境等)、IT業務系統和IT運維人員(yuán)進行的綜合管理。從百度百科的解釋看,運維崗位需要一(yī)個綜合性的技術與管理能力,需要掌握大(dà)量的方法論與技術棧。
運維狹義“運維技術與資(zī)源”可以定義爲“監、管、控”,技術與資(zī)源主要是支撐運維/運營的質量、效率、成本的平衡。以下(xià)簡單摘錄了運維的一(yī)些能力要求:
- 運維規範的落地:以ITIL、ISO20000、ITSS.1等方法論,結合外(wài)部監管及内部規範的落地;
- 監管機構的要求落地:理解、快速響應、落地監管機構的管理要求;
- 基本保障:配置、監控、應用發布、資(zī)源擴容、事件、問題等;
- 基礎能力:網絡、服務器、操作系統、數據庫、中(zhōng)間件、JVM、應用等基本使用與調優;
- 業務服務能力:SLA,服務台、業務咨詢、維護、經驗庫、等支持能力;
- 可用性管理能力:巡檢、業務系統連續性、可用性,基礎架構及應用系統的高可用、備件冗餘資(zī)源;
- 風險、安全管理能力:操作、審計、監管風險,漏洞、攻擊管控;
- 故障管理能力:事件、問題管理水平與能力;
- 持續交付能力:應用變更、基礎資(zī)源、辦公服務交付能力;
- 主動優化能力:架構優化、性能響應效率、客戶體(tǐ)驗等;
- 應急演練:架構高可用、突發事件、業務故障的架構、方案、文檔、人員(yuán)熟練程度等;
- 業務支撐:數據維護、數據提取、參數維護等;
- 運行分(fēn)析能力:容量、性能、可用性分(fēn)析等;
- 運營能力:促進業務痛點的發現與解決、客戶及業務業務體(tǐ)驗等;
- 成本控制:更好地評估人力、硬件、帶寬、軟件,節省成本;
- 運維開(kāi)發:運維自動化工(gōng)具的建設,運維開(kāi)發能力的培養;
- 其它
圖1.1
圖1.2
講到這,肯定會有人說上述的技術棧的能力要求,通常是由于某個運維組織的仍處于專家式運維,自動化程度不夠高導緻。
的确,理論上所有運維操作性、命令的工(gōng)作都可以整合爲經驗,并通過自動化落地實現,現在互聯網企業對外(wài)都宣稱自動化在運維工(gōng)作覆蓋面很高,己經開(kāi)始邁向智能化,AIOps,甚至提出了NoOps的解決方案。
關于這些互聯網企業的自動化對日常運維工(gōng)作真實的覆蓋面暫時無法考究,但以我(wǒ)(wǒ)的經驗看,至少金融企業的自動化覆蓋面還有很長的路要走,且肯定還會很大(dà)一(yī)部分(fēn)工(gōng)作很難自動化,畢竟工(gōng)作類型太多,在有限的投入上隻能集中(zhōng)力氣去(qù)做投入産出比更高的運維自動化。這裏再以一(yī)個運維工(gōng)具思維導圖(圖1.3)簡單列示一(yī)些常規的運維操作,可以看出其實很難有一(yī)套能解決所有運維操作的工(gōng)具平台。
圖1.3
所以我(wǒ)(wǒ)覺得,随着業務要求越來越高、規模越來越大(dà)、監管要求越來越高,縱使外(wài)部如何宣稱自動化、智能化對運維人員(yuán)經驗、技術、管理能力替代,金融企業内的運維還需要認清實際情況,結合企業的整體(tǐ)戰略定位,強調運維團隊在運維管理與技術能力的廣度與深度,再有側重、有先後的實現自動化水平。
在未來一(yī)段時間裏,金融企業的運維崗位仍是一(yī)個複雜(zá)的、綜合性技能的工(gōng)作崗位。
二、運維之痛
近年來,随着運維技術的快速發展,各行業的運維水平在得到了較大(dà)的提升同時,運維圈的分(fēn)享也越來越開(kāi)放(fàng),從國外(wài)Google的SRE理念,到國内新技術領跑者以及借助于各種運維專題的公衆号、運維大(dà)會有大(dà)量的互聯網、傳統企業的運維組織進行分(fēn)享。
1、組織之痛
前面講過,在企業内部其它團隊對運維的認識通常是簡單操作,出故障時才會找的團隊,随着信息技術的發展與業務的發展,運維組織痛點越來越明顯,企業内對運維組織的不滿的聲音越來越多,反思一(yī)下(xià)原因,分(fēn)外(wài)部客觀因素和内部因素。
1)外(wài)部客觀因素
在當前大(dà)數據時代,金融企業的運維面臨業務規模的不斷擴大(dà),業務競争越來越激烈,監管要求越來越高,數據中(zhōng)心的規模也越來越高,大(dà)量新技術、開(kāi)源架構的引入取代了傳統穩定的系統架構等等因素影響。
- 運維組織的角色
- 業務對運維服務質量的要求
- 外(wài)部監管要求
- 業務并發要求
- 數據中(zhōng)心規模增大(dà)
2)内部因素
網上有一(yī)個調查數據,在整個運維成本的分(fēn)配中(zhōng),軟硬件和網絡設備的維護成本占 30%,維護服務成本占30%,内部運維人力成本則占了40%。這裏的人力成本包括現在維護、培訓、流失與引入等成本,如果将維護服務成本也納入到人力成本之上,則人力這一(yī)塊的成本将上升爲70%,影響這個人力成本的因素主要有:
- 運維能力模型
- 運維規範化
- 運維精細化程度
- 運維目标
- 自動化能力
2、個體(tǐ)之痛
作爲運維組織中(zhōng)的運維人員(yuán)同樣面臨不少痛點,有來自工(gōng)作時間、工(gōng)作壓力、學習壓力、職業發展等等,以下(xià)簡單羅列:
- 7*24小(xiǎo)時制的工(gōng)作時間
- 高度壓力的工(gōng)作
- 被動的工(gōng)作
- 對工(gōng)作的認識
- 職業壓力
三、自救
1、SRE
SRE這個名詞最早是從《Google SRE 運維解密》一(yī)書(shū)中(zhōng)獲得,全稱是Site Reliability Engineering,翻譯過來就是:站點可靠性工(gōng)程師。Google對SRE的職責描述爲:确保站點的可用,爲了達到這個目的,一(yī)方面他需要對站點涉及的系統、組件熟悉,也要關注生(shēng)産運行時的狀态。
爲此,他需要自開(kāi)發并維護很多工(gōng)具和系統支撐系統的運行,比如自動化發布系統、監控系統、日志(zhì)系統、服務器資(zī)源分(fēn)配和編排等。SRE是一(yī)個綜合素質很高的全能手,如果對他的能力進行分(fēn)解主要有三塊:
- 熟悉系統架構與運行狀态
- 熟悉運維涉及的管理方法
- 運維開(kāi)發+産品經理
2、運維開(kāi)發
關于運維開(kāi)發的理解主要體(tǐ)現在運維工(gōng)具層面,不同的組織有不同的理解,通常有三類:
- 完全自建
- 外(wài)購開(kāi)發資(zī)源或工(gōng)具産品
- 外(wài)購與自建相結合
總的來說,不管選用上面哪一(yī)種方式,運維開(kāi)發團隊都應該有一(yī)個整體(tǐ)、統一(yī)的一(yī)體(tǐ)化工(gōng)具建設規劃,并在建設過程中(zhōng)始終保持對運維工(gōng)具體(tǐ)系的掌控能力,并在工(gōng)具體(tǐ)系的上層爲其它運維人員(yuán)提供簡易的、可創造性的“開(kāi)發能力”,比如所見即所得的工(gōng)具可視化、可定制的運維報表、拖拉拽方式的流程及腳本組件的拼裝等運維開(kāi)發方式。
3、DevOps
1)DevOps概述
DevOps一(yī)詞的來自于Development和Operations的組合,突出重視軟件開(kāi)發人員(yuán)和運維人員(yuán)的溝通合作,通過自動化流程來使得軟件構建、測試、發布更加快捷、頻(pín)繁和可靠,他是一(yī)種方法論,包含一(yī)套基本原則和實踐,工(gōng)具是爲有效落實這套方法論提供支持。
在軟件全生(shēng)命周期管理過程中(zhōng),包括開(kāi)發、構建、測試、發布、運營,在這個全生(shēng)命周期管理過程中(zhōng)出現了開(kāi)發組織與運維組織的部門牆,這是因爲開(kāi)發組織關注需求的實現,希望盡快實現變更;運維組織關注系統運行穩定,而變更又(yòu)往往是生(shēng)産應用不穩定的原因。
DevOps方法論的出現主要是爲了解決這個協作問題,以讓軟件交付更加高效,質量更高,生(shēng)産端更加敏捷,生(shēng)産運行過程中(zhōng)的問題能更加高效的反饋到開(kāi)發,形成一(yī)個全生(shēng)命周期的閉環。随着業務對運維交付能力的時效性要求越來越高,運維組織面臨“吃力不讨好”的問題:
- 吃力: 花費(fèi)大(dà)量時間在應用部署的操作性工(gōng)作中(zhōng)。這部分(fēn)部署變更包括新功能的上線以及修複功能BUG兩方法。
- 不讨好: 操作性的工(gōng)作越大(dà),帶來的操作風險越大(dà),有這樣一(yī)個統計,如果手工(gōng)運行5條命令的情況下(xià),成功部署的概率就已跌至86%;如需手工(gōng)運行55條命令,成功部署的概率将跌至22%;如需手工(gōng)運行100條命令,成功部署的概率将趨近于0(僅2%)。
2)運維實踐中(zhōng)的DevOps
可以從工(gōng)具鏈、組織文化、自動化、敏捷看闆等角度講DevOps,比如在目前比較活躍的DevOps36計,基本覆蓋了運維領域很大(dà)的一(yī)塊:
圖1.4
從DevOps的落地效率來看,需要将DevOps進行聚焦,聚焦到交付能力上,這方面,行業裏比較标準化的評估是去(qù)年底由中(zhōng)國信息通信研究院,聯合一(yī)些互聯網企業、運維社區,以及一(yī)些金融、傳統企業聯合進行編制的DevOps标準(券商(shāng)行業中(zhōng)華泰參加了編制)。從這個能力模型公布出來的一(yī)些介紹看,标準對DevOps範圍比較克制主要以交付能力來分(fēn)解敏捷開(kāi)發、持續交付、技術運營、應用架構、組織架構,這和最早的DevOps能力環比較吻合:
圖1.5
從運維的交付場景看,主要是資(zī)源交付與應用交付,其中(zhōng)資(zī)源交付以IaaS、PaaS雲的建設爲主,通過雲管平台的工(gōng)具鏈将基礎設施、網絡、硬件、虛拟化、容器、運行中(zhōng)間件等系統軟硬件交付能力自動化,并通過CMDB整合DevOps能力環之上的應用場景,實現資(zī)源的快速交付。
資(zī)源交付能力主要在于IaaS、PaaS層的雲平台标準化、自動化、平台擴展性等方面的建設程度。應用的快速交付比資(zī)源交付更爲複雜(zá),應用交付涉及全鏈路的整合,鏈路上的節點越多落地的難度越大(dà),因爲它不僅涉及技術,還涉及理念的認同與聚焦。
應用交付能力要實現,最簡單的技術棧工(gōng)具需要CMDB、應用發布工(gōng)具、應用版本庫、監控工(gōng)具,上述工(gōng)具對内要與雲平台對接,對外(wài)要提供接口給開(kāi)發、測試工(gōng)具。當然如開(kāi)發、測試也能和運維使用同一(yī)套發布工(gōng)具、應用版本庫則效果更好,不過,實際實施過程中(zhōng)組織之間還是會有不少沖突,比如開(kāi)發關注源代碼版本管理,測試、運維關注運行版本的管理,需各個組織共同付出共建技術鏈。
4、運營
關于運維圈裏運營的概念,以轉型口号喊得比較多,我(wǒ)(wǒ)對運維當中(zhōng)的運營有業務運營與技術運營兩個維度的理解。業務運營是通過功能優化或工(gōng)具開(kāi)發等方式解決業務工(gōng)作痛點,或通過運行分(fēn)析發現影響業務開(kāi)展的因素,并推動相關的優化,最終提升業務能力。技術運營則主要從技術角度去(qù)降低IT成本,提升IT服務質量與效率。具體(tǐ)的實施内容可以考慮如下(xià):
圖1.6
從上述概括可以看出,當前運維裏面的運營,與運維數據密切相關,需要基于運維大(dà)數據平台來提升運營質量。
爲了進一(yī)步說明運營,這裏舉兩個例子:
1)理論
優锘科技CEO的陳傲寒在2016年寫過一(yī)篇文章《IT:從運維到運營》,仍是我(wǒ)(wǒ)讀過最好的一(yī)篇。全文從企業、運維組織角度出發分(fēn)析什麽是運維、什麽是運營,再将運營分(fēn)解到不同角色上的理解與落地的方向,全文均是幹貨,值得通讀,這裏隻列出一(yī)個思維導圖。
圖1.7
2)實戰
參加過一(yī)場騰訊QQ關于DevOps的培訓,對于它們提到的一(yī)個自救方式的運營手段很有印象。那就是在騰訊QQ逐漸被微信團隊替代過程中(zhōng),QQ技術運維團隊是如何通過各種方式去(qù)爲企業帶來效益,比如他們通過運維分(fēn)析,得到如何更加合理的使用帶寬、資(zī)源,大(dà)大(dà)減少了公司在基礎設施方面的投入。
在金融企業中(zhōng),也同樣有很多空間可以去(qù)嘗試,比如分(fēn)析業務痛點,爲業務提供快速的策略性的工(gōng)具來替代重複操作性的業務操作;通過運維數據分(fēn)析,發現客戶體(tǐ)驗方面的痛點,推動業務功能的優化等等。
4、AIOps
AIOps這個詞最早是在2016年由Gartner提出(當然國内很多廠商(shāng)也提出它們早幾年也提出了這個理念)。AIOps是Algorithmic IT Operations的縮寫,是基于算法的IT運維,即通過使用統計分(fēn)析和機器學習的方法處理從各IT設備、業務應用、運維工(gōng)具收集的數據,從而加強增強運維自動化能力,以便更快、更有效、更全面地自動化效果。以下(xià)是Gartner提出AIOps的一(yī)張圖:
圖1.8
Gartner通過使用圖1.9中(zhōng)的圖解釋了AIOps平台的工(gōng)作原理。AIOps有兩個主要組件:大(dà)數據和機器學習。它需要從孤立的IT數據中(zhōng)移除,以便将大(dà)量數據平台内的觀察數據(例如監控系統和作業日志(zhì)中(zhōng)發現的數據)與參與數據(通常在故障單,事件和事件記錄中(zhōng)找到)相結合。
AIO然後針對組合的IT數據實施全面的分(fēn)析和機器學習(ML)策略。期望的結果是持續的見解,通過自動化産生(shēng)持續的改進和修複。AIO可以被認爲是核心IT功能的持續集成和部署(CI/CD)。
- 廣泛和多樣化的IT數據源,如日志(zhì)類的設備日志(zhì)、系統日志(zhì),應用日志(zhì)、運維操作日志(zhì);指标類的監控性能指标、事件。
- 具備針對海量數據處理與分(fēn)析的運算平台,能夠從現有的IT數據生(shēng)成新的數據和元數據、計算和分(fēn)析還消除噪音,識别模式或趨勢,隔離(lí)可能的原因,揭示潛在問題,并實現其他IT特定目标。
- 算法 ,充分(fēn)利用IT領域的專業知(zhī)識,更适當,高效地處理數據。
- 機器學習 ,從根據算法分(fēn)析的輸出和引入系統的新數據自動更改或創建新的算法。
- 可視化 ,以易于消費(fèi)的方式向IT行動提供洞察和建議,以促進理解和行動。
- 自動化 ,其使用分(fēn)析和機器學習産生(shēng)的結果自動創建和應用響應或改進已識别的問題。
圖1.9
6、AIOps與自動化的關系
AIOps很火(huǒ),所以對AIOps和自動化做了一(yī)些對比。暫以一(yī)句話(huà)作個區别:AIOps是基于對運維數據(日志(zhì)類、指标類數據等)的機器學習,進一(yī)步解決自動化成本高或無法解決的問題,屬于運維自動化的優化,細化一(yī)下(xià)區别有:
- 概念
- 實現思路
- 門檻高度
- 如何整合
雖然行業内的智能運維理念十分(fēn)火(huǒ)熱,但實際落地成效上還主要處于研究階段。從運維工(gōng)具技術解決方案的角度看,對于智能的解讀也有差别,如果将智能的特點解讀爲具備“模拟人,具備自學習,能夠從數據中(zhōng)獲取知(zhī)識,進而進行預測/決策”來判斷是否智能,智能是自動化的一(yī)個輔助手段,自動化才是終态。
建立在這個認識下(xià),我(wǒ)(wǒ)們首先需要通過自動化手段解決痛點,提高工(gōng)作效率,控制風險;利用運維數字化的建設爲運維智能化提供數據、數據計算的能力;在自動化、數字化水平得到一(yī)定程度後,再通過人工(gōng)智能的技術去(qù)解決自動化手段解決起來費(fèi)力或無法解決的局部問題,讓自動化具備智能的水平。
四、體(tǐ)系
1、運維的可持續改進
在管理領域,戴明推出的PDCA循環可以解釋運維體(tǐ)系需要具備的可持續改進的能力條件。
PDCA循環爲四個階段,即計劃(plan)、執行(do)、檢查(check)、調整(Action),即在實際工(gōng)作開(kāi)展過程中(zhōng),把各項工(gōng)作按照作出計劃、計劃實施、檢查實施效果,然後将成功的納入标準,并不斷循環改進的過程。
将這個思路引入到企業的運維體(tǐ)系中(zhōng)則是針對企業業務發展的需求,制定運維體(tǐ)系的整體(tǐ)發展目标,通過不斷改進的措施提高運維工(gōng)作效率、控制風險,以達到更高效、更優化的資(zī)源配置,進而推動業務的發展。要做到運維體(tǐ)系的可持續改進,需要做到以業務導向,整體(tǐ)部局;組織、流程、工(gōng)具三位一(yī)體(tǐ);不斷審視優化。
1)P:以業務導向、整體(tǐ)部局
運維的最根本作用是保障IT數據的連續性,這裏的IT數據包括業務,以及反映業務的數據,或者換句話(huà)可以表達爲:網絡不斷、系統不癱、數據不丢。随着業務對IT系統依賴程度越來越高,運維又(yòu)會承擔更高的期望,也就是運維向運營的轉化,這就需要從業務角度去(qù)不斷完善運維,以促進業務爲大(dà)目标,要明白(bái)“IT for IT”是爲了更好的“IT for Business”。
有了這個目标,那我(wǒ)(wǒ)們的運維體(tǐ)系的構建就需要與企業業務的發展保持同步,要讓運維體(tǐ)系具備可持續改進的能力。
另外(wài),可持續改進的過程不應該是大(dà)拐彎的方式進行改進,而應該不斷的小(xiǎo)調整,這就需要确保首先要建立一(yī)個整體(tǐ)、全局的運維體(tǐ)系,對運維各項工(gōng)作做一(yī)個整體(tǐ)的規劃,把眼光看得更遠,往往可以更好的把控當前。
2)D:組織、流程、工(gōng)具的三位一(yī)體(tǐ)
可持續改進的運維體(tǐ)系需要讓運維的組織、流程、工(gōng)具三位一(yī)體(tǐ)的作用,比方說:提高工(gōng)作效率,需要組織的專業化分(fēn)工(gōng)、流程的标準化、工(gōng)具的自動化配合作用;推動業務的發展,既需精細化運維分(fēn)析、業務服務、運營等維度的工(gōng)作資(zī)源投入,也需要有工(gōng)具的建設來減少操作性的工(gōng)作來釋放(fàng)人力,需要工(gōng)具提供更高效的數據來源。
這裏說的組織主要是從運維人力資(zī)源的分(fēn)工(gōng)、團隊建設、工(gōng)作目标導向、運維KPI等;流程是指以成熟的運維方法論爲主體(tǐ),結合企業和外(wài)部監管的規章制度、企業業務發展需要,而落地的标準化工(gōng)作方法;工(gōng)具既包括狹義運維的“監、管、控”,也包括運營體(tǐ)系所需要數字化、智能化的工(gōng)具平台。
3)C+A : 不斷審視優化
在實際工(gōng)作過程中(zhōng),審視檢查的過程很容易被忽略,但實際上最大(dà)的收獲可能就來自于這個總結、歸納的過程中(zhōng),這也是可持續改進的運維體(tǐ)系的關鍵所在。
比方說,運維組織可以考慮在必要環節增加橫向的優化團隊;運維流程也需要定期對流程的落地進行分(fēn)析,并對規章制度進行查漏補缺、删減不合理的流程規範、調整無法執行的規範要求;工(gōng)具的建設要不斷的分(fēn)析工(gōng)具的使用覆蓋率,如何提高覆蓋率,分(fēn)析是否提高了運維的效率,還是帶來了反作用等分(fēn)析,并不斷調整優化工(gōng)具的建設。
2、轉型思路
在提出可持續的運維體(tǐ)系前,我(wǒ)(wǒ)們先歸納一(yī)下(xià)運維組織常見的運維痛點,以提出運維轉型的思路,再看看如何構建一(yī)個可持續改進的運維體(tǐ)系來支撐運維轉型。前面的運維之痛中(zhōng)提到了 “救火(huǒ)”、“背鍋”、“低價值”、”重複操作“等标簽,我(wǒ)(wǒ)們歸納下(xià)己有特點再看轉型:
1)特點
- 被動救火(huǒ)式,以被動保障業務系統運行,日常計劃性工(gōng)作容易被打斷、擱置;
- 問題驅動式, 以系統可用性、可靠性、業務請求等問題驅動運維工(gōng)作;
- 操作運維,重複性、操作類點主要工(gōng)作量的運維模式;
- 經驗式運維,由人工(gōng)經驗驅動的運維模式,尤其是一(yī)些經驗豐富的老員(yuán)工(gōng)的離(lí)職在短期内會對運維質量帶來一(yī)定的沖擊。
- 從被動救火(huǒ)式向主動精細化轉型,專業化分(fēn)工(gōng)、主動分(fēn)析,主動優化,驅動開(kāi)發,促進DEVOPS的落地;
- 從問題驅動向價值驅動轉型,以企業業務發展目标爲主線,業務體(tǐ)驗、服務滿意度、促進業務更好發展;
- 從操作運維向運維開(kāi)發轉型,通過爲運維人員(yuán)提供運維開(kāi)發平台,降低運維開(kāi)發門檻,快速落地一(yī)些緊迫的運維工(gōng)具,降低操作性、重複性的運維工(gōng)作;
- 從依靠經驗向智能化驅動運維轉型,結合數據分(fēn)析、知(zhī)識庫、機器學習技術促進運維智能化。
3、構建運維體(tǐ)系
上二節提到運維體(tǐ)系以業務導向,整體(tǐ)部局,組織、流程、工(gōng)具三位一(yī)體(tǐ),不斷審視優化的建設思路,也提出了“主動精細化”、“價值驅動”、“運維開(kāi)發”、“智能化運維”的轉型目标,我(wǒ)(wǒ)們再将這些思路分(fēn)解到組織、流程、工(gōng)具的建設中(zhōng),并歸納爲:三大(dà)建設,十個文化的實踐方法:
1)組織建設:專業化、精細化、運營化
我(wǒ)(wǒ)們将運維實施主體(tǐ)運維組織理解爲組織,理想情況下(xià),優秀的組織應該具備有合适的工(gōng)作、合适的時間、合适的人、合适的行爲四個要素組成。即組織要結合企業實際發展方向,制定符合企業、運維組織、個人發展的工(gōng)作内容,并選擇具備合适的知(zhī)識、技能、認知(zhī)、能力的人去(qù)完成工(gōng)作,去(qù)實現個人的自我(wǒ)(wǒ)價值。
前面也提到,目前的運維織是一(yī)個被動保障業務系統運行,日常計劃性工(gōng)作容易被打斷、擱置的工(gōng)作,這種工(gōng)作狀态下(xià)的運維組織往往工(gōng)作效率不高、容易出現操作風險。
爲了讓運維組織具備可持續改進的能力,需要提高運維組織的工(gōng)作效率,我(wǒ)(wǒ)們需要将運維工(gōng)作專業化,整合通用性、操作性的工(gōng)作,提高工(gōng)作效率,在釋放(fàng)運維人員(yuán)工(gōng)作量後,引導運維人員(yuán)有計劃、可量化的去(qù)做更多分(fēn)析類、優化類、業務運營的主動性工(gōng)作。
2)流程建設:标準化、可視化、可量化
大(dà)部分(fēn)運維組織會以内部企業積累的規章制度、外(wài)部監管機構的監管要求爲基礎,依照ITIL、ISO20000、ITSS.1、DevOps的方法論中(zhōng)的一(yī)個或多個組合的方式開(kāi)展運維工(gōng)作。這些規章制度、監管要求、方法論的整合、落地、持續改進的過程即爲流程建設的過程。
流程建設首先需要标準化流程,要先梳理好己有的流程制度,約定工(gōng)作的流轉方式,再通過可視化将流程整合在日常工(gōng)作中(zhōng),最後通過流程落地數據的分(fēn)析與工(gōng)具建設,持續改善提高流程落地的效率,控制操作風險。
3)工(gōng)具建設:自動化、數字化、智能化、服務化
工(gōng)具的建設也以可持續改進的思路構建,以整合存量資(zī)源、引入成熟或開(kāi)源技術爲主,建立一(yī)體(tǐ)化的運維工(gōng)具體(tǐ)系。
通過體(tǐ)系化的思路實現運維工(gōng)具(“監、管、控”)的互聯互通,有序建設,實現自動化運維,全面控制風險、提高工(gōng)作效率、釋放(fàng)人力;通過建立運維數據分(fēn)析平台,實現數字化運營,提供運維數據集中(zhōng)與治理、主動分(fēn)析的能力;在數字化運營的基礎上通過運維數據挖掘、學習,優化運維或運營場景,向智能化發展;服務化則是以IT服務的方式将運維能力向外(wài)輸出。
咨詢電(diàn)話(huà):
021-51697581
掃一(yī)掃,關注官方微信
實時掌握逾仕最新動态
實時掌握逾仕最新動态
Copyright 2005-2024 逾仕科技(IT服務外(wài)包/系統集成), All Rights Reserved 備案/許可證号: