有150臺伺服器,怎麼運維?IT高階顧問KingZhang2020-04-05 15:27:05

看到這個問題,讓我想起了14年前的自己,真的是難忘的經歷。那時候去MTK(聯發科,對IC熟悉的朋友們應該都有所聞,當年深圳賣的所有的山寨手機全部用的是它的IC,8年的經歷收穫了我人生中最寶貴的“財富”)面試,經過層層篩選,最後一關,領導問我你如何管理100臺伺服器,當時的自己猶如聽到了天文數字,一時無法回答。

從沒想到8年後,自己從一個小白伴隨著MTK不斷的壯大,已經可以管理1000+的伺服器。那麼,我來分享一下自己是如何做到的。

當你發現靠人工無法實現有效率管理的時候,那麼改變開始了。

說一個真實的例子,如果你面臨的是機房停電,UPS所能堅持的時間只有1個小時,那麼你認為多少個人同時關機能關閉掉幾百臺伺服器。畫面感是不是特別強烈。要怎麼辦呢?受過傷之後,痛定思痛,

如何透過指令碼實現批次關機,批次檢測是否已經成功關機,自然出現在腦海裡。有意識的改變很重要,我最初是透過最原始的bat指令碼,後來又寫VB指令碼,甚至年度做預算的時候提出找成熟的產品解決問題。

有150臺伺服器,怎麼運維?

裝置出現硬體故障,怎麼第一時間發現處理,問題裝置都在哪裡呢?

當有幾百臺甚至更多的裝置在機房裡的時候,光機櫃數量都是十幾個甚至幾十個,如何在最短的時間定位、檢修,是管理員必須要做到的。我是如何做的?

最初的狀態,可以說現在很多企業還是一樣適用,就是用excel表繪製出機櫃圖,真實性一定要高,42U的機櫃,每1U都劃清楚,每U上放的什麼裝置也畫上去,我做的比較細膩,放上去的就是真實的裝置圖片,也就是機房看到什麼樣,我的表上看到的就是什麼樣。

製作足夠詳細的伺服器清單,當然除了伺服器外,還有其他的諸如儲存、備份、網路產品也是一樣的道理,列清楚所有資訊,比如伺服器名稱,ip,用途,系統是什麼,給哪個部門使用,裝置生產日期等等。

選用一套先進的監控平臺,透過開通SNMP(簡單網路管理協議)協議,或者支援syslog也可以,對於硬體狀態實時監控,網路連通性監控等。早期或者預算不足可以自己寫指令碼,透過伺服器上的schedule的功能,定期執行也可以實現基本的監控需求。

如果能夠做到以上三點,那麼當報警第一時間透過郵件,電話,或者簡訊通知到管理員的時候,因為事先準備充分,定位裝置物理位置也就是1分鐘的事情,對於快速處理會起到非常大的幫助。

有150臺伺服器,怎麼運維?

系統層面以及具體的應用如何管理?

系統可能跑在物理機上,也可能跑在虛擬機器上。那麼如何快速登陸,畢竟幾百伺服器的賬號密碼不可能都一樣,就算是透過AD域管理,也還區分windows,Linux呢,這個時候我們要透過工具來解決。我當年使用的是一款叫做VisionRemote的軟體,經常用的近百臺伺服器都會透過它來管理。避免每次登入都需要輸入賬號密碼。

具體的應用如何管,我來分享下心得。因為畢竟涉及的系統非常多,上邊跑的應用各不相同,如果你是個勤奮的傢伙,那麼我建議你:

多去上學習班,下班多看書學習,有機會上新系統的時候用好供應商。

我舉個簡單的例子,我經歷了2次大規模的域遷移,當時郵件系統還是從IBM Louts Notes遷移到Microsoft Exchange,後來又經歷VMware批次部署,Netapp儲存、EMC儲存上線等等,這些對於當時的我來說都是新東西,我很慶幸自己做到了一點,

沒有圖省事

所有的應用上線,我跟著供應商全部從頭跟到尾,最可氣的是明明供應商都已經完成部署,我還是硬生生的說我要全部刪掉,自己從頭到尾做一次,供應商沒辦法,只能咬牙支援,哈哈哈,那時的我是不是很可惡。

所有的過程跑完了,還沒有完,我將所有的知識經過自己的梳理放到OneNote上,畢竟好記性不如爛筆頭。

你以為完了,哈哈,還沒完,趁著公司的福利待遇,我每年都去參加第三方培訓機構的課程學習,其中印象最深刻的是MCSE課程,我硬生生學了2遍,8個月沒有周末那是什麼感覺,想想都難受,哈哈。

透過學習,再將自己的總結更新回OneNote,這個閉環才算結束。如果你能做到這點,我相信你一定成為專家了,不信就試試看。

有150臺伺服器,怎麼運維?

因為時間的關係,以上是我對您提出問題的簡單梳理,如果感興趣繼續深入探討,可以關注【IT高階顧問KingZhang】頭條號,我們一起加速成長,最終成為一名優秀的IT精英我是有信心的。·

有150臺伺服器,怎麼運維?數智風2020-04-04 13:29:34

150臺伺服器,不算多也不算少。要想真正做好運維。我們可以採用PDCA理念和系統化運維的思路來做。

運維的目標

有150臺伺服器,怎麼運維?

要想做好運維,我們首先要明確運維的目標是什麼。這決定了我們後面該做多少運維工作。比如:“確保這150臺伺服器穩定執行,可用性達到95%。(運維週期1年)”。可用性是指:伺服器正常提供服務的時間/總時間。

制定運維計劃

有150臺伺服器,怎麼運維?

當我們有了運維的目標後,我們就可以根據運維目標制定運維計劃。制定出在運維週期內要開展的各項工作。這裡就安全運維目標舉的例子來。要想可用性達到95%,我們首先得評估自己單位有沒有能力保障?如果沒有能力保障則可以考慮借第三方運維的力量來保障。畢竟錢能解決的問題就不是問題。

一、自己單位技術保障

如果是有自己單位的技術團隊來保障。那就要開始計劃一下資源安排,我們可以從運維的四大要素(團隊、工具、流程、夥伴)來考慮。

①、團隊資源計劃

你需要從你這150臺機器出發,評估需要什麼技術才能保障伺服器少出故障,就算出了故障也能在短時間內快速恢復。假如:這150臺伺服器中,有windows系統50臺,linux系統80臺,AIX系統8臺,HP-unix系統8臺,4臺solaris系統。那麼,我們就必須要有這方面的系統工程至少1人。規劃如下:

AIX 系統管理員:需要1人;

HP-Unix系統工程師:需要1人;

Solaris系統工程師:需要1人;

windows、linux系統工程師:需要1人;

前面3個都是小型機系統,3個人管20臺,有點浪費,而pc伺服器的1人卻要管130臺有點累。那我們可以讓小機的工程師兼會linux系統。這樣就可以分攤得比較好。

②、運維工具

如今是資訊化時代。運維不能只是靠堆人來運維,我們需要藉助自動化工具。市面上非常多自動化運維工具。可以幫助監控系統主機的執行狀態、效能、容量、並在監控到異常時候及時告警。工程師在接到告警後及時處理告警。

③、運維流程

基於ITIL管理的運維是公認的運維最佳實踐。我們自己運維也要重視運維的管理流程,因為很多故障是管理的缺失導致的。在ITIL運維管理中,主要有五大流程和我們實際運維息息相關:

配置庫管理(含知識庫):資產清晰,運維過程清晰,知識庫可以讓修復一般故障更加高效。

事件管理:將所有的運維事件納入管理,讓所有事件處理都可以閉環處理。不要讓運維事件發生了,很長時間都沒有關閉。這樣很難保障運維目標。

問題管理:從眾多運維事件的分析出根本原因(包括管理原因)。得出行之有效的方法。確保同類問題不再發生。

變更管理:對任何資產、配置等等的變更,都需要進入變更管理。並需要被稽核。只有稽核透過的變更才能執行變更。

釋出管理:對經過稽核的變更,需要進行釋出管理。也就是通知到相關人。讓所有人都知道某個資產或者某個配置發生了變更。

④、合作伙伴

合作伙伴在運維過程中也是至關重要。我們在處理故障時,如果整機硬體損壞,我們需要跟合作伙伴採購整機硬體。如果配件損壞,我們需要找合作伙伴採購配件。如果技術問題無法解決,有時也需要透過外面合作伙伴的技術來幫忙解決。所以,我們必須合理規劃合作伙伴。確保這些合作伙伴的能力能夠覆蓋我們這150臺機器維保的要求。

二、第三方運維

如果是選擇第三方運維,自己就可以相對輕鬆一點。只需要對接管理好第三方運維公司即可。對接管理的工作包括:

①、溝通管理

我們既然是採用第三方運維,那麼技術溝通就是非常頻繁的了。我們在合同開始之時,就要有針對性的進行溝通的規劃。比如:運維單位的專案組織架構必須清楚,運維單位的報障方式,運維單位的應急預案等等都需要清楚。同時,我們還需要列一個溝通矩陣。包括: 一件事發生,誰是直接負責人,誰是應該知情人等等。

②、範圍管理

在運維過程中,我們要非常清楚第三方運維公司的服務範圍。也就是大家的工作介面,不然很容易出現問題的時候才來扯皮。非常被動,而且耗時耗力,還會延誤系統恢復時間。

③、變更管理

變更管理無論是自己運維還是第三方運維都是非常重要的。第三方運維要執行變更,必須向我們使用單位申請彙報,由我們使用單位同意後才能進行。否者就不能執行。因為,如果第三方運維隨意變更了配置項。很可能造成將來不可預料的問題。

④、安全管理

因為是第三方運維,我們必須要重視資訊保安。因為運維人員通常需要較高的許可權來修復系統故障。所以,我們在規劃第三方運維時,需要把安全管理考慮進來。比如:增加堡壘機來對運維人員進行審計,增加日誌審計系統來對所有系統的日誌進行審計。確保運維安全。

運維執行

有150臺伺服器,怎麼運維?

有了計劃,我們就可以根據計劃來執行運維過程。通常我們都需要執行以下幾個步驟。

一、申請資源(預算)

無論是自己運維還是第三方運維,我們都需要申請公司的資金支援用於運維過程需要投入的資源。

二、按計劃執行運維工作項

在資源到位後,我們就可以將全年的運維工作做一個工作分解。比如;將整個運維工作分解如下:

日常運維工作:每天檢視監控軟體,檢查是否有異常報警等。平時,對員工加強培訓(包括使用培訓、安全培訓等)

定期巡檢:定期對系統執行全面檢查,消除系統隱患;

故障處理:對於突發故障,我們走事件管理流程,並及時處理;

應急響應;對於緊急的重大故障,我們需要啟動應急流程;

備件管理:對於一些易損耗的備件,必須常備一些放在自己倉庫。其他的,和合作夥伴簽好備件合作協議,要求及時提供整機或備件作為考核指標。

文件報告:任何運維處理過程都需要提供文件報告,存檔以備將來核查,持續改進服務。

運維持續改進

有150臺伺服器,怎麼運維?

我們在運維週期內,除了執行運維計劃外。我們還需要對做得好的繼續發揚,對做得不好的地方進行持續改進。

持續改進的方法,就是對運維過程的所有事件進行監控。檢查是否存在不足,是否有最佳化空間。如果有,則指定改進計劃,提交領導審批。領導審批通過後進行改進。

總結

總之,無論是自己運維還是第三方運維都不可小視。因為運維這個工作,做好是本分,不會有嘉獎;做不好就大罪過,要處罰的。所以,我們要仔細規劃好再執行。

我是數智風,以經驗回答問題。如果幫到你歡迎關注我,如有不同看法歡迎評論交流。

有150臺伺服器,怎麼運維?駭客技術棧2020-04-05 10:50:28

你好,我是一名科技領域創作者。

對於你這個問題,我的答案是:150臺伺服器應該是你們公司的吧,如果是一個人管理150臺伺服器的話,我讓我幾乎是不可能完成的任務。建議你們公司要擴大運維團隊!我個人認為如果不擴大運維團隊的話,只靠個人手工是無法管理這麼多臺伺服器的。

你需要學習自動化運維,比如Python自動化,網路上還有畢竟多的學習資源的,建議你學習一下自動化運維,隨著資訊時代的發展,自動化運維是時代發展的趨勢,面對越來越多的伺服器叢集,越來越多的服務,不斷擴充套件的IT應用需求,高效率的運維已成趨勢!

接下來我再說一下我為什麼推薦自動化運維,我有兩大點理由:

1、首先,IT運維流程自動化能夠提高流程的可控性,可以基於業務需求來制定個性化的流程,使企業領導有機會看見他們的業務流程,對企業流程有一個深刻的分析和理解,進而改造和最佳化流程。

2、其次,IT運維流程的自動化能提高透明度。因為隨著業務需求的變化可能會有多個版本出現,手工流程的不透明將會給流程定製和最佳化帶來相當大的困難,而自動化流程可以使使用者能夠一目瞭然的看到整個流程的各個節點運轉情況,自動化工具潛移默化地提升業務保障能力。

以上回答純屬我個人觀點,如果你有更好的想法,歡迎留言評論,讓我更好的完善本文內容。如果你想了解更多,請關注我。