半年籌備,三個(gè)月遷移,揭秘華新水泥的公有云遷移之路
2020 年 1 月 16 日,華新水泥將所有業(yè)務(wù)生產(chǎn)系統(tǒng)成功遷移至華為云上。1 月 23 日,由于新冠肺炎的蔓延,武漢宣布封城,而這家數(shù)據(jù)中心位于武漢的傳統(tǒng)制造企業(yè),因?yàn)榧皶r(shí)遷移至公有云,公司業(yè)務(wù)和系統(tǒng)運(yùn)維在疫情期間均未受到影響。
“真的很慶幸,我們?cè)谶@個(gè)時(shí)間節(jié)點(diǎn)完成了公司業(yè)務(wù)生產(chǎn)系統(tǒng)的公有云遷移,”在采訪中,華新水泥數(shù)創(chuàng)中心系統(tǒng)運(yùn)維部劉哲松部長(zhǎng)表示:“整個(gè)封城期間交通管制,運(yùn)維人員無(wú)法前往公司機(jī)房,但公司業(yè)務(wù)與系統(tǒng)運(yùn)維沒(méi)有受到絲毫影響,所有 IT 問(wèn)題在線解決。”
據(jù)了解,整個(gè)華新水泥上云項(xiàng)目前后共有 30 多個(gè)工程師參與其中,包括華新水泥方的實(shí)施人員、業(yè)務(wù)測(cè)試人員、開(kāi)發(fā)人員和華為方的實(shí)施人員。
為什么要上公有云?
華新水泥始創(chuàng)于 1907 年,是一家百年企業(yè),在國(guó)內(nèi)外共有 150 個(gè)左右分公司,員工人數(shù)約有 18000,2018 年的營(yíng)收為 320 億。
作為一家典型的傳統(tǒng)制造企業(yè),其核心系統(tǒng)都有哪些呢?劉哲松表示:“在華新水泥比較重要的核心系統(tǒng)包含兩類,一類是生產(chǎn)系統(tǒng),即與生產(chǎn)運(yùn)行相關(guān)的系統(tǒng),例如 DCS 控制系統(tǒng),另一類是業(yè)務(wù)系統(tǒng),例如我們常說(shuō)的 ERP 系統(tǒng)、營(yíng)銷物流采購(gòu)系統(tǒng)等,華新水泥的 ERP 系統(tǒng)是采用的 SAP,營(yíng)銷物流采購(gòu)系統(tǒng)主要是一些自開(kāi)發(fā)系統(tǒng)?!?/p>
為什么會(huì)有上云的想法呢?劉哲松表示:“這個(gè)想法我們有了很久了,同時(shí)也做了很多調(diào)研和論證,如果非要說(shuō)原因,大致可以從費(fèi)用和自用架構(gòu)優(yōu)化兩個(gè)方面來(lái)講?!?/p>
費(fèi)用
大部分企業(yè)上云的主要目的是降低成本,華新水泥也不例外。在前期評(píng)估中他們發(fā)現(xiàn),如果上了公有云,年度運(yùn)維成本至少可以節(jié)約 30% 到 40%。其中,節(jié)約的費(fèi)用主要來(lái)自專線費(fèi)用、維保費(fèi)用和電費(fèi)。
專線費(fèi)用:華新水泥之前使用的是星型的網(wǎng)絡(luò)結(jié)構(gòu),全國(guó)分公司都需要拉一條專線到武漢總公司;
維保費(fèi)用:上云之前,華新水泥每年需要支付高額的硬件維保費(fèi)用,包括但不限于服務(wù)器、存儲(chǔ)、網(wǎng)絡(luò)設(shè)備、機(jī)房設(shè)施、發(fā)電機(jī)等等;
電費(fèi):華新水泥兩個(gè)機(jī)房每年的電費(fèi)大致在一百多萬(wàn),上云的話,電費(fèi)可以節(jié)約 50% 左右。
自有架構(gòu)的限制
選擇上公有云的另一個(gè)重要原因是原本的自有架構(gòu)在很多方面都有掣肘,不夠靈活高效。劉哲松表示:“我們?cè)瓉?lái)的自有架構(gòu)會(huì)受限于運(yùn)營(yíng)商網(wǎng)絡(luò)、園區(qū)電力、網(wǎng)絡(luò)以及機(jī)器的資源利用率,同時(shí)還有資源采購(gòu)周期?!?/p>
運(yùn)營(yíng)商網(wǎng)絡(luò):為什么會(huì)說(shuō)受制于運(yùn)營(yíng)商呢?舉個(gè)最簡(jiǎn)單的例子,如果因?yàn)槟承┰?,道路光纖被挖斷,那么我們能做的只有報(bào)修,沒(méi)有其它辦法,何時(shí)恢復(fù),那就要看運(yùn)營(yíng)商的搶救速度。
園區(qū)電力:一旦停電,機(jī)房的電力就會(huì)自動(dòng)切換至發(fā)電機(jī)供電,這就要保證在出現(xiàn)問(wèn)題時(shí),發(fā)電機(jī)是可以正常使用的,不僅需要定期維護(hù)保養(yǎng)測(cè)試,還需要購(gòu)置柴油自行加灌;
網(wǎng)路問(wèn)題:華新水泥實(shí)現(xiàn)了三網(wǎng)聯(lián)通,同時(shí)接入了電信、移動(dòng)和聯(lián)通,但是要做到每個(gè)業(yè)務(wù)系統(tǒng)的實(shí)時(shí)三網(wǎng)聯(lián)通代價(jià)較大,所以部分業(yè)務(wù)是單線網(wǎng)絡(luò)。另外,制造型企業(yè)一般使用的是二級(jí)網(wǎng)絡(luò)資源,在速率、帶寬與穩(wěn)定性方面都有所限制;
資源利用率:公有云的最大特征是可以彈性伸縮,上云之后資源利用率會(huì)得到很大的提升;華新水泥的 IT 資產(chǎn)折舊是 8 年,其中核心設(shè)備會(huì)根據(jù)健康狀態(tài)提前更換,其它設(shè)備基本是會(huì)使用到 8 年折舊周期,甚至可能會(huì)使用更長(zhǎng)時(shí)間,而公有云提供商的設(shè)備資源通常上三到五年,相比之下,故障率會(huì)少很多。
資源采購(gòu)周期:通常,華新水泥的采購(gòu)從提交申請(qǐng),到審批、招投標(biāo)定標(biāo)、到貨,差不多要 30 天,而云上部署 0.5-1 小時(shí)即可。
技術(shù)選型
2014 年,華新水泥主要是以虛擬化為主,使用的是微軟 Hyper-V,2017 年,華新水泥與 IBM 合作上線了一套基于 OpenStack 的私有云系統(tǒng),2018 年,隨著公有云技術(shù)的不斷成熟、用戶數(shù)量的增加、云上成本的下降,華新水泥開(kāi)始開(kāi)始調(diào)研公有云項(xiàng)目,2019 年,華新水泥正式啟動(dòng)項(xiàng)目組來(lái)調(diào)研。
2019 年 3-9 月,項(xiàng)目組在調(diào)研了半年之后,決定要將公司系統(tǒng)搬上公有云。那么,問(wèn)題來(lái)了,要上哪朵云呢?
據(jù)了解,華新水泥項(xiàng)目組先是從 IDC 報(bào)告中選擇了目前中國(guó)市場(chǎng)份額排名前十的公有云供應(yīng)商,最后重點(diǎn)調(diào)研了四家公有云廠商:亞馬遜、阿里、騰訊和華為。然后根據(jù)現(xiàn)有的技術(shù)架構(gòu)和需求,梳理出當(dāng)前容量需求,架構(gòu)設(shè)計(jì),整體評(píng)估該項(xiàng)目的費(fèi)用、后期長(zhǎng)續(xù)費(fèi)用及售后服務(wù)等,有的放矢地去評(píng)估每家廠商。
由于華新水泥的 ERP 系統(tǒng)使用的是 SAP,因此 SAP 的云上認(rèn)證資質(zhì)很重要。經(jīng)過(guò)綜合考慮,華新水泥決定在三家公有云上先后做了 POC、遷移 Demo、性能測(cè)試以及一些運(yùn)維工作,結(jié)果發(fā)現(xiàn)這三者各有優(yōu)勢(shì)。劉哲松認(rèn)為:“沒(méi)有一朵云是完美的,各有特點(diǎn),需要根據(jù)自身需求進(jìn)行選擇”。
華為云:它的最大優(yōu)勢(shì)是本身就是設(shè)備制造商,在成本方面具備一定優(yōu)勢(shì),但不足是整個(gè)技術(shù)棧和工具不是很豐富,互聯(lián)網(wǎng)思維也沒(méi)有其它家成熟;
亞馬遜(AWS):它的最大優(yōu)勢(shì)是技術(shù)和架構(gòu)很成熟,并且 AWS 擁有一個(gè)殺手锏是可以提供 Oracle DBaaS 服務(wù)。但是 AWS 也有很多局限性,第一,AWS 在國(guó)內(nèi)的數(shù)據(jù)中心主要分布在兩個(gè)地方:北京和寧夏,并由國(guó)內(nèi)兩家運(yùn)營(yíng)商分開(kāi)運(yùn)維,這就意味著在最開(kāi)始就要決定是選擇在北京還是寧夏;第二,AWS 的收費(fèi)模式與其它云商略有不同;第三,要考慮 AWS 公司的特殊性和中美大環(huán)境。
阿里云:目前阿里云是中國(guó)公有云市場(chǎng)份額的第一,大致可以達(dá)到 60%-70%,但中小客戶比例較大,因此對(duì)于 B 端客戶的運(yùn)維服務(wù)會(huì)更多地依賴外部協(xié)同。
最后,華新水泥對(duì)三家云商進(jìn)行了招投標(biāo),招標(biāo)前給出了一份十分詳細(xì)的評(píng)分細(xì)則,包括各種資源的費(fèi)用、SLA 服務(wù)等級(jí)協(xié)議、實(shí)施周期、投入人員的級(jí)別和數(shù)量等等。經(jīng)過(guò)綜合考慮和費(fèi)用評(píng)估,最終選定了華為云。
遷移過(guò)程
2019 年 9 月到 2020 年 1 月,華新水泥整個(gè)遷移共歷時(shí)三個(gè)多月,遷移過(guò)程可以按業(yè)務(wù)關(guān)聯(lián)性、系統(tǒng)復(fù)雜度等維度,劃分為 4 個(gè)階段。
第一階段是遷移準(zhǔn)備: 這一階段需要將所有業(yè)務(wù)系統(tǒng)關(guān)鍵信息整理出來(lái),包括所有業(yè)務(wù)的關(guān)聯(lián)性關(guān)系、應(yīng)用組件版本、調(diào)用關(guān)系配置文件信息、IP 連接改造成域名連接等等。
第二階段是網(wǎng)絡(luò)環(huán)境準(zhǔn)備: 這一階段主要是進(jìn)行云上網(wǎng)絡(luò)環(huán)境規(guī)劃和配置、專線拉通和聯(lián)調(diào)、VPN 配置和專線形成冗余。
其中,網(wǎng)絡(luò)環(huán)境配置是根據(jù)網(wǎng)絡(luò)架構(gòu)拓?fù)鋪?lái)實(shí)施配置網(wǎng)絡(luò),創(chuàng)建相應(yīng)的 VPC 和子網(wǎng), 通過(guò)專線網(wǎng)關(guān)連接到 IDC 網(wǎng)絡(luò)環(huán)境,通過(guò)路由配置打通云上和云下的網(wǎng)絡(luò)。
而 Poc 測(cè)試則是選擇比較典型和核心的業(yè)務(wù)系統(tǒng)進(jìn)行 poc 測(cè)試上云,測(cè)試出這些業(yè)務(wù)系統(tǒng)上云的風(fēng)險(xiǎn)點(diǎn)和難點(diǎn),進(jìn)行相應(yīng)的方案規(guī)劃和規(guī)避,降低風(fēng)險(xiǎn)和難點(diǎn)。
第三階段是遷移獨(dú)立業(yè)務(wù)系統(tǒng):通過(guò)第一階段整理的信息將業(yè)務(wù)系統(tǒng)分成獨(dú)立的業(yè)務(wù)系統(tǒng)和關(guān)聯(lián)的業(yè)務(wù)系統(tǒng),并把獨(dú)立的業(yè)務(wù)系統(tǒng)和主機(jī)遷移上云。
這個(gè)階段雖然是遷移獨(dú)立業(yè)務(wù)系統(tǒng),但存在疏忽潛在業(yè)務(wù)流程關(guān)聯(lián)的風(fēng)險(xiǎn),需要仔細(xì)核對(duì)分析。遷移過(guò)程中也會(huì)有很多難點(diǎn),例如很多業(yè)務(wù)系統(tǒng)使用的是 Windows 2003 32 位系統(tǒng),存在很高的鏡像改造風(fēng)險(xiǎn),需要在公有云上進(jìn)行穩(wěn)定性測(cè)試;Redhat6.2 系統(tǒng)同樣需要鏡像改造,測(cè)試周期長(zhǎng),甚至可能會(huì)拖整個(gè)遷移周期的后腿;殺毒系統(tǒng)可能會(huì)攔截遷移工具端口,導(dǎo)致遷移失敗;同時(shí),還需要建立域控系統(tǒng),將云上新建的輔助域控升級(jí)成為主域。
第四階段是遷移關(guān)聯(lián)的業(yè)務(wù)系統(tǒng):將所有與業(yè)務(wù)關(guān)聯(lián)的系統(tǒng)一并遷移上云。這一階段幾乎把所有的核心業(yè)務(wù)系統(tǒng)都遷移上云了,遷移難度和工作量可想而知。
由于這個(gè)階段涉及到的業(yè)務(wù)系統(tǒng)都是相互關(guān)聯(lián)的,所以在業(yè)務(wù)關(guān)聯(lián)性聯(lián)調(diào)和 IP 改造方面存在很大風(fēng)險(xiǎn)。與前一階段一樣,Windows 2003 32 位系統(tǒng)和 Redhat6.2 系統(tǒng)都需要進(jìn)行鏡像改造和測(cè)試,另外還需留意第二階段的應(yīng)用與第三階段應(yīng)用是否有相互調(diào)用的情況,如果有就要多次割接。
以 AIX 小機(jī)的 Oracle 遷移為例,華新水泥采用的方案是 XTTS(Cross Platform Transportable Tablespaces) 表空間復(fù)制。Oracle 11.2.0.4 中引入了增強(qiáng)版的 XTTS 技術(shù),在數(shù)據(jù)量較大的情況下,傳統(tǒng)的 TTS 很難滿足要求,而 XTTS 則可以在生產(chǎn)庫(kù)保持正常運(yùn)行的情況下,傳送所有表空間數(shù)據(jù)文件,通過(guò)不斷生成增量備份進(jìn)行數(shù)據(jù)恢復(fù),最大程度減少遷移所需要的停機(jī)時(shí)間。
完成這四個(gè)階段的遷移之后,華新水泥的下一步是實(shí)施容災(zāi)備份,包括同城容災(zāi)和異地容災(zāi)。其中同城容災(zāi)是采用華為云跨 AZ 容災(zāi),RPO=0,RTO<15 分鐘,而異地容災(zāi)采用的是跨 Region 容災(zāi),主系統(tǒng)和容災(zāi)系統(tǒng)部署在不同城市,可抵抗地域級(jí)災(zāi)害。
實(shí)施效果
據(jù)了解,目前華新水泥遷移到華為云上的系統(tǒng)共有 40 余套,所有虛擬機(jī)的數(shù)量為 200+,整體數(shù)據(jù)量約為 65TB。
華新水泥整個(gè)實(shí)施方案中比較獨(dú)特的一點(diǎn)是,它將生產(chǎn)系統(tǒng)完全遷移到了公有云上,而大多數(shù)的開(kāi)發(fā)測(cè)試系統(tǒng)卻留在了本地。為什么會(huì)選擇這樣的部署方式呢?
據(jù)了解,這種選型方案主要是出于兩方面的考慮,一方面是為了保護(hù)資產(chǎn)投資,華新水泥原來(lái)自建機(jī)房的設(shè)備不可能完全變賣,為了充分利用資源,在其上運(yùn)行了開(kāi)發(fā)測(cè)試系統(tǒng),等這部分設(shè)備快到使用壽命時(shí),在逐步將開(kāi)發(fā)測(cè)試遷移到公有云。另一方面,考慮到開(kāi)發(fā)測(cè)試系統(tǒng)對(duì) SLA 的要求沒(méi)有那么高,目前自建機(jī)房的設(shè)備足以支撐。
經(jīng)驗(yàn)總結(jié)
傳統(tǒng)企業(yè)上云絕不是一件可以跟風(fēng)、隨潮流的事情,“遷移上云項(xiàng)目的整體規(guī)劃和步驟是非常重要的”,劉哲松表示:“因?yàn)橄到y(tǒng)遷移會(huì)涉及到停機(jī),而停機(jī)就意味著實(shí)際的損失?!?/p>
另外,劉哲松認(rèn)為傳統(tǒng)企業(yè)上云一定要做好整個(gè)項(xiàng)目組的配置,內(nèi)部與外部都要有技術(shù)匹配的成員。如果完全外包,那么這個(gè)項(xiàng)目一定是做不好的,因?yàn)橥獠款檰?wèn)對(duì)系統(tǒng)架構(gòu)、系統(tǒng)之間的聯(lián)系,甚至是系統(tǒng)原本就存在的“坑”是完全不清楚的;其次,如果外部顧問(wèn)能力不夠,那么這個(gè)項(xiàng)目也很難完成,從客戶的角度來(lái)看,完成一個(gè)公有云項(xiàng)目,即使是提前做了調(diào)研和 Demo,但仍是有很多公有云中的特有設(shè)置,需要專業(yè)人士,甚至是原廠工程師來(lái)共同實(shí)施。
編輯:李佳婷
監(jiān)督:0571-85871667
投稿:news@ccement.com