微盟七天七夜找回刪庫(kù)數(shù)據(jù),決定賠付商家1.5億,痛定思痛全面上云
十三 發(fā)自 凹非寺
量子位 報(bào)道 | 公眾號(hào) QbitAI
“七天七夜,微盟被刪除的數(shù)據(jù)全面找回!”
3月1日晚間,微盟發(fā)布公告,稱在合作方騰訊云的協(xié)助下,數(shù)據(jù)已經(jīng)全面找回,預(yù)計(jì)于2020年3月3日上午9點(diǎn)完成數(shù)據(jù)恢復(fù)上線。
騰訊云官方微博也發(fā)布消息,表示數(shù)據(jù)恢復(fù)的復(fù)雜度超出所有人想象,“連續(xù)通宵、排除萬(wàn)難,終于攻堅(jiān)成功!”
不過(guò),數(shù)據(jù)雖然恢復(fù)了,損失依舊慘烈。
事故發(fā)生在2月23日晚上,微盟公司的SaaS業(yè)務(wù)突然崩潰,基于微盟的商家小程序都處于宕機(jī)狀態(tài),300萬(wàn)家商戶生意基本停擺。
而造成此次嚴(yán)重事故的,竟然是微盟的一名員工——憑一己之力,刪除自家公司數(shù)據(jù)庫(kù),累計(jì)市值蒸發(fā)超30億港元。
針對(duì)事故給商家造成的影響,微盟表示:
管理層深感自責(zé)和愧疚,準(zhǔn)備了1.5億元人民幣賠付撥備金,其中公司承擔(dān)1億元,管理層承擔(dān)5000萬(wàn)元。
經(jīng)過(guò)這樣“段子”一樣的事件,也給企業(yè)敲響了一個(gè)警鐘——“數(shù)據(jù)安全大于天”。
賠付1.5億元,決定全面云上
今天,微盟在其官方網(wǎng)站上發(fā)布了自愿公告《SaaS業(yè)務(wù)生產(chǎn)環(huán)境和數(shù)據(jù)恢復(fù)》,描述此次事故及修復(fù)過(guò)程,以及賠付方案和數(shù)據(jù)安全保障計(jì)劃。
本次事故及修復(fù)過(guò)程
2020年2月23日,因本公司員工故意破壞本公司 SaaS 業(yè)務(wù)生產(chǎn)環(huán)境及數(shù)據(jù),導(dǎo)致本公司暫時(shí)無(wú)法向客戶提供 SaaS 產(chǎn)品,目前該員工已被上海市公安局寶山分局刑事拘留。
2020年2月25日,本公司恢復(fù)了核心 SaaS 業(yè)務(wù)的生產(chǎn)環(huán)境,SaaS 業(yè)務(wù)新用戶可繼續(xù)使用本公司的 SaaS 產(chǎn)品,本公司也向老用戶提供臨時(shí)過(guò)渡方案,確保商家在數(shù)據(jù)恢復(fù)前可繼續(xù)經(jīng)營(yíng)。
2020年2月28日,本公司恢復(fù)了所有 SaaS 業(yè)務(wù)的生產(chǎn)環(huán)境,并且開放了老用戶登錄,以及恢復(fù)了微站產(chǎn)品的所有備份數(shù)據(jù)。
截至2020年3月1日晚 8 點(diǎn),在騰訊云的協(xié)助下,本公司備份的數(shù)據(jù)已經(jīng)找回。由于此次數(shù)據(jù)量規(guī)模龐大,為了保證數(shù)據(jù)一致性和線上體驗(yàn),本公司將于2020年3月2日凌晨2點(diǎn)至上午8點(diǎn),進(jìn)行數(shù)據(jù)恢復(fù)上線演練,在此期間本公司的系統(tǒng)將會(huì)暫停服務(wù),演練完成后系統(tǒng)數(shù)據(jù)會(huì)回滾到 2020年3月2日的數(shù)據(jù)。
本公司將于2020年3月2晚上10點(diǎn)至2020年3月3日上午 9 點(diǎn),正式進(jìn)行數(shù)據(jù)恢復(fù)上線。本公司將恢復(fù)2020年2月23日及之前的數(shù)據(jù),同時(shí)將2020年2月23日與2020年3月2日的數(shù)據(jù)進(jìn)行合併,屆時(shí)數(shù)據(jù)恢復(fù)將完成。
針對(duì)本次事故的賠付方案
鑒于本次事故給本公司的SaaS業(yè)務(wù)商家經(jīng)營(yíng)造成了不利影響及損失,本公司管理層在緊抓資料恢復(fù)的同時(shí),也同步研究了商家賠付方案。
針對(duì)本次事故可能帶來(lái)的潛在現(xiàn)金賠付和流量賠付,本公司和本公司管理層合計(jì)準(zhǔn)備了人民幣 1.5 億元的賠付資金,其中人民幣 1 億元由本公司承擔(dān),人民幣 5,000 萬(wàn)元由本公司管理層承擔(dān),具體進(jìn)行賠付時(shí)本公司和上述本公司管理層將在上述披露的限額內(nèi)將按比例做出支付。
數(shù)據(jù)安全計(jì)劃
本次事故雖由員工的不當(dāng)行為引起,但也暴露出本公司在數(shù)據(jù)安全管理方面的不足之處。
為此,本公司已邀請(qǐng)外部數(shù)據(jù)安全專家協(xié)助本公司制定和評(píng)估數(shù)據(jù)安全保障計(jì)畫,主要覆蓋生產(chǎn)環(huán)境和數(shù)據(jù)權(quán)限的分級(jí)管理和執(zhí)行、將數(shù)據(jù)移轉(zhuǎn)到騰訊云數(shù)據(jù)庫(kù)、加強(qiáng)意外事件快速應(yīng)對(duì)能力以及運(yùn)維人員的法律和職業(yè)道德學(xué)習(xí)等方面。
本公司正在逐步落實(shí)上述數(shù)據(jù)安全保障措施,以避免此類事故的再次發(fā)生。
七天七夜,為何恢復(fù)數(shù)據(jù)如此漫長(zhǎng)?
其實(shí),我們也經(jīng)歷過(guò)許多常用軟件崩潰的情況,例如去年12月5日,支付寶網(wǎng)絡(luò)出現(xiàn)抖動(dòng),12月26日微信公眾號(hào)崩潰,但是騰訊和阿里的恢復(fù)時(shí)間還是比較迅速,分別只用了25分鐘和45分鐘。
而微盟此次數(shù)據(jù)庫(kù)被刪,在騰訊云的協(xié)作下,為何還要耗時(shí)7天7夜之久?
對(duì)此,業(yè)界知名實(shí)戰(zhàn)派軟件質(zhì)量和研發(fā)工程效能專家茹炳晟,發(fā)表了一些看法,主要原因歸結(jié)于技術(shù)過(guò)于復(fù)雜。
首先需要了解的是數(shù)據(jù)庫(kù)的運(yùn)行環(huán)境,簡(jiǎn)化來(lái)講,主要包括三種:“不上云”、“全上云”和“假上云”。
“不上云”是指建立在自己的數(shù)據(jù)中心,完全自己管理硬件、軟件和數(shù)據(jù),這是云平臺(tái)普及以前的主流實(shí)踐。
“全上云”是指完全建立在云端環(huán)境之上。這里的云可以是公有云,也可以是私有云。
“假上云”是把云方案當(dāng)做虛擬機(jī)來(lái)使用。這種方式和上面的“不上云”很類似,完全沒(méi)有用好云端的優(yōu)勢(shì),只是把數(shù)據(jù)中心的機(jī)器移到了云端而已。
對(duì)于上面三種方式,“不上云”和“假上云”對(duì)于數(shù)據(jù)的風(fēng)險(xiǎn)相比“全上云”會(huì)更大。
運(yùn)維人員在“不上云”和“假上云”的情況下更容易有機(jī)會(huì)去執(zhí)行類似“rm -rf /*”和“fdisk”類型的極端操作。
而“全上云”,就比較難有機(jī)會(huì)從操作系統(tǒng)層面執(zhí)行此類命令,數(shù)據(jù)庫(kù)數(shù)據(jù)也就不會(huì)被rm -rf /給刪掉。
同樣,面對(duì)數(shù)據(jù)的誤操作問(wèn)題,“全上云”也比“不上云”和“假上云”有明顯的優(yōu)勢(shì)。
從之前騰訊云對(duì)外的回應(yīng)中,可以大概看到微盟被刪的數(shù)據(jù)不在騰訊云上,再結(jié)合目前數(shù)據(jù)恢復(fù)的速度來(lái)看,幾乎可以判定很大概率微盟沒(méi)有采用“全上云”的架構(gòu),或者是只有部分?jǐn)?shù)據(jù)在云端。
要在這種情況下恢復(fù)全部數(shù)據(jù),可想而知技術(shù)難度是很大的。
△圖源:微盟技術(shù)中心
根據(jù)茹炳晟的理解,至少要跨過(guò)下面這些技術(shù)的檻:
⑴獲取全量備份,如果存在異地的冷備或者災(zāi)備,那是比較理想的情況,但是由于全量備份通常非常龐大,所以需要較長(zhǎng)的時(shí)間完成文件的傳輸和校驗(yàn)。
⑵獲取增量備份,很多時(shí)候增量備份沒(méi)有來(lái)得及做異地容災(zāi)備份,所以很大概率要從磁盤恢復(fù),這又是大量的時(shí)間消耗,而且同樣不能保證100%完全恢復(fù)。
⑶獲取binlog,binlog是記錄所有數(shù)據(jù)庫(kù)表結(jié)構(gòu)變更(例如CREATE、ALTER TABLE等)以及表數(shù)據(jù)修改(INSERT、UPDATE、DELETT等)的二進(jìn)制日志文件。文件尺寸不小,而且個(gè)數(shù)也很多。
有了上面這些作為基本的輸入,才能開始數(shù)據(jù)庫(kù)層面的數(shù)據(jù)導(dǎo)入和恢復(fù)工作,這個(gè)過(guò)程也需要花費(fèi)大量的時(shí)間,而且這是基于上述文件都可以100%得到為前提的。
數(shù)據(jù)庫(kù)的數(shù)據(jù)文件和備份文件往往很大,那么只要有個(gè)別數(shù)據(jù)區(qū)出現(xiàn)了重寫,那么恢復(fù)出來(lái)的文件就是不完整的,這個(gè)時(shí)候就需要人為介入來(lái)進(jìn)行修正,這個(gè)工作量以及技術(shù)難度就會(huì)很大,有時(shí)還會(huì)需要借助專用的儀器設(shè)備。
除此之外,像微盟如此龐大的系統(tǒng),各個(gè)垂直事業(yè)部可能都有各自的業(yè)務(wù)數(shù)據(jù)庫(kù),這些數(shù)據(jù)庫(kù)甚至可能采用了不同的方案,這種架構(gòu)上的異構(gòu)性也會(huì)給恢復(fù)過(guò)程帶來(lái)極大的挑戰(zhàn)。
另外,即使部分?jǐn)?shù)據(jù)恢復(fù)完成之后,也不能立即上線,而要等其他相關(guān)數(shù)據(jù)恢復(fù),并且做好數(shù)據(jù)的交叉校驗(yàn),確保數(shù)據(jù)萬(wàn)無(wú)一失,這些都需要大量的時(shí)間。
聯(lián)想云領(lǐng)數(shù)據(jù)安全實(shí)驗(yàn)室負(fù)責(zé)人趙臻也認(rèn)為,數(shù)據(jù)量規(guī)模過(guò)大,是數(shù)據(jù)恢復(fù)實(shí)施難點(diǎn)之一。
由于技術(shù)方案相對(duì)成熟,人工效率不是瓶頸,通過(guò)計(jì)算硬盤I/O速度,可以大致評(píng)估出整個(gè)恢復(fù)過(guò)程的時(shí)效。但是數(shù)據(jù)量規(guī)模過(guò)大會(huì)導(dǎo)致容錯(cuò)率降低,每一次人為原因或設(shè)備原因?qū)е碌腻e(cuò)誤都會(huì)增加很多額外的恢復(fù)時(shí)間。
同時(shí)數(shù)據(jù)量規(guī)模過(guò)大還會(huì)導(dǎo)致恢復(fù)所需資源的增加,對(duì)整個(gè)恢復(fù)的成本造成很大的影響。
數(shù)據(jù)安全大于天
經(jīng)此一役,也讓我們認(rèn)識(shí)到了數(shù)據(jù)安全的重要性,如何預(yù)防這種數(shù)據(jù)丟失的情況,也開始被更多人討論。
有一些過(guò)來(lái)人高贊建議:
公眾號(hào)“成哥的世界”建議,企業(yè)可以使用云數(shù)據(jù)庫(kù)產(chǎn)品,因?yàn)楣性茝S商具有相對(duì)比較完善的自動(dòng)備份和恢復(fù)機(jī)制,沒(méi)有機(jī)會(huì)被刪庫(kù);做好備份,做好全量備份、增量備份、延遲備份,而且要多機(jī)房異地備份;管理好控制權(quán)限,用主機(jī)安全管控軟件或者堡壘機(jī)來(lái)攔截高危命令;進(jìn)行普法宣傳,給予警示告誡,防止相關(guān)人員想不開。
而知乎用戶“空白白白白”則建議,企業(yè)應(yīng)當(dāng)建立敏感數(shù)據(jù)操作雙人復(fù)核機(jī)制,需要雙人審批;用異地災(zāi)備或異步通訊的方式做數(shù)據(jù)實(shí)時(shí)備份;建立關(guān)鍵應(yīng)用業(yè)務(wù)的刪庫(kù)監(jiān)控機(jī)制,做重要操作的時(shí)候需要確認(rèn)。
而從茹炳晟對(duì)此次數(shù)據(jù)恢復(fù)技術(shù)難點(diǎn)的分析中,也可以看出“全上云”具有相對(duì)的安全性。
但同時(shí),也有讀者留言反饋道:
作為云管理者,全上云的數(shù)據(jù)還是能刪光的。任何云都有初始化手段,全上云就是把安全交給別人。
那么問(wèn)題來(lái)了,對(duì)于“全上云” or “Not 全上云”,你怎么看?
傳送門
微盟官方公告:http://group.weimob.com/pages/relation
參考鏈接:
https://tech.sina.com.cn/i/2020-03-01/doc-iimxxstf5622524.shtmlhttps://mp.weixin.qq.com/s/a1EGF0CJT0Nwiy4A4HsIOg
- 商湯林達(dá)華萬(wàn)字長(zhǎng)文回答AGI:4層破壁,3大挑戰(zhàn)2025-08-12
- 商湯多模態(tài)大模型賦能鐵路勘察設(shè)計(jì),讓70年經(jīng)驗(yàn)“活”起來(lái)2025-08-13
- 以“具身智能基座”為核,睿爾曼攜全產(chǎn)品矩陣及新品亮相2025 WRC2025-08-11
- 哇塞,今天北京被機(jī)器人人人人人塞滿了!2025-08-08