DLI可靠性之跨AZ雙活
DLI可靠性之跨AZ雙活
服務(wù)保障可靠性的幾個關(guān)鍵點(diǎn)
在現(xiàn)實(shí)世界中,故障和BUG無處不在,云服務(wù)也同樣如此。硬盤可能損壞、網(wǎng)絡(luò)可能中斷,用戶和業(yè)務(wù)提供方都希望能夠預(yù)防故障的出現(xiàn),但事與愿違,現(xiàn)在它還是一個無法實(shí)現(xiàn)的夢想。
那就需要我們轉(zhuǎn)變思路,從避免故障出現(xiàn)轉(zhuǎn)向即使出現(xiàn)了故障也不會使服務(wù)不可用。其中有以下幾個關(guān)鍵的點(diǎn):功能降級、斷路器、艙壁、冗余、冗災(zāi),此次文章想談的點(diǎn)就是對于一個高可用的服務(wù),必須具備冗余的能力。即對于一個高可用的服務(wù),必須具備冗余的能力,當(dāng)一個實(shí)例故障后,可以由其它實(shí)例繼續(xù)提供服務(wù)。這些實(shí)例需要被監(jiān)控,并在實(shí)例故障時能夠拉起新的實(shí)例。這些服務(wù)實(shí)例必須具備良好的負(fù)載均衡能力,并部署在不同的節(jié)點(diǎn)上(最好是不同的物理機(jī),以避免同時故障)。
DLI集群級別的可靠性保障
對于之前的DLI來說,每個隊列會綁定到一個AZ(物理可用區(qū)),用戶的SQL等作業(yè)都會提交到這個集群中運(yùn)行,但是當(dāng)這個AZ遇到不可抗力因素斷電后,那么意味著這個AZ下的所有服務(wù)都不可供用戶使用,也就是不可靠了。而用戶希望的場景是當(dāng)一個AZ掛掉后,我的作業(yè)能夠繼續(xù)提交到另外一個AZ下運(yùn)行,這是一個比較合理的訴求。而目前DLI提供的就是這種跨AZ雙活方案,用戶只需要在購買隊列頁面中選擇包周期/按需專屬,勾選跨AZ選項即可。
跨AZ意思就是作業(yè)提交會提交到兩個不同的AZ中,而雙活的意思就是兩個AZ下的集群可以同時接收任務(wù),同時存活可用。
從文案的名字也可以大致看出來,我們使用的可靠性方案是冗余,即是在創(chuàng)建集群資源的時候我會在兩個AZ下都建一個相同規(guī)格的集群,用戶提交SQL作業(yè)時我們會負(fù)載均衡的將作業(yè)分發(fā)到這兩個集群中,當(dāng)一個AZ下的集群不可用時,作業(yè)會經(jīng)過failover機(jī)制重新提交到另外一個可用AZ下的集群中。且有定時檢測機(jī)制,每分鐘會檢測是否有失敗的集群,當(dāng)有一個集群失敗后會在另外一個AZ下重新創(chuàng)建一個相同規(guī)格的,這樣用戶又可以擁有兩個雙活的集群進(jìn)行作業(yè)提交。并且對于用戶而言,這整個過程是無感知的,且和之前的操作基本沒有變化,但是可靠性確大大增加了。目前已經(jīng)處于內(nèi)部使用期,當(dāng)穩(wěn)定后會推廣到華為云全網(wǎng)的DLI局點(diǎn)供所有的用戶使用。
歡迎體驗數(shù)據(jù)湖探索(DLI)服務(wù):https://www.huaweicloud.com/product/dli.html
優(yōu)勢和局限性
1.?????? 從保障服務(wù)可用性的角度來說,DLI雙活方案可以保障用戶在大部分情況下的使用可靠性,并且是無需用戶額外進(jìn)行操作的
2.?????? 從作業(yè)執(zhí)行角度來說,由于有雙份的資源,用戶提交作業(yè)的并行度也會得到一個比較大的提升
3.?????? 例如用戶原本使用的是1000CU,那么跨AZ可以建兩個500CU的集群,這樣費(fèi)用方面也和之前沒有什么差別,花同樣的錢確體驗到了更加先進(jìn)可靠的服務(wù),何樂而不為呢
DLI
版權(quán)聲明:本文內(nèi)容由網(wǎng)絡(luò)用戶投稿,版權(quán)歸原作者所有,本站不擁有其著作權(quán),亦不承擔(dān)相應(yīng)法律責(zé)任。如果您發(fā)現(xiàn)本站中有涉嫌抄襲或描述失實(shí)的內(nèi)容,請聯(lián)系我們jiasou666@gmail.com 處理,核實(shí)后本網(wǎng)站將在24小時內(nèi)刪除侵權(quán)內(nèi)容。
版權(quán)聲明:本文內(nèi)容由網(wǎng)絡(luò)用戶投稿,版權(quán)歸原作者所有,本站不擁有其著作權(quán),亦不承擔(dān)相應(yīng)法律責(zé)任。如果您發(fā)現(xiàn)本站中有涉嫌抄襲或描述失實(shí)的內(nèi)容,請聯(lián)系我們jiasou666@gmail.com 處理,核實(shí)后本網(wǎng)站將在24小時內(nèi)刪除侵權(quán)內(nèi)容。