Hubble:“百萬原生代碼+混合交易分析”的利器!
長時(shí)間以來,人工智能和大數(shù)據(jù)一直作為孿生兄弟相互支撐。
但如今,生產(chǎn)與離線分析各自獨(dú)立的傳統(tǒng)信息化結(jié)構(gòu)已經(jīng)無法支撐AI的發(fā)展。
每個(gè)異構(gòu)數(shù)據(jù)庫產(chǎn)品之間的同步和數(shù)據(jù)冗余、業(yè)務(wù)的實(shí)時(shí)性需要流數(shù)據(jù)框架、ML越來越多作為核心業(yè)務(wù)部件被部署在流程中自動(dòng)化完成……這些問題的出現(xiàn)通通限制了大數(shù)據(jù)企業(yè)應(yīng)用的發(fā)展。
新一代數(shù)據(jù)驅(qū)動(dòng)業(yè)務(wù)提出了數(shù)據(jù)湖等全新架構(gòu),而數(shù)據(jù)湖不僅僅是低成本的存儲(chǔ),更應(yīng)是面向生產(chǎn)交易等數(shù)據(jù)科學(xué)處理的核心計(jì)算框架。
在此背景下,天云大數(shù)據(jù)推出了百萬原生代碼規(guī)模的HTAP數(shù)據(jù)庫產(chǎn)品:Hubble!可以實(shí)現(xiàn)混合交易分析處理。
據(jù)了解,Hubble對(duì)SQL進(jìn)行了全面支持,并具備NoSQL的能力。采用了大數(shù)據(jù)高擴(kuò)展、高可用的架構(gòu),可以滿足不同的業(yè)務(wù)企業(yè)級(jí)應(yīng)用,還可以對(duì)實(shí)時(shí)、高性能的需求提供多種交互接口。
Hubble底層采用Hdfs做數(shù)據(jù)為存儲(chǔ)介質(zhì),具備存儲(chǔ)海量數(shù)據(jù)的能力以及集群的橫向動(dòng)態(tài)擴(kuò)展能力,在安全性方面利用HDFS的三副本機(jī)制來保證整個(gè)集群的穩(wěn)定運(yùn)行。
分片服務(wù)會(huì)將預(yù)寫日志直接持久化到磁盤,以保證事務(wù),而不是放在內(nèi)存中,避免使用內(nèi)存導(dǎo)致事務(wù)出錯(cuò)的風(fēng)險(xiǎn),并提高事務(wù)的可靠性。
通過Mem Storage作為數(shù)據(jù)緩沖層,HDFS Storage將數(shù)據(jù)序列化到HDFS中,并從API層級(jí)支持?jǐn)?shù)據(jù)的批量加載,每個(gè)shard作為哈勃邏輯層面的最小單元。
Hubble可以使用JAVA SDK、JDBC客戶端、SQL等多種訪問方式為前端應(yīng)用提供數(shù)據(jù)的訪問。
在使用hubble時(shí),無論業(yè)務(wù)規(guī)模大小,始終都與小型應(yīng)用階段相同,無需改變使用習(xí)慣。當(dāng)業(yè)務(wù)規(guī)模擴(kuò)大時(shí),只需要添加新的節(jié)點(diǎn),提升數(shù)據(jù)庫的能力,就可以適應(yīng)業(yè)務(wù)變化的需要,每個(gè)階段無需付出額外的成本。
Hubble具有實(shí)時(shí)離線高速入庫、超高并發(fā)、全部SQL標(biāo)準(zhǔn)三種特性,同時(shí)兼具三大目標(biāo) 。
第一是支持實(shí)時(shí)、離線高速入庫,滿足各種入庫需要,并支持實(shí)時(shí)入庫,支持離線批量加載,并支持多節(jié)點(diǎn)的ACID。
第二支持超高并發(fā),即支持大規(guī)模用戶訪問,支持上萬用戶在線實(shí)時(shí)高并發(fā)修改和查詢。
第三是支持全部標(biāo)準(zhǔn)SQL的語法,提供各種分類、匯總等統(tǒng)計(jì)公式,及OLAP分析。
此外,Hubble與MPP數(shù)據(jù)庫impala,還有內(nèi)存計(jì)算Spark的對(duì)比,可以看到,50萬條、5千萬條和5億條記錄的3個(gè)測(cè)試維度,無論哪個(gè)查詢,hubble都存在著巨大的優(yōu)勢(shì),hubble基本都是毫秒級(jí)響應(yīng),而無論是impala還是spark都是分鐘級(jí)的響應(yīng)速度。
數(shù)據(jù)存儲(chǔ)在HDFS上,支持?jǐn)?shù)據(jù)的批量入庫,憑借HDFS的多副本機(jī)制,確保數(shù)據(jù)的高可用性,保證數(shù)據(jù)不丟失,并具備天然的高擴(kuò)展性。
對(duì)ACID的支持,數(shù)據(jù)的高一致性,確保新增、修改、刪除時(shí)數(shù)據(jù)的一致性,并支持聯(lián)機(jī)操作。利用快照技術(shù),方便記錄數(shù)據(jù)的當(dāng)前狀態(tài),隨時(shí)對(duì)數(shù)據(jù)對(duì)數(shù)據(jù)進(jìn)行快照恢復(fù)。可以監(jiān)控集群和Hubble的狀態(tài)信息,方便數(shù)據(jù)庫管理進(jìn)行維護(hù)和監(jiān)控。
Hubble使用靈活,無需太多額外的成本,對(duì)傳統(tǒng)應(yīng)用的遷移,只需要替換jdbc使用的驅(qū)動(dòng)即可。
既支持OLTP又支持OLAP,一站式的解決聯(lián)機(jī)查詢問題,無需部署眾多的數(shù)據(jù)庫組件,可以涵蓋大部分的業(yè)務(wù)需求。
在小型應(yīng)用方面,企業(yè)為節(jié)省成本,可能選擇OLTP數(shù)據(jù)庫,在數(shù)據(jù)規(guī)模小時(shí),可以運(yùn)轉(zhuǎn)的很好。
但到了中型應(yīng)用階段,就會(huì)面臨資源不夠用的問題,這個(gè)時(shí)候開始做讀寫分離,分式復(fù)用。
過渡到大型應(yīng)用時(shí)期,讀寫數(shù)據(jù)開始跑不動(dòng),越來越復(fù)雜的SQL,這時(shí)開始做分庫分表操作,并引入了分析型數(shù)據(jù)庫。
最后,巨型應(yīng)用階段,開始對(duì)不同業(yè)務(wù)選擇不同數(shù)據(jù)庫入口,管理復(fù)雜度極高。
這個(gè)時(shí)候Hubble數(shù)據(jù)庫的引入,就有效解決以上眾多問題,降低使用者的門檻,減小開發(fā)的投入,方便原有系統(tǒng)的遷移,運(yùn)行穩(wěn)定,不需要額外的維護(hù)成本。
并且系統(tǒng)在大規(guī)模數(shù)據(jù)量下仍然支持高并發(fā)實(shí)時(shí)響應(yīng),減小查詢等待時(shí)間,從而提升了用戶體驗(yàn),提高了效率。
在游戲和電商數(shù)據(jù)分析,Hubble可以支持海量的游戲、電商數(shù)據(jù)的存儲(chǔ),方便對(duì)用戶進(jìn)行畫像,實(shí)現(xiàn)精準(zhǔn)營銷,并提供秒級(jí)的響應(yīng)速度。
在基礎(chǔ)設(shè)施監(jiān)控方面,可以提供準(zhǔn)實(shí)時(shí)入庫,對(duì)基礎(chǔ)實(shí)時(shí)數(shù)據(jù)進(jìn)行流處理,并實(shí)時(shí)的提供對(duì)基礎(chǔ)設(shè)施數(shù)據(jù)的監(jiān)控。
同樣在IOT及傳感器數(shù)據(jù)方面,也可以通過實(shí)時(shí)入庫,對(duì)物聯(lián)網(wǎng)數(shù)據(jù)進(jìn)行存儲(chǔ)、查詢及挖掘等。
架構(gòu)設(shè)計(jì) 人工智能 大數(shù)據(jù)
版權(quán)聲明:本文內(nèi)容由網(wǎng)絡(luò)用戶投稿,版權(quán)歸原作者所有,本站不擁有其著作權(quán),亦不承擔(dān)相應(yīng)法律責(zé)任。如果您發(fā)現(xiàn)本站中有涉嫌抄襲或描述失實(shí)的內(nèi)容,請(qǐng)聯(lián)系我們jiasou666@gmail.com 處理,核實(shí)后本網(wǎng)站將在24小時(shí)內(nèi)刪除侵權(quán)內(nèi)容。