亞寵展、全球?qū)櫸锂a(chǎn)業(yè)風(fēng)向標(biāo)——亞洲寵物展覽會(huì)深度解析
977
2022-05-30
金融領(lǐng)域隨著數(shù)據(jù)與日俱增(如國(guó)內(nèi)某大行,平均3億筆業(yè)務(wù)/天,峰值6億/天);業(yè)務(wù)驅(qū)動(dòng)下的數(shù)據(jù)分析靈活性要求越來(lái)越高,不同業(yè)務(wù)的數(shù)據(jù)分系統(tǒng)構(gòu)建,導(dǎo)致冗余嚴(yán)重,缺乏高效、統(tǒng)一的融合數(shù)倉(cāng),阻礙企業(yè)快速轉(zhuǎn)型。如何對(duì)浪涌式的數(shù)據(jù)進(jìn)行整合分析,發(fā)揮最大價(jià)值,金融機(jī)構(gòu)對(duì)數(shù)據(jù)的處理提出了相應(yīng)訴求具體表現(xiàn)如下:
第一,數(shù)據(jù)統(tǒng)一存儲(chǔ):為了節(jié)約成本,企業(yè)希望一份數(shù)據(jù)支持多種使用場(chǎng)景;減少數(shù)據(jù)孤島和冗余,通過(guò)數(shù)據(jù)共享產(chǎn)生更大價(jià)值。
第二,高效:金融業(yè)務(wù)數(shù)據(jù)分析要求越來(lái)越高效、實(shí)時(shí)。
第三,易集成:提供標(biāo)準(zhǔn)接口,新的大數(shù)據(jù)方案與企業(yè)已采購(gòu)的工具和IT系統(tǒng)要能無(wú)縫集成,支撐老業(yè)務(wù)快速遷移。
第四,大集群:區(qū)別于以往的單機(jī)系統(tǒng),企業(yè)客戶希望新的大數(shù)據(jù)方案能應(yīng)對(duì)日益增多的數(shù)據(jù),隨時(shí)可以通過(guò)增加資源的方式橫向擴(kuò)展,無(wú)極擴(kuò)容。
第五,開(kāi)放生態(tài):通過(guò)開(kāi)源開(kāi)放,讓更多的客戶和合作伙伴的數(shù)據(jù)連接在一起,發(fā)揮更大的價(jià)值。
存儲(chǔ)和計(jì)算邏輯分離,開(kāi)發(fā)CarbonData創(chuàng)新項(xiàng)目,滿足上述訴求
華為針對(duì)上述典型訴求,從2013年開(kāi)始調(diào)研分析業(yè)界大數(shù)據(jù)方案,發(fā)現(xiàn)每種技術(shù)都只能解決某種場(chǎng)景的訴求,不能同時(shí)滿足上述的所有訴求,如:MPP數(shù)據(jù)庫(kù)技術(shù)不能有效與Hadoop生態(tài)集成,數(shù)據(jù)不能統(tǒng)一共享存儲(chǔ);搜索類(lèi)技術(shù)提升了性能,但是數(shù)據(jù)膨脹很大,不支持標(biāo)準(zhǔn)SQL、不能兼容老的業(yè)務(wù),這促使了華為著手開(kāi)發(fā)CarbonData項(xiàng)目。整個(gè)大數(shù)據(jù)時(shí)代的開(kāi)啟,可以說(shuō)是源自于Google的MapReduce論文,他引發(fā)了Hadoop開(kāi)源項(xiàng)目以及后續(xù)一系列的生態(tài)發(fā)展。他的“偉大”之處在于計(jì)算和存儲(chǔ)解耦的架構(gòu),使企業(yè)的部分業(yè)務(wù)(主要是批處理)從傳統(tǒng)的垂直方案中解放出來(lái),計(jì)算和存儲(chǔ)可以按需擴(kuò)展極大提升了業(yè)務(wù)發(fā)展的敏捷性,讓眾多企業(yè)普及了這一計(jì)算模式,從中受益。CarbonData借鑒了這一理念,存儲(chǔ)和計(jì)算邏輯上分離,通過(guò)索引技術(shù)讓存儲(chǔ)和計(jì)算物理上更接近,提升CPU和IO效率,實(shí)現(xiàn)超高性能的大數(shù)據(jù)分析:
列式存儲(chǔ):高效的列式數(shù)據(jù)組織,區(qū)別于行存,可以實(shí)現(xiàn)列裁剪和過(guò)濾下壓,使OLAP查詢性能更高。同時(shí),CarbonData針對(duì)明細(xì)數(shù)據(jù)查詢實(shí)現(xiàn)了深度優(yōu)化,在需要返回所有列的場(chǎng)景下性能優(yōu)于其他列存方案。
豐富的索引支持:支持全局多維索引、文件索引、Min/Max、倒排索引等多種索引技術(shù),從表級(jí),文件級(jí),列級(jí)等多個(gè)層級(jí)逐級(jí)快速定位數(shù)據(jù),避免SQL-on-Hadoop引擎常見(jiàn)的“暴力掃描“,從而大幅提升性能,實(shí)現(xiàn)十年數(shù)據(jù)秒級(jí)響應(yīng), 三百維字段任意組合查詢。
全局字典編碼:除了常見(jiàn)的Delta、RLE、BitPacking等編碼外,CarbonData應(yīng)用了全局字典編碼來(lái)實(shí)現(xiàn)免解碼的計(jì)算,計(jì)算框架可以直接使用經(jīng)過(guò)編碼的數(shù)據(jù)來(lái)做聚合,排序等計(jì)算,這對(duì)需要做跨節(jié)點(diǎn)數(shù)據(jù)交換的業(yè)務(wù)來(lái)說(shuō)性能提升非常明顯(3倍以上)。
自適應(yīng)類(lèi)型轉(zhuǎn)換:CarbonData針對(duì)分析型應(yīng)用中大量使用的數(shù)值類(lèi)型(Double/Decimal/Numeric/BigInt)實(shí)現(xiàn)存儲(chǔ)內(nèi)數(shù)據(jù)類(lèi)型轉(zhuǎn)換,配合列式數(shù)據(jù)壓縮,使得壓縮非常高效,數(shù)據(jù)壓縮率基于應(yīng)用場(chǎng)景不同一般在2到8之間。
標(biāo)準(zhǔn)SQL兼容:在SparkSQL基礎(chǔ)上,支持標(biāo)準(zhǔn)SQL99/2003/存儲(chǔ)過(guò)程語(yǔ)法,TPC-DS標(biāo)準(zhǔn)測(cè)試用例全部無(wú)修改運(yùn)行通過(guò);支持?jǐn)?shù)據(jù)批量更新、刪除,適用于OLAP場(chǎng)景下數(shù)據(jù)的周期性刷新,例如拉鏈表更新、維表數(shù)據(jù)同步。
數(shù)據(jù)生態(tài)集成:支持與Hadoop、Spark等大數(shù)據(jù)生態(tài)系統(tǒng)集成,支持和商業(yè)BI工具無(wú)縫對(duì)接。既滿足傳統(tǒng)數(shù)倉(cāng)、數(shù)據(jù)集市、BI應(yīng)用要求,也提供大數(shù)據(jù)生態(tài)豐富多樣的API支持,覆蓋從GB級(jí)到EB級(jí)應(yīng)用。
開(kāi)源開(kāi)放: CarbonData于2016年6月3日全票通過(guò)進(jìn)入大數(shù)據(jù)領(lǐng)域全球最大的開(kāi)源社區(qū)Apache,目前特性貢獻(xiàn)來(lái)自于華為、Intel、Talend、Ebay、Inmobi、阿里、美團(tuán)、樂(lè)視、滴滴等公司資深架構(gòu)師和開(kāi)發(fā)人員。
以CarbonData為融合數(shù)倉(cāng)的大數(shù)據(jù)方案為金融轉(zhuǎn)型打造新一代數(shù)倉(cāng)引擎
1)XX銀行針對(duì)交易流水記錄做審計(jì)業(yè)務(wù),針對(duì)140億的大數(shù)據(jù)量,老的方案經(jīng)過(guò)多次優(yōu)化查詢?nèi)孕?00多秒且系統(tǒng)不穩(wěn)定,采用了CarbonData方案后平均性能提升10+倍,分行的明細(xì)查詢平均在10秒內(nèi)。
2)XX銀行的行長(zhǎng)手機(jī)項(xiàng)目(億級(jí)數(shù)據(jù)),行長(zhǎng)可通過(guò)手機(jī)終端隨時(shí)查詢各分行利潤(rùn)、營(yíng)收?qǐng)?bào)表等,客戶原有系統(tǒng)查詢需要等待10秒以上,采用了CarbonData方案后,平均性能提升了4-10倍,且支持?jǐn)?shù)據(jù)線性增加,查詢性能保持在小于3秒。
華為將依托社區(qū)開(kāi)發(fā)模式,通過(guò)開(kāi)放、共贏的方式,推動(dòng)大數(shù)據(jù)技術(shù)生態(tài)持續(xù)發(fā)展,為金融業(yè)務(wù)轉(zhuǎn)型,打造高性能多業(yè)務(wù)融合部署的新一代數(shù)倉(cāng)引擎,為客戶快速創(chuàng)造價(jià)值。
大數(shù)據(jù)
版權(quán)聲明:本文內(nèi)容由網(wǎng)絡(luò)用戶投稿,版權(quán)歸原作者所有,本站不擁有其著作權(quán),亦不承擔(dān)相應(yīng)法律責(zé)任。如果您發(fā)現(xiàn)本站中有涉嫌抄襲或描述失實(shí)的內(nèi)容,請(qǐng)聯(lián)系我們jiasou666@gmail.com 處理,核實(shí)后本網(wǎng)站將在24小時(shí)內(nèi)刪除侵權(quán)內(nèi)容。