大數(shù)據(jù)服務(wù)上云的思考">大數(shù)據(jù)服務(wù)上云的思考
1132
2025-04-02
前提
閱讀 對(duì)象存儲(chǔ)服務(wù) OBS 的介紹時(shí)對(duì)里面所說(shuō)的“可存儲(chǔ)任意數(shù)量和形式的非結(jié)構(gòu)化數(shù)據(jù)”產(chǎn)生一個(gè)問(wèn)題,什么是非結(jié)構(gòu)化數(shù)據(jù)?
對(duì)象存儲(chǔ)服務(wù)(Object Storage Service)是一款穩(wěn)定、安全、高效、易用的云存儲(chǔ)服務(wù),具備標(biāo)準(zhǔn)Restful API接口,可存儲(chǔ)任意數(shù)量和形式的非結(jié)構(gòu)化數(shù)據(jù)
非結(jié)構(gòu)化數(shù)據(jù)(Unstructured Data)
非結(jié)構(gòu)化數(shù)據(jù)是數(shù)據(jù)結(jié)構(gòu)不規(guī)則或不完整,沒(méi)有預(yù)定義的數(shù)據(jù)模型,不方便用數(shù)據(jù)庫(kù)二維邏輯表來(lái)表現(xiàn)的數(shù)據(jù)。包括所有格式的辦公文檔、文本、圖片、XML, HTML、各類報(bào)表、圖像和音頻/視頻信息等等。
非結(jié)構(gòu)化數(shù)據(jù)的優(yōu)勢(shì)
有大量的數(shù)據(jù)需要處理
非結(jié)構(gòu)化數(shù)據(jù)在任何地方都可以得到。 這些數(shù)據(jù)可以在你公司內(nèi)部的郵件信息、聊天記錄以及搜集到的調(diào)查結(jié)果中得到,也可以是你對(duì)個(gè)人網(wǎng)站上的評(píng)論、對(duì)客戶關(guān)系管理系統(tǒng)中的評(píng)論或者是從你使用的個(gè)人應(yīng)用程序中得到的文本字段。 而且也可以在公司外部的社會(huì)媒體、你監(jiān)控的論壇以及來(lái)自于一些你很感興趣的話題的評(píng)論。
蘊(yùn)藏著大量的價(jià)值
有些企業(yè)正投資幾十億美金分析結(jié)構(gòu)化數(shù)據(jù), 卻對(duì)非結(jié)構(gòu)化數(shù)據(jù)置之不理, 在非結(jié)構(gòu)化數(shù)據(jù)中蘊(yùn)藏著有用的信息寶庫(kù), 利用數(shù)據(jù)可視化工具分析非結(jié)構(gòu)化數(shù)據(jù)能夠幫助企業(yè)快速地了解現(xiàn)狀、顯示趨勢(shì)并且識(shí)別新出現(xiàn)的問(wèn)題。
不需要依靠數(shù)據(jù)科學(xué)家團(tuán)隊(duì)
分析數(shù)據(jù)不需要一個(gè)專業(yè)性很強(qiáng)的數(shù)學(xué)家或數(shù)據(jù)科學(xué)團(tuán)隊(duì),公司也不需要專門聘請(qǐng)IT精英去做。 真正的分析發(fā)生在用戶決策階段,即管理一個(gè)特殊產(chǎn)品細(xì)分市場(chǎng)的部門經(jīng)理,可能是負(fù)責(zé)尋找最優(yōu)活動(dòng)方案的市場(chǎng)營(yíng)銷者,也可能是負(fù)責(zé)預(yù)測(cè)客戶群體需求的總經(jīng)理。 終端用戶有能力、也有權(quán)利和動(dòng)機(jī)去改善商業(yè)實(shí)踐,并且視覺(jué)文本分析工具可以幫助他們快速識(shí)別最相關(guān)的問(wèn)題,及時(shí)采取行動(dòng),而這都不需要依靠數(shù)據(jù)科學(xué)家。
終端用戶授權(quán)
正確的分析需要機(jī)器計(jì)算和人類解釋相結(jié)合。機(jī)器進(jìn)行大量的信息處理,而終端客戶利用他們的商業(yè)頭腦,在已發(fā)生的事實(shí)基礎(chǔ)上決策出最好的實(shí)施方案。 終端客戶必須清楚的知道哪一個(gè)數(shù)據(jù)集是有價(jià)值的,他們應(yīng)該如何采集并將他們獲取的信息更好地應(yīng)用到他們的商業(yè)領(lǐng)域。 此外,一個(gè)公司的工作就是使終端用戶盡可能地收集到更多相關(guān)的數(shù)據(jù)并盡可能地根據(jù)這些數(shù)據(jù)中的信息作出最好的決策。 很明顯,非結(jié)構(gòu)化數(shù)據(jù)分析可以用來(lái)創(chuàng)造新的競(jìng)爭(zhēng)優(yōu)勢(shì)。 新的前沿可視化工具使用戶容易解釋,讓他們?cè)邳c(diǎn)擊幾下鼠標(biāo)之后就能清楚地了解情況。 從非結(jié)構(gòu)化的數(shù)據(jù)源中挖掘信息從來(lái)就沒(méi)有像這樣如此簡(jiǎn)單。
非結(jié)構(gòu)化數(shù)據(jù)的采集
非結(jié)構(gòu)化數(shù)據(jù)的查詢
隨著計(jì)算機(jī)、互聯(lián)網(wǎng)和數(shù)字媒體等的進(jìn)一步普及,以文本、圖形、圖像、音頻、視頻等非結(jié)構(gòu)化數(shù)據(jù)為主的信息急劇增加,面對(duì)如此巨大的信息海洋,特別是非結(jié)構(gòu)化數(shù)據(jù)信息,如何存儲(chǔ)、查詢、分析、挖掘和利用這些海量信息資源就顯得尤為關(guān)鍵。 傳統(tǒng)關(guān)系數(shù)據(jù)庫(kù)主要面向事務(wù)處理和數(shù)據(jù)分析應(yīng)用領(lǐng)域,擅長(zhǎng)解決結(jié)構(gòu)化數(shù)據(jù)管理問(wèn)題,在管理非結(jié)構(gòu)化數(shù)據(jù)方面存在某些先天不足之處,尤其在處理海量非結(jié)構(gòu)化信息時(shí)更是面臨巨大挑戰(zhàn)。為了應(yīng)對(duì)非結(jié)構(gòu)化數(shù)據(jù)管理的挑戰(zhàn),出現(xiàn)了各種非結(jié)構(gòu)化數(shù)據(jù)管理系統(tǒng),例如基于傳統(tǒng)關(guān)系數(shù)據(jù)庫(kù)系統(tǒng)擴(kuò)展的非結(jié)構(gòu)化數(shù)據(jù)管理系統(tǒng),基于NoSQL的非結(jié)構(gòu)化數(shù)據(jù)管理系統(tǒng)等。 在非結(jié)構(gòu)化數(shù)據(jù)管理系統(tǒng)中,查詢處理模塊是其中一個(gè)重要的組成部分,針對(duì)非結(jié)構(gòu)化數(shù)據(jù)的特性設(shè)計(jì)合理的查詢處理框架和查詢優(yōu)化策略對(duì)于非結(jié)構(gòu)數(shù)據(jù)的快速、有效訪問(wèn)極為重要。 傳統(tǒng)的結(jié)構(gòu)化查詢處理過(guò)程是:首先翻譯器翻譯查詢請(qǐng)求生成查詢表達(dá)式,然后由優(yōu)化器優(yōu)化查詢表達(dá)式,得到優(yōu)化過(guò)的查詢計(jì)劃,最后由執(zhí)行器選擇最優(yōu)的查詢計(jì)劃執(zhí)行,得到查詢結(jié)果。 查詢處理的主要操作包括選擇操作、連接操作、投影操作、聚合函數(shù)、排序等。查詢優(yōu)化的方法包括基于代價(jià)估算的優(yōu)化和基于啟發(fā)式規(guī)則的優(yōu)化等。 非結(jié)構(gòu)化查詢處理過(guò)程中除了結(jié)構(gòu)化數(shù)據(jù)查詢處理所包含的操作外,還有兩個(gè)重要的操作相似性檢索和相似性連接。 相似性檢索是指給定一個(gè)元素,在由該種類元素組成的集合中尋找與之相似的元素。 例如論文查重系統(tǒng)用到文本的相似性檢索,谷歌的以圖搜圖的功能用到圖像的相似性檢索,手機(jī)上根據(jù)哼唱匹配音樂(lè)是音頻的相似性檢索等。相似性連接是數(shù)據(jù)庫(kù)連接操作在非結(jié)構(gòu)化數(shù)據(jù)上的一種擴(kuò)展,它尋找兩個(gè)元素種類相同的集合之間滿足相似性約束的元素對(duì),在數(shù)據(jù)清洗、數(shù)據(jù)查重、抄襲檢測(cè)等領(lǐng)域有著重要的作用。非結(jié)構(gòu)化查詢處理框架要針對(duì)這兩種非結(jié)構(gòu)化數(shù)據(jù)特有的查詢操作對(duì)結(jié)構(gòu)化查詢處理框架進(jìn)行改進(jìn)。 非結(jié)構(gòu)化查詢優(yōu)化,在代價(jià)估算上除了要考慮結(jié)構(gòu)化數(shù)據(jù)的代價(jià)估算模型外,還要設(shè)法建立相似性查詢和相似性連接的代價(jià)估算模型,對(duì)于針對(duì)非結(jié)構(gòu)化數(shù)據(jù)的全文索引和空間索引,也應(yīng)該有不同與B樹索引的代價(jià)估算模型。代價(jià)估算模型除了要考慮CPU時(shí)間、IO時(shí)間外,由于非結(jié)構(gòu)化數(shù)據(jù)一般都存儲(chǔ)在分布式系統(tǒng)之上,還需要考慮到中間結(jié)果網(wǎng)絡(luò)傳輸所用的時(shí)間,所以中間結(jié)果的大小估算對(duì)于非結(jié)構(gòu)化數(shù)據(jù)的查詢優(yōu)化比結(jié)構(gòu)化數(shù)據(jù)的查詢優(yōu)化更為重要。非結(jié)構(gòu)化數(shù)據(jù)的查詢優(yōu)化中的啟發(fā)式規(guī)則和結(jié)構(gòu)化數(shù)據(jù)也有所不同。
非結(jié)構(gòu)化數(shù)據(jù)的存儲(chǔ)
據(jù)IDC的一項(xiàng)調(diào)查報(bào)告中指出:企業(yè)中80%的數(shù)據(jù)都是非結(jié)構(gòu)化數(shù)據(jù),這些數(shù)據(jù)每年都按指數(shù)增長(zhǎng)60%。 據(jù)報(bào)道指出:平均只有1%-5%的數(shù)據(jù)是結(jié)構(gòu)化的數(shù)據(jù)。 如今,這種迅猛增長(zhǎng)的從不使用的數(shù)據(jù)在企業(yè)里消耗著復(fù)雜而昂貴的一級(jí)存儲(chǔ)的存儲(chǔ)容量。 如何更好的保留那些在全球范圍內(nèi)具有潛在價(jià)值的不同類型的文件,而不是因?yàn)樘幚硭鼈儏s干擾日常的工作?云存儲(chǔ)是越來(lái)越多的IT公司正在使用的存儲(chǔ)技術(shù)。
總結(jié)
1:非結(jié)構(gòu)化數(shù)據(jù)是數(shù)據(jù)結(jié)構(gòu)不規(guī)則或不完整,包括所有格式的辦公文檔、文本、圖片、XML, HTML、各類報(bào)表、圖像和音頻/視頻信息 2:數(shù)據(jù)量大,格式多樣,是一個(gè)信息的寶庫(kù) 3:有許多開源庫(kù)己經(jīng)實(shí)現(xiàn)了從非結(jié)構(gòu)化文檔中采集關(guān)鍵信息的功能。 4:非結(jié)構(gòu)化查詢處理過(guò)程中除了結(jié)構(gòu)化數(shù)據(jù)查詢處理所包含的操作外,還有兩個(gè)重要的操作相似性檢索和相似性連接。 5:非結(jié)構(gòu)化數(shù)量多,增長(zhǎng)迅速。企業(yè)中80%的數(shù)據(jù)都是非結(jié)構(gòu)化數(shù)據(jù),這些數(shù)據(jù)每年都按指數(shù)增長(zhǎng)60%。 6:使用云存儲(chǔ)
對(duì)象存儲(chǔ)服務(wù) OBS
版權(quán)聲明:本文內(nèi)容由網(wǎng)絡(luò)用戶投稿,版權(quán)歸原作者所有,本站不擁有其著作權(quán),亦不承擔(dān)相應(yīng)法律責(zé)任。如果您發(fā)現(xiàn)本站中有涉嫌抄襲或描述失實(shí)的內(nèi)容,請(qǐng)聯(lián)系我們jiasou666@gmail.com 處理,核實(shí)后本網(wǎng)站將在24小時(shí)內(nèi)刪除侵權(quán)內(nèi)容。
版權(quán)聲明:本文內(nèi)容由網(wǎng)絡(luò)用戶投稿,版權(quán)歸原作者所有,本站不擁有其著作權(quán),亦不承擔(dān)相應(yīng)法律責(zé)任。如果您發(fā)現(xiàn)本站中有涉嫌抄襲或描述失實(shí)的內(nèi)容,請(qǐng)聯(lián)系我們jiasou666@gmail.com 處理,核實(shí)后本網(wǎng)站將在24小時(shí)內(nèi)刪除侵權(quán)內(nèi)容。