對(duì)象存儲(chǔ)服務(wù) OBS 中說(shuō)存儲(chǔ)非結(jié)構(gòu)化數(shù)據(jù),什么是非結(jié)構(gòu)化數(shù)據(jù)?

      網(wǎng)友投稿 1132 2025-04-02

      前提

      閱讀 對(duì)象存儲(chǔ)服務(wù) OBS 的介紹時(shí)對(duì)里面所說(shuō)的“可存儲(chǔ)任意數(shù)量和形式的非結(jié)構(gòu)化數(shù)據(jù)”產(chǎn)生一個(gè)問(wèn)題,什么是非結(jié)構(gòu)化數(shù)據(jù)?

      對(duì)象存儲(chǔ)服務(wù)(Object Storage Service)是一款穩(wěn)定、安全、高效、易用的云存儲(chǔ)服務(wù),具備標(biāo)準(zhǔn)Restful API接口,可存儲(chǔ)任意數(shù)量和形式的非結(jié)構(gòu)化數(shù)據(jù)

      非結(jié)構(gòu)化數(shù)據(jù)(Unstructured Data)

      非結(jié)構(gòu)化數(shù)據(jù)是數(shù)據(jù)結(jié)構(gòu)不規(guī)則或不完整,沒(méi)有預(yù)定義的數(shù)據(jù)模型,不方便用數(shù)據(jù)庫(kù)二維邏輯表來(lái)表現(xiàn)的數(shù)據(jù)。包括所有格式的辦公文檔、文本、圖片、XML, HTML、各類報(bào)表、圖像和音頻/視頻信息等等。

      非結(jié)構(gòu)化數(shù)據(jù)的優(yōu)勢(shì)

      有大量的數(shù)據(jù)需要處理

      非結(jié)構(gòu)化數(shù)據(jù)在任何地方都可以得到。 這些數(shù)據(jù)可以在你公司內(nèi)部的郵件信息、聊天記錄以及搜集到的調(diào)查結(jié)果中得到,也可以是你對(duì)個(gè)人網(wǎng)站上的評(píng)論、對(duì)客戶關(guān)系管理系統(tǒng)中的評(píng)論或者是從你使用的個(gè)人應(yīng)用程序中得到的文本字段。 而且也可以在公司外部的社會(huì)媒體、你監(jiān)控的論壇以及來(lái)自于一些你很感興趣的話題的評(píng)論。

      蘊(yùn)藏著大量的價(jià)值

      有些企業(yè)正投資幾十億美金分析結(jié)構(gòu)化數(shù)據(jù), 卻對(duì)非結(jié)構(gòu)化數(shù)據(jù)置之不理, 在非結(jié)構(gòu)化數(shù)據(jù)中蘊(yùn)藏著有用的信息寶庫(kù), 利用數(shù)據(jù)可視化工具分析非結(jié)構(gòu)化數(shù)據(jù)能夠幫助企業(yè)快速地了解現(xiàn)狀、顯示趨勢(shì)并且識(shí)別新出現(xiàn)的問(wèn)題。

      不需要依靠數(shù)據(jù)科學(xué)家團(tuán)隊(duì)

      分析數(shù)據(jù)不需要一個(gè)專業(yè)性很強(qiáng)的數(shù)學(xué)家或數(shù)據(jù)科學(xué)團(tuán)隊(duì),公司也不需要專門聘請(qǐng)IT精英去做。 真正的分析發(fā)生在用戶決策階段,即管理一個(gè)特殊產(chǎn)品細(xì)分市場(chǎng)的部門經(jīng)理,可能是負(fù)責(zé)尋找最優(yōu)活動(dòng)方案的市場(chǎng)營(yíng)銷者,也可能是負(fù)責(zé)預(yù)測(cè)客戶群體需求的總經(jīng)理。 終端用戶有能力、也有權(quán)利和動(dòng)機(jī)去改善商業(yè)實(shí)踐,并且視覺(jué)文本分析工具可以幫助他們快速識(shí)別最相關(guān)的問(wèn)題,及時(shí)采取行動(dòng),而這都不需要依靠數(shù)據(jù)科學(xué)家。

      終端用戶授權(quán)

      正確的分析需要機(jī)器計(jì)算和人類解釋相結(jié)合。機(jī)器進(jìn)行大量的信息處理,而終端客戶利用他們的商業(yè)頭腦,在已發(fā)生的事實(shí)基礎(chǔ)上決策出最好的實(shí)施方案。 終端客戶必須清楚的知道哪一個(gè)數(shù)據(jù)集是有價(jià)值的,他們應(yīng)該如何采集并將他們獲取的信息更好地應(yīng)用到他們的商業(yè)領(lǐng)域。 此外,一個(gè)公司的工作就是使終端用戶盡可能地收集到更多相關(guān)的數(shù)據(jù)并盡可能地根據(jù)這些數(shù)據(jù)中的信息作出最好的決策。   很明顯,非結(jié)構(gòu)化數(shù)據(jù)分析可以用來(lái)創(chuàng)造新的競(jìng)爭(zhēng)優(yōu)勢(shì)。 新的前沿可視化工具使用戶容易解釋,讓他們?cè)邳c(diǎn)擊幾下鼠標(biāo)之后就能清楚地了解情況。 從非結(jié)構(gòu)化的數(shù)據(jù)源中挖掘信息從來(lái)就沒(méi)有像這樣如此簡(jiǎn)單。

      非結(jié)構(gòu)化數(shù)據(jù)的采集

      非結(jié)構(gòu)化數(shù)據(jù)的查詢

      對(duì)象存儲(chǔ)服務(wù) OBS 中說(shuō)存儲(chǔ)非結(jié)構(gòu)化數(shù)據(jù),什么是非結(jié)構(gòu)化數(shù)據(jù)?

      隨著計(jì)算機(jī)、互聯(lián)網(wǎng)和數(shù)字媒體等的進(jìn)一步普及,以文本、圖形、圖像、音頻、視頻等非結(jié)構(gòu)化數(shù)據(jù)為主的信息急劇增加,面對(duì)如此巨大的信息海洋,特別是非結(jié)構(gòu)化數(shù)據(jù)信息,如何存儲(chǔ)、查詢、分析、挖掘和利用這些海量信息資源就顯得尤為關(guān)鍵。 傳統(tǒng)關(guān)系數(shù)據(jù)庫(kù)主要面向事務(wù)處理和數(shù)據(jù)分析應(yīng)用領(lǐng)域,擅長(zhǎng)解決結(jié)構(gòu)化數(shù)據(jù)管理問(wèn)題,在管理非結(jié)構(gòu)化數(shù)據(jù)方面存在某些先天不足之處,尤其在處理海量非結(jié)構(gòu)化信息時(shí)更是面臨巨大挑戰(zhàn)。為了應(yīng)對(duì)非結(jié)構(gòu)化數(shù)據(jù)管理的挑戰(zhàn),出現(xiàn)了各種非結(jié)構(gòu)化數(shù)據(jù)管理系統(tǒng),例如基于傳統(tǒng)關(guān)系數(shù)據(jù)庫(kù)系統(tǒng)擴(kuò)展的非結(jié)構(gòu)化數(shù)據(jù)管理系統(tǒng),基于NoSQL的非結(jié)構(gòu)化數(shù)據(jù)管理系統(tǒng)等。 在非結(jié)構(gòu)化數(shù)據(jù)管理系統(tǒng)中,查詢處理模塊是其中一個(gè)重要的組成部分,針對(duì)非結(jié)構(gòu)化數(shù)據(jù)的特性設(shè)計(jì)合理的查詢處理框架和查詢優(yōu)化策略對(duì)于非結(jié)構(gòu)數(shù)據(jù)的快速、有效訪問(wèn)極為重要。 傳統(tǒng)的結(jié)構(gòu)化查詢處理過(guò)程是:首先翻譯器翻譯查詢請(qǐng)求生成查詢表達(dá)式,然后由優(yōu)化器優(yōu)化查詢表達(dá)式,得到優(yōu)化過(guò)的查詢計(jì)劃,最后由執(zhí)行器選擇最優(yōu)的查詢計(jì)劃執(zhí)行,得到查詢結(jié)果。 查詢處理的主要操作包括選擇操作、連接操作、投影操作、聚合函數(shù)、排序等。查詢優(yōu)化的方法包括基于代價(jià)估算的優(yōu)化和基于啟發(fā)式規(guī)則的優(yōu)化等。 非結(jié)構(gòu)化查詢處理過(guò)程中除了結(jié)構(gòu)化數(shù)據(jù)查詢處理所包含的操作外,還有兩個(gè)重要的操作相似性檢索和相似性連接。 相似性檢索是指給定一個(gè)元素,在由該種類元素組成的集合中尋找與之相似的元素。 例如論文查重系統(tǒng)用到文本的相似性檢索,谷歌的以圖搜圖的功能用到圖像的相似性檢索,手機(jī)上根據(jù)哼唱匹配音樂(lè)是音頻的相似性檢索等。相似性連接是數(shù)據(jù)庫(kù)連接操作在非結(jié)構(gòu)化數(shù)據(jù)上的一種擴(kuò)展,它尋找兩個(gè)元素種類相同的集合之間滿足相似性約束的元素對(duì),在數(shù)據(jù)清洗、數(shù)據(jù)查重、抄襲檢測(cè)等領(lǐng)域有著重要的作用。非結(jié)構(gòu)化查詢處理框架要針對(duì)這兩種非結(jié)構(gòu)化數(shù)據(jù)特有的查詢操作對(duì)結(jié)構(gòu)化查詢處理框架進(jìn)行改進(jìn)。 非結(jié)構(gòu)化查詢優(yōu)化,在代價(jià)估算上除了要考慮結(jié)構(gòu)化數(shù)據(jù)的代價(jià)估算模型外,還要設(shè)法建立相似性查詢和相似性連接的代價(jià)估算模型,對(duì)于針對(duì)非結(jié)構(gòu)化數(shù)據(jù)的全文索引和空間索引,也應(yīng)該有不同與B樹索引的代價(jià)估算模型。代價(jià)估算模型除了要考慮CPU時(shí)間、IO時(shí)間外,由于非結(jié)構(gòu)化數(shù)據(jù)一般都存儲(chǔ)在分布式系統(tǒng)之上,還需要考慮到中間結(jié)果網(wǎng)絡(luò)傳輸所用的時(shí)間,所以中間結(jié)果的大小估算對(duì)于非結(jié)構(gòu)化數(shù)據(jù)的查詢優(yōu)化比結(jié)構(gòu)化數(shù)據(jù)的查詢優(yōu)化更為重要。非結(jié)構(gòu)化數(shù)據(jù)的查詢優(yōu)化中的啟發(fā)式規(guī)則和結(jié)構(gòu)化數(shù)據(jù)也有所不同。

      非結(jié)構(gòu)化數(shù)據(jù)的存儲(chǔ)

      據(jù)IDC的一項(xiàng)調(diào)查報(bào)告中指出:企業(yè)中80%的數(shù)據(jù)都是非結(jié)構(gòu)化數(shù)據(jù),這些數(shù)據(jù)每年都按指數(shù)增長(zhǎng)60%。 據(jù)報(bào)道指出:平均只有1%-5%的數(shù)據(jù)是結(jié)構(gòu)化的數(shù)據(jù)。 如今,這種迅猛增長(zhǎng)的從不使用的數(shù)據(jù)在企業(yè)里消耗著復(fù)雜而昂貴的一級(jí)存儲(chǔ)的存儲(chǔ)容量。 如何更好的保留那些在全球范圍內(nèi)具有潛在價(jià)值的不同類型的文件,而不是因?yàn)樘幚硭鼈儏s干擾日常的工作?云存儲(chǔ)是越來(lái)越多的IT公司正在使用的存儲(chǔ)技術(shù)。

      總結(jié)

      1:非結(jié)構(gòu)化數(shù)據(jù)是數(shù)據(jù)結(jié)構(gòu)不規(guī)則或不完整,包括所有格式的辦公文檔、文本、圖片、XML, HTML、各類報(bào)表、圖像和音頻/視頻信息 2:數(shù)據(jù)量大,格式多樣,是一個(gè)信息的寶庫(kù) 3:有許多開源庫(kù)己經(jīng)實(shí)現(xiàn)了從非結(jié)構(gòu)化文檔中采集關(guān)鍵信息的功能。 4:非結(jié)構(gòu)化查詢處理過(guò)程中除了結(jié)構(gòu)化數(shù)據(jù)查詢處理所包含的操作外,還有兩個(gè)重要的操作相似性檢索和相似性連接。 5:非結(jié)構(gòu)化數(shù)量多,增長(zhǎng)迅速。企業(yè)中80%的數(shù)據(jù)都是非結(jié)構(gòu)化數(shù)據(jù),這些數(shù)據(jù)每年都按指數(shù)增長(zhǎng)60%。 6:使用云存儲(chǔ)

      對(duì)象存儲(chǔ)服務(wù) OBS

      版權(quán)聲明:本文內(nèi)容由網(wǎng)絡(luò)用戶投稿,版權(quán)歸原作者所有,本站不擁有其著作權(quán),亦不承擔(dān)相應(yīng)法律責(zé)任。如果您發(fā)現(xiàn)本站中有涉嫌抄襲或描述失實(shí)的內(nèi)容,請(qǐng)聯(lián)系我們jiasou666@gmail.com 處理,核實(shí)后本網(wǎng)站將在24小時(shí)內(nèi)刪除侵權(quán)內(nèi)容。

      版權(quán)聲明:本文內(nèi)容由網(wǎng)絡(luò)用戶投稿,版權(quán)歸原作者所有,本站不擁有其著作權(quán),亦不承擔(dān)相應(yīng)法律責(zé)任。如果您發(fā)現(xiàn)本站中有涉嫌抄襲或描述失實(shí)的內(nèi)容,請(qǐng)聯(lián)系我們jiasou666@gmail.com 處理,核實(shí)后本網(wǎng)站將在24小時(shí)內(nèi)刪除侵權(quán)內(nèi)容。

      上一篇:Excel2007基礎(chǔ)教程:選擇不連續(xù)的區(qū)域
      下一篇:制造生產(chǎn)設(shè)備管理制度(生產(chǎn)部設(shè)備管理制度)
      相關(guān)文章
      久久亚洲国产成人精品无码区| 亚洲人成网站免费播放| 亚洲国产一区二区三区在线观看| 99久久精品国产亚洲| 久久精品国产亚洲沈樵| 亚洲欧洲成人精品香蕉网| 亚洲中文字幕第一页在线 | 久久精品国产精品亚洲人人| 亚洲国产精品成人久久蜜臀| 久久综合亚洲色hezyo| 自拍偷自拍亚洲精品偷一| 麻豆亚洲AV成人无码久久精品 | 亚洲国产精品人久久| 久久亚洲国产精品| 久久久亚洲精品无码| 亚洲欧洲第一a在线观看| 久久久久亚洲AV成人无码| 无码乱人伦一区二区亚洲| 麻豆亚洲AV永久无码精品久久| 亚洲一区精品中文字幕| 在线电影你懂的亚洲| 亚洲性色高清完整版在线观看| 亚洲午夜精品在线| 亚洲中文字幕无码亚洲成A人片 | 亚洲国产精品无码久久一区二区 | 亚洲人成色在线观看| 男人的天堂av亚洲一区2区| 另类小说亚洲色图| 亚洲综合激情另类专区| 国产亚洲情侣一区二区无码AV| 中国亚洲女人69内射少妇| 亚洲欧洲成人精品香蕉网| 亚洲国产人成在线观看69网站| 亚洲色图.com| 国产成人亚洲综合网站不卡| 亚洲国产精品成人AV在线| 亚洲AV无码不卡在线观看下载| 无码国产亚洲日韩国精品视频一区二区三区| 亚洲成?v人片天堂网无码| 国产aⅴ无码专区亚洲av麻豆| 亚洲高清国产AV拍精品青青草原|