大數(shù)據(jù)服務(wù)上云的思考">大數(shù)據(jù)服務(wù)上云的思考
729
2022-05-29
這是我第一次發(fā)帖,內(nèi)容有點(diǎn)少,不過很開心終于邁出了第一步,以后會(huì)走的更遠(yuǎn)
自從知道“大數(shù)據(jù)”這個(gè)新概念,本人就一直對(duì)這方面很感興趣,自然也就在不斷了解大數(shù)據(jù)相關(guān)的技術(shù)。
5G技術(shù)應(yīng)用后,開始出現(xiàn)了和傳統(tǒng)數(shù)據(jù)截然不同的復(fù)雜數(shù)據(jù),也就是大家提到的大數(shù)據(jù)。之所以成為大數(shù)據(jù),是因?yàn)橄鄬?duì)與傳統(tǒng)業(yè)務(wù)數(shù)據(jù),這種數(shù)據(jù)量龐大,一般數(shù)據(jù)量都會(huì)達(dá)到100T,普通的計(jì)算機(jī)硬盤根本無法勝任存儲(chǔ)工作,更不用談處理數(shù)據(jù)了。按照目前公認(rèn)的說法:大數(shù)據(jù)處理目前主要面臨以下幾個(gè)問題:
1、數(shù)據(jù)的搜集獲取;
2、數(shù)據(jù)的預(yù)處理;
3、分類存儲(chǔ)預(yù)處理后的數(shù)據(jù);
4、根據(jù)業(yè)務(wù)需求對(duì)各類數(shù)據(jù)進(jìn)行計(jì)算或處理,獲取數(shù)據(jù)背后隱藏的信息。
首先是數(shù)據(jù)的獲取,一種是已知需要獲取的數(shù)據(jù)背后的信息,直接對(duì)相應(yīng)的數(shù)據(jù)進(jìn)行精準(zhǔn)的搜集獲取,確保數(shù)據(jù)量及收集數(shù)據(jù)覆蓋的人群較廣,就像問卷調(diào)查,一百個(gè)人的問卷最少也得找80個(gè)人來問卷,不能說一個(gè)人把這一百份的問卷全部胡亂填完,這樣的數(shù)據(jù)沒有任何意義,那么之后的存儲(chǔ)和處理也就沒有必要,純粹是浪費(fèi)資源,相反還有可能得出相反的結(jié)論;
而另一種就是較為常見的數(shù)據(jù)收集方式,在收集數(shù)據(jù)之初,沒有知道想要得到什么方面的建議或指導(dǎo),也不知道搜集的數(shù)據(jù)會(huì)影響哪些方面,這種數(shù)據(jù)收集就很耗費(fèi)精力,需要大量的人力和財(cái)力支撐,這種數(shù)據(jù)分類極為麻煩,需要在預(yù)處理階段花費(fèi)較多時(shí)間,預(yù)處理后能夠發(fā)現(xiàn)這些數(shù)據(jù)中的部分有價(jià)值數(shù)據(jù)時(shí),就可以先對(duì)這部分有價(jià)值的數(shù)據(jù)進(jìn)行預(yù)處理后的存儲(chǔ)和計(jì)算處理,得出結(jié)論。但是并沒有結(jié)束,最初的原始數(shù)據(jù)仍舊需要一個(gè)獨(dú)立的空間來存儲(chǔ),相當(dāng)于這種數(shù)據(jù)需要存儲(chǔ)兩份甚至更多份。因?yàn)殡S著時(shí)間的發(fā)展,很多無意義的數(shù)據(jù)也會(huì)變得有價(jià)值,所以這就需要收集數(shù)據(jù)一直進(jìn)行下去,不能間斷,而且還要在預(yù)處理前把原始數(shù)據(jù)一直存儲(chǔ),這樣的數(shù)據(jù)不能分開存儲(chǔ),所以越到后期村粗?jǐn)?shù)據(jù)的壓力會(huì)越大,可能目前還沒有這種類型的數(shù)據(jù)出現(xiàn),我可以舉個(gè)例子,隨著科技的進(jìn)步,如果想對(duì)“人類社會(huì)”這個(gè)概念進(jìn)行研究,以預(yù)估人類社會(huì)未來的進(jìn)步方向時(shí),就得進(jìn)行這種大數(shù)據(jù)的收集處理了。
除了收集數(shù)據(jù)方面需要好的方案,數(shù)據(jù)的預(yù)處理同樣也需要優(yōu)秀的思想和方法。如何對(duì)原始數(shù)據(jù)進(jìn)行最大限度地分類,如何在大量的數(shù)據(jù)中找到具有共性的數(shù)據(jù),這項(xiàng)工作必須由電腦來完成,人腦無法勝任此項(xiàng)工作,我們也等不了那么久,只有“新鮮”的原始數(shù)據(jù)才能得到最及時(shí)的指導(dǎo)意見。因此這就需要我們?cè)O(shè)計(jì)出能夠讓計(jì)算機(jī)來完成這項(xiàng)工作的算法或其他底層邏輯,給計(jì)算機(jī)指明道路,然后讓計(jì)算機(jī)只管按照預(yù)計(jì)的軌跡向前沖就好。
分類存儲(chǔ)數(shù)據(jù)這塊,我個(gè)人認(rèn)為有兩個(gè)問題。一方面是數(shù)據(jù)存儲(chǔ)需要的龐大存儲(chǔ)空間,短期的數(shù)據(jù)存儲(chǔ)還好辦,如果是長期的數(shù)據(jù)保存真的是一項(xiàng)極大的挑戰(zhàn),我們不能簡單的認(rèn)為數(shù)據(jù)只需要存儲(chǔ)一份就好,一般這種很長時(shí)間才收集到的數(shù)據(jù)價(jià)值不可估量,備份是必須要做的工作,所以大數(shù)據(jù)就成了“Double大數(shù)據(jù)”,甚至更大。
還有就是這么多的數(shù)據(jù)如何分類保存,只有分類保存好了,后續(xù)查找各類數(shù)據(jù)才會(huì)輕松,需要的時(shí)間也就越少。
最后也就是對(duì)數(shù)據(jù)的處理,這塊是目前我們面臨的較大的難題,設(shè)計(jì)優(yōu)秀的算法處理數(shù)據(jù),同時(shí)不斷優(yōu)化算法,確保得出的結(jié)論更符合未來的預(yù)期。極限的數(shù)據(jù)處理算法甚至能夠預(yù)知未來,這個(gè)未來可以包括我們周圍的方方面面,未來的科技進(jìn)步一定是建立在大數(shù)據(jù)之上的。
以上就是我對(duì)大數(shù)據(jù)處理方案的一些拙見,因?yàn)槲也皇菍I(yè)的,可能有的觀點(diǎn)不對(duì),歡迎大家積極指出,我們共同學(xué)習(xí)進(jìn)步。
大數(shù)據(jù)
版權(quán)聲明:本文內(nèi)容由網(wǎng)絡(luò)用戶投稿,版權(quán)歸原作者所有,本站不擁有其著作權(quán),亦不承擔(dān)相應(yīng)法律責(zé)任。如果您發(fā)現(xiàn)本站中有涉嫌抄襲或描述失實(shí)的內(nèi)容,請(qǐng)聯(lián)系我們jiasou666@gmail.com 處理,核實(shí)后本網(wǎng)站將在24小時(shí)內(nèi)刪除侵權(quán)內(nèi)容。