亞寵展、全球?qū)櫸锂a(chǎn)業(yè)風向標——亞洲寵物展覽會深度解析
742
2022-05-28
2.5.2 數(shù)據(jù)模型
RDD是彈性分布式數(shù)據(jù)集(Resilient Distributed Datasets)的縮寫,它是Map-Reduce模型的擴展和延伸。Spark之所以能夠同時支撐大數(shù)據(jù)的多個領(lǐng)域,在很大程度上是依靠了RDD的能力。雖然批處理、流計算、圖計算和機器學(xué)習這些計算場景之間初看起來風馬牛不相及,但是它們都存在一個共同的需求,那就是在并行計算階段能夠高效的共享數(shù)據(jù)。RDD的設(shè)計者們洞穿了這一現(xiàn)象,于是通過高效的數(shù)據(jù)共享概念和類似MapReduce的操作設(shè)計了RDD,使得它能模擬迭代式算法、關(guān)系查詢、MapReduce和流式處理等多種編程模型。同時它也是一個可容錯的、可并行的數(shù)據(jù)結(jié)構(gòu),可以讓用戶指定將數(shù)據(jù)存儲到磁盤和內(nèi)存中,并能控制數(shù)據(jù)的分區(qū)。同時它還提供了一些高效的編程接口操作數(shù)據(jù)集。
大數(shù)據(jù) MapReduce
版權(quán)聲明:本文內(nèi)容由網(wǎng)絡(luò)用戶投稿,版權(quán)歸原作者所有,本站不擁有其著作權(quán),亦不承擔相應(yīng)法律責任。如果您發(fā)現(xiàn)本站中有涉嫌抄襲或描述失實的內(nèi)容,請聯(lián)系我們jiasou666@gmail.com 處理,核實后本網(wǎng)站將在24小時內(nèi)刪除侵權(quán)內(nèi)容。