《從零開始學Hadoop大數(shù)據(jù)分析(視頻教學版)》 —1 初識Hadoop

第1篇
Hadoop基礎知識
(? 第1章? 初識Hadoop
(? 第2章? Hadoop的安裝與配置
(? 第3章? Hadoop分布式文件系統(tǒng)
(? 第4章? 基于Hadoop 3的HDFS高可用
第1章? 初識Hadoop
隨著互聯(lián)網(wǎng)的高速發(fā)展,越來越多的用戶在日常使用網(wǎng)絡的過程中產(chǎn)生了數(shù)量龐大的結構化數(shù)據(jù),同時在日常生活中也產(chǎn)生了大量的非結構化數(shù)據(jù),如視頻、音頻和圖像等。因此,對大量數(shù)據(jù)的有效存儲管理和計算分析成為了信息行業(yè)迫切需要解決的問題。大數(shù)據(jù)就是基于數(shù)據(jù)爆炸的現(xiàn)狀產(chǎn)生的。
Hadoop的前身由Doug Cutting創(chuàng)建,起源于開源的網(wǎng)絡搜索引擎Apache Nutch,本章將從大數(shù)據(jù)的技術、特點和存儲計算模式為起點,初步探究大數(shù)據(jù)的雛形。
以下是本章主要涉及的知識點。
* 了解大數(shù)據(jù)的特點及在各行業(yè)中的應用。
* 了解大數(shù)據(jù)技術,掌握大數(shù)據(jù)與云計算和物聯(lián)網(wǎng)的關系。
* 了解Hadoop的起源、發(fā)展和意義。
1.1? 大數(shù)據(jù)初探
本章首先介紹大數(shù)據(jù)的基本概念,理解這些概念是進一步學習和掌握大數(shù)據(jù)的基礎。了解概念后,才能從大數(shù)據(jù)和云計算中找到學習的技巧。
在當前的技術領域內(nèi),大家提的比較多的當屬大數(shù)據(jù)了,那么到底什么是大數(shù)據(jù)呢?關于大數(shù)據(jù)的定義目前有很多種,其實“大數(shù)據(jù)”就是收集各種數(shù)據(jù),經(jīng)過分析后用來做有意義的事,其中包括對數(shù)據(jù)進行采集、管理、存儲、搜索、共享、分析和可視化。
關于數(shù)據(jù)的采集、存儲和分析較容易理解,因為當數(shù)據(jù)量足夠大的時候,很難存儲,如FaceBook每天生成500TB的數(shù)據(jù),如何存儲這些數(shù)據(jù)就成了一個問題。有時我們需要存儲大量的數(shù)據(jù)并進行分析,將分析結果用于運營決策,給決策者提供運營參考,而傳統(tǒng)的技術無法實現(xiàn)大批量數(shù)據(jù)的存儲和計算,畢竟單臺機器的存儲和計算性能都是有限的。
1.1.1? 大數(shù)據(jù)技術
那么,大數(shù)據(jù)技術又是什么呢?從本質(zhì)上來說,大數(shù)據(jù)技術是發(fā)現(xiàn)大規(guī)模數(shù)據(jù)中的規(guī)律,通過對數(shù)據(jù)的分析實現(xiàn)對運營層決策的支持。在此處需要注意大數(shù)據(jù)技術與其他學科之間的關系,Excel也可以做數(shù)據(jù)分析,那么為什么還要用到大數(shù)據(jù)技術呢?
主要原因是,大數(shù)據(jù)技術面對的是大規(guī)模的數(shù)據(jù),每一天都會有大批量的數(shù)據(jù)生成,如何存儲與計算這批數(shù)據(jù),就是大數(shù)據(jù)技術要解決的問題。
大數(shù)據(jù)分析 大數(shù)據(jù) Hadoop 大數(shù)據(jù)
版權聲明:本文內(nèi)容由網(wǎng)絡用戶投稿,版權歸原作者所有,本站不擁有其著作權,亦不承擔相應法律責任。如果您發(fā)現(xiàn)本站中有涉嫌抄襲或描述失實的內(nèi)容,請聯(lián)系我們jiasou666@gmail.com 處理,核實后本網(wǎng)站將在24小時內(nèi)刪除侵權內(nèi)容。
版權聲明:本文內(nèi)容由網(wǎng)絡用戶投稿,版權歸原作者所有,本站不擁有其著作權,亦不承擔相應法律責任。如果您發(fā)現(xiàn)本站中有涉嫌抄襲或描述失實的內(nèi)容,請聯(lián)系我們jiasou666@gmail.com 處理,核實后本網(wǎng)站將在24小時內(nèi)刪除侵權內(nèi)容。