大數據利器之神兵淬煉譜:VMware-Linux-Hadoop-Spark-Anaconda-Pycharm瑯琊榜

      網友投稿 809 2025-04-01

      目錄

      大數據神器譜

      VMware簡介

      安裝注意

      Linux簡介

      安裝介紹

      Hadoop簡介

      安裝介紹

      Spark簡介

      安裝介紹

      Pycharm簡介

      安裝介紹

      Anaconda簡介

      安裝介紹

      安裝步驟

      VMware15.5(虛擬機)安裝教程

      資源包下載

      Hadoop安裝

      Spark安裝

      Anaconda安裝

      Pycharm安裝

      pycharm配置與破解

      破解步驟

      Anaconda python版本降級

      添加虛擬機spark環境變量

      python 3.8 降級 3.7

      Pycharm美工配置

      每文一語

      大數據神器譜

      大數據的時代,必定有一場與數據的生死搏斗,狹路相逢勇者勝,你的思想決定你的高度,沒有必然的成功,只有不懈的嘗試!

      如果不能逆風翻盤,就一定要向陽而生!

      針對Linux,Hadoop,Spark我都有安裝好的文件包,直接用我的文件即可,就可以直接只用該環境,文件鏡像每個約7GB左右,資源無法上傳,有需要的可以私信我,或者評論區留言QQ賬號加自己的CSDN賬號昵稱!

      VMware簡介

      VMware是一個虛擬PC的軟件,可以在現有的操作系統上虛擬出一個新的硬件環境,相當于模擬出一臺新的PC,實現在一臺機器上真正同時運行兩個獨立的操作系統。VMware(虛擬機)是指通過軟件模擬的具有完整硬件系統功能的、運行在一個完全隔離環境中的完整計算機系統,通過它可在一臺電腦上同時運行更多的Microsoft Windows、Linux、Mac OS X、DOS系統。

      安裝注意

      有的VMware安裝之后,打開電腦會藍屏,可謂是讓不少人頭疼,以為又是系統出了什么幺蛾子了,其實不是這樣的,VMware15對Win10也太不友好了吧,原因是電腦在自動更新系統之后,會起沖突,那么解決的方法就是:安裝高版本的VMware,比如16版本的。當然具體的解決方法也還是有的,只是在電腦的世界里,0 1 的美好我們不能理解,還是不要去打擾他們的二人世界了吧,我們用最簡單的方法做最有價值的事情,何樂而不為?

      Linux簡介

      Linux,全稱GNU/Linux,是一種免費使用和自由傳播的類UNIX操作系統,其內核由林納斯·本納第克特·托瓦茲于1991年10月5日首次發布,它主要受到Minix和Unix思想的啟發,是一個基于POSIX的多用戶、多任務、支持多線程和多CPU的操作系統。它能運行主要的Unix工具軟件、應用程序和網絡協議。它支持32位和64位硬件。Linux繼承了Unix以網絡為核心的設計思想,是一個性能穩定的多用戶網絡操作系統。Linux有上百種不同的發行版,如基于社區開發的debian、archlinux,和基于商業開發的Red Hat Enterprise Linux、SUSE、Oracle Linux等。

      安裝介紹

      Linux安裝通道開啟,點擊此處查看!

      當然對于Linux的安裝,也不是很麻煩,因為在Linux安裝我們首先要去安裝VMware,我們已經安裝好了,所以已經是游刃有余的操作了!

      Hadoop簡介

      Hadoop是一個由Apache基金會所開發的分布式系統基礎架構。用戶可以在不了解分布式底層細節的情況下,開發分布式程序。充分利用集群的威力進行高速運算和存儲。Hadoop實現了一個分布式文件系統( Distributed File System),其中一個組件是HDFS。HDFS有高容錯性的特點,并且設計用來部署在低廉的(low-cost)硬件上;而且它提供高吞吐量(high throughput)來訪問應用程序的數據,適合那些有著超大數據集(large data set)的應用程序。HDFS放寬了(relax)POSIX的要求,可以以流的形式訪問(streaming access)文件系統中的數據。Hadoop的框架最核心的設計就是:HDFS和MapReduce。HDFS為海量的數據提供了存儲,而MapReduce則為海量的數據提供了計算。

      安裝介紹

      對于Hadoop的安裝,是非常的繁瑣的,從安裝Ubuntu,在去安裝Hadoop里面的各個組件:hdfs,hbase,hive,flume,sqoop.......說實話不太喜歡把大把的時間花在這個里面,還是那句話以最簡單的途徑做最有效率的事情,我們要學會站在巨人的肩膀上去窺探世界的神奇之處。

      Spark簡介

      Spark首先是一個大規模數據處理的統一分析引擎,它是類與Hadoop MapReduce的通用并行框架,專門為大數據處理的一個快速計算引擎。如果說Hadoop是大數據的第一把利劍,那么毫無疑問spark就是大數據分析與計算的第二把利劍,spark具有下面四個特點:

      快速: 在相同的實驗環境下處理相同的數據,若在內存中運行,那么Spark要比MapReduce快100倍(只是在邏輯回歸測試中)。

      通用:Spark 是一個通用引擎,可用它來完成各種運算,包括 SQL 查詢、文本處理、機器學習、實時流處理等。我們之前花費大量的時間去學習SQL的規范與語法,就是為了在后面有更好的突破和發展。

      易用:Spark提供了高級 API,應用開發者只用專注于應用計算本身即可,而不用關注集群本身,這使得Spark更簡單易用。至于提供了高級的API,那么我們知道Python是一個膠水語言,一般在智能的分析里面我們還是要利用Python的特性,提供pyspark這個模塊進行我們更加快速方便的操作。

      兼容性好:Spark可以非常方便地與其他的開源產品進行融合。比如,Spark可以使用Hadoop的YARN和Apache Mesos作為它的資源管理和調度器,并且可以處理所有Hadoop支持的數據,包括HDFS、HBase和Cassandra等。

      安裝介紹

      安裝spark必然要安裝到Hadoop環境里面,這樣是最好的選擇,如果沒有也是可以的,直接安裝到虛擬機的Ubuntu里面,或者Windows里面。

      Pycharm簡介

      對于pycharm而言,估計很多人都不陌生,這是Python編程的神器,也是我們進行數據處理和分析的強大的編輯器,個人覺得比VScode好用,還是那句話:適合自己才是最好的,哈哈哈!至于我們為什么要在虛擬環境里面安裝pycharm,這是因為我們日常開發都是在虛擬環境,比如Linux里面,作為初學者和學者來說,一般在Windows里面進行操作更加好,也可以說更加的適合,從基本語法到爬蟲,再到數據分析,最后再到大數據處理的一個必要編程語言,我們的Python一直都是最好的工具,那就說明pycharm也是更好的工具,正所謂:磨刀不誤砍柴工!

      安裝介紹

      本次安裝是在Hadoop和Spark環境里面安裝的pycharm,一方面是為了在虛擬機里面處理大數據集,一方面是為了在使用spark的時候,可以直接連接虛擬機里面的spark進行計算操作,和我們之前用pycharm去連接虛擬機里面的Hadoop的hive一樣,用大數據的分布式平臺,在加上pycharm的便利,可謂是如虎添翼!注意如果是自己去官網下載,自己去安裝一定要注意是下載的Linux版本的pycharm喲!

      Anaconda簡介

      Anaconda指的是一個開源的Python發行版本,其包含了conda、Python等180多個科學包及其依賴項。 [1]? 因為包含了大量的科學包,Anaconda 的下載文件比較大(約 531 MB),如果只需要某些包,或者需要節省帶寬或存儲空間,也可以使用Miniconda這個較小的發行版(僅包含conda和 Python)。

      安裝介紹

      一般安裝好anaconda之后,有的人覺得沒有必要安裝anaconda,因為覺得麻煩,他們覺得直接使用pycharm里面的自帶編譯器,也可以,但是我覺得anaconda里面無論是在安裝庫還是在調用,我個人覺得還是比較好,雖然有點麻煩,但是是值得的!

      安裝步驟

      VMware15.5(虛擬機)安裝教程

      1.鼠標右擊【VMware Workstation Pro 15.5.0】壓縮包選擇【解壓到 VMware Workstation Pro 15.5.0】

      2.打開解壓后的文件夾,鼠標右擊【VMware-workstation-full-15.5.0-14665864】選擇【以管理員身份運行】。

      3.點擊【下一步】。

      4.勾選【我接受許可協議中的條款】,點擊【下一步】。

      5.點擊【更改…】可更改安裝位置(建議不要安裝在C盤,可以在D盤或其它磁盤下新建一個“VM”文件夾),點擊【下一步】。

      6.取消勾選【啟動時檢查……】和【加入VMware……】,點擊【下一步】。

      7.點擊【下一步】。

      8.點擊【安裝】。

      9.軟件安裝中(大約需要3分鐘)。

      10.點擊【許可證】。

      11.輸入許可證密鑰【UY758-0RXEQ-M81WP-8ZM7Z-Y3HDA】(以下可任意輸入一組),點擊【輸入】。

      15版本: VF750-4MX5Q-488DQ-9WZE9-ZY2D6 UU54R-FVD91-488PP-7NNGC-ZFAX6 YC74H-FGF92-081VZ-R5QNG-P6RY4 YC34H-6WWDK-085MQ-JYPNX-NZRA2 16版本: ZF3R0-FHED2-M80TY-8QYGC-NPKYF YF390-0HF8P-M81RQ-2DXQE-M2UT6 ZF71R-DMX85-08DQY-8YMNC-PPHV8 ZF3R0-FHED2-M80TY-8QYGC-NPKYF

      12.安裝完成,點擊【完成】。

      13.雙擊桌面【VMware Workstation Pro】圖標啟動軟件。

      大數據利器之神兵淬煉譜:VMware-Linux-Hadoop-Spark-Anaconda-Pycharm瑯琊榜

      16版本的一樣的道理,只是安裝包不一樣,根據你的需要安裝屬于你自己的神器吧!

      資源包下載

      點擊此處下載VMware15

      點擊此處下載VMware16

      涉及到版權原因,無法上傳,若有需要請評論區留言QQ郵箱!

      Hadoop安裝

      首當其沖就是Ubuntu的安裝了,這個是基礎,這里推薦一個博主的博文,講的非常詳細,這就是站在巨人的肩膀上來解決問題,哈哈哈!

      通道開啟,點擊此處查看!

      Ubuntu安裝好之后,我們需要安裝Hadoop了

      之前在 淘寶數據可視化大屏案例(Hadoop實驗) 這個文章里面附著了Hadoop的全套安裝教程的哈,自己點進去查看,然后按照相應的步驟就可以安裝好了!

      Spark安裝

      對于spark的安裝我直接給出部分截圖資源,詳情請自己去下載,有基于Linux的安裝和Windows的安裝,都可以!

      基于Linux安裝步驟文檔資源下載!

      基于Windows安裝步驟資源下載!

      Linux環境下安裝spark的所有資源下載!

      Windows環境下安裝spark的所有資源下載!

      Anaconda安裝

      Anaconda安裝包資源基于Linux版本下載!點擊此處下載!

      首先安裝Anaconda的時候,要明確你Anaconda文件放在哪里的,找到該文件的目錄,雖然在虛擬機里面不存在C盤,也不涉及到文件放在哪里會出現系統卡頓的情況,但是我們還是要自己規范一下,因為規范化是一個開發者必要的職業素養。

      切換到該文件的路徑下面

      cd Anaconda3.8

      ll

      開始安裝

      bash Anaconda3-2020.11-Linux-x86_64.sh

      輸入yes接受許可,進行安裝所需文件!!!

      更多點擊完后出現(注意:回車一直按著到最后會出現很多問你yes或者no的問題)

      輸入:yes

      回答完yes后回車就可進入安裝

      這里輸入“yes”選擇加入環境變量

      安裝完成!!!

      運行anaconda并固定在我們桌面顯示

      輸入:

      source ~/anaconda3/bin/activate root

      anaconda-navigator

      我們安裝好anaconda之后我們就可以安裝配置我們的pycharm啦!

      Pycharm安裝

      Pycharm 2019.3.3Linux資源包下載(資源名稱不符,里面是該資源!請放心下載!)

      建立一個文件夾用于存放我們安裝包:

      mkdir Pycharm-2019.3.3

      ①在電腦上下載pycharm-professional-anaconda-2019.3.3.tar.gz的安裝包,然后復制到虛擬機創建好的空文檔里。(或者直接在虛擬機里下載pycharm-professional-anaconda-2019.3.3.tar.gz)

      ②在終端切換到放置安裝包的目錄后,輸入解壓命令,解壓需要時間。

      解壓命令:如下

      tar xzvf pycharm-professional-anaconda-2019.3.3.tar.gz

      解壓過程:

      ③解壓完成后,生成文件夾里面的文件

      破解準備:修改host文件

      修改host文件 sudo gedit /etc/hosts

      # 在host文件里添加這一行 0.0.0.0 account.jetbrains.com

      ④進入解壓的文件夾,然后進入bin目錄下,可以看到一個pycharm.sh的執行文件

      ⑤在bin目錄下執行啟動命令(./pycharm.sh),啟動pycharm,啟動后會有彈窗(類似在Windows下打開安裝包),選擇第二項Do not import settings,然后點擊ok,如圖:

      ⑥OK后,會有一個協議的彈窗,勾選后點擊continue就可以進行下一步

      ⑦數據分享。這個可以自行選擇,表示是否愿意共享到社區,在這里選擇后者,“Don’t send”,繼續進入下一步。

      對于專業版的破解,我們首先在Anaconda安裝好之后吧,我們再去配置環境,這里

      到了這一步,我們可以不著急去破解,因為我們要利用Anaconda這個編譯器,所以確定好環境之后我們再去破解,之前我們已經安裝好了anaconda了,下載就可以開始破解和配置了!

      pycharm配置與破解

      點擊此處破解包下載!!!!(資源名稱不符是故意設置的,請放心下載!)

      前方高能!破解版注意喲!!首先要下載一個破解版的資源

      點擊此處下載資源!!!

      需要點擊License Avtivate窗口的“Evaluate for free”免費試用,然后再創建一個空項目,這樣就可以進入到pycharm的工作頁面

      接下來我們就開始配置環境了,用于我們的anaconda的組件,包括其他的,這個也非常的重要!!

      自己建立一個工程

      初始化與加載!!!時間可能有點長,耐心一點喲

      好像發現搞錯了,我們是要用anaconda環境的,搞錯了,再來!

      點擊方框右側的“+”按鈕,在彈出的小窗口,選擇Existing environment,點擊…瀏覽選擇anaconda解釋器的位置。

      在瀏覽中找到你的anaconda文件夾,選擇bin目錄里的python解釋器,點擊OK

      這里就開始初始化了,可能要等一段時間,系統需要加載anaconda里面的所有包

      破解步驟

      然后把analysis壓縮包拉倒IDE的界面中

      如果已經打開項目,直接將 jetbrains-agent-latest.zip包拖到代碼區,出現下面的小框即可

      選擇是,然后重啟

      勾選掉自動更新

      哈哈哈!破解成功了,就是這么粗暴簡單,你知道了嗎!!!

      注意:最開始我們破解的時候可能,會有時候不穩定,我們多試幾次就好了,每次點擊進去的時候,如果不能,我們就可以重復上面的步驟,即可!!

      Anaconda python版本降級

      因為我們安裝的是3.8,但是使用pyspark我們需要3.7的,不信我們可以運行一下

      首先安裝第三方庫:

      import findspark findspark.init() from pyspark import SparkContext sc = SparkContext() # 加載文件

      首先使用清華鏡像網址打開通道,這樣速度更快

      pip config set global.index-url https://pypi.tuna.tsinghua.edu.cn/simple

      使用命令:

      pip install pyspark

      pip install findspark

      安裝出錯多試幾次,可能是網速的原因,如果實在不可以,推薦下面方法:

      pip --default-timeout=100 install pyspark -i http://pypi.douban.com/simple/ --trusted-host pypi.douban.com

      OK!!!

      添加虛擬機spark環境變量

      運行代碼出現:

      ValueError: Couldn't find Spark, make sure SPARK_HOME env is set or Spark is in an expected location (e.g. from homebrew installation).

      這個是因為我們沒有在pycharm里面加入環境變量,步驟如下:

      JAVA_HOME /home/hadoop/jdk SPARK_HOME /home/hadoop/spark PYTHONPATH /home/hadoop/anaconda3/bin/python HADOOP_HOME /home/hadoop/hadoop

      一定要注意空格!!!!!!!不知道坑了不少人,我也是其一!

      經過一番搜集,發現是版本的原因,所以降級!

      python 3.8 降級 3.7

      打印如上錯誤異常是因為 spark 2.4.x 還不支持 python 3.8 版本,需要將執行代碼的 python 環境降級到 3.7 版本或以下即可解決。

      conda install python==3.7 anaconda=custom

      慢慢的等待它的降級..........

      運行spark的必要代碼:為了找到本地存在spark

      import findspark findspark.init() from pyspark import SparkContext sc = SparkContext() # 加載文件

      rdd = sc.parallelize([1, 2, 3, 4], 2) rdd.glom().collect() def f(splitIndex, iterator): yield (splitIndex, list(iterator)) a=rdd.mapPartitionsWithIndex(f).collect() print(a)

      OK!在虛擬機可以運行pyspark的代碼了!

      下一步我們配置pycharm的參數,為了我們日常開發的一些美觀,比如字體,比如背景圖這些:

      Pycharm美工配置

      調整字體,幫助我們自然認識代碼的藝術

      配置代碼主題

      配置背景圖

      更換如下:

      都可以自己更改自己喜歡的壁紙,推薦下面的壁紙,很好看的!男生,女生喜歡的類型都有:

      點擊此處下載,圖片資源!!

      對于在虛擬機安裝anaconda與pycharm就已經完成了!所有的開發環境都已準備就緒,大數據的時代,誰與爭鋒,武功很重要,武器更重要!

      每文一語

      只有經濟獨立,才能靈魂挺拔!

      Hadoop Linux Python spark 大數據

      版權聲明:本文內容由網絡用戶投稿,版權歸原作者所有,本站不擁有其著作權,亦不承擔相應法律責任。如果您發現本站中有涉嫌抄襲或描述失實的內容,請聯系我們jiasou666@gmail.com 處理,核實后本網站將在24小時內刪除侵權內容。

      版權聲明:本文內容由網絡用戶投稿,版權歸原作者所有,本站不擁有其著作權,亦不承擔相應法律責任。如果您發現本站中有涉嫌抄襲或描述失實的內容,請聯系我們jiasou666@gmail.com 處理,核實后本網站將在24小時內刪除侵權內容。

      上一篇:項目協同平臺慢怎么解決(項目協同平臺下載)
      下一篇:清除格式在哪里(wps清除格式在哪里)
      相關文章
      亚洲日本中文字幕一区二区三区| 日本亚洲中午字幕乱码 | 国产亚洲精品a在线观看app| 日韩精品电影一区亚洲| 亚洲色最新高清av网站| 亚洲区精品久久一区二区三区| 亚洲人成依人成综合网| 久久精品国产亚洲AV麻豆王友容| 亚洲一区爱区精品无码| 久久影院亚洲一区| 中文字幕专区在线亚洲| 亚洲日韩精品A∨片无码| 亚洲中文字幕无码永久在线| 精品国产亚洲男女在线线电影 | 亚洲AV综合色区无码一区| 久久精品九九亚洲精品天堂| 亚洲精品无码mv在线观看网站| 亚洲日本va中文字幕久久| 亚洲精品无码成人片久久 | 亚洲综合av一区二区三区| 亚洲久悠悠色悠在线播放| 四虎亚洲精品高清在线观看| 日韩亚洲人成在线| 亚洲欧美第一成人网站7777| 亚洲日韩精品无码专区| 欧洲亚洲国产精华液| 精品久久久久久亚洲综合网| 国产精品亚洲а∨无码播放不卡| 国产精品久久亚洲一区二区| 亚洲AV无码成H人在线观看| 亚洲日本韩国在线| 亚洲日韩精品无码专区网址| 亚洲av无码潮喷在线观看| 久久精品国产亚洲av麻豆色欲| 亚洲精品福利网泷泽萝拉| 亚洲1234区乱码| 亚洲精品天堂无码中文字幕| 蜜臀亚洲AV无码精品国产午夜.| 亚洲福利视频一区二区| 亚洲色精品88色婷婷七月丁香| 亚洲av无码一区二区三区不卡|