揭秘hive常見面試題(一)-20道

      網(wǎng)友投稿 1049 2022-05-30

      (1)Hive 使用:倉庫、工具

      (2)hive 內(nèi)部表:加載數(shù)據(jù)到 hive 所在的 hdfs 目錄,刪除時,元數(shù)據(jù)和數(shù)據(jù)文件都刪除

      外部表:不加載數(shù)據(jù)到 hive 所在的 hdfs 目錄,刪除時,只刪除表結(jié)構(gòu)。

      (3)分區(qū)作用:防止數(shù)據(jù)傾斜

      (4)UDF 函數(shù):用戶自定義的函數(shù) (主要解決格式,計算問題 ),需要繼承 UDF 類

      java 代碼實現(xiàn)

      class TestUDFHive extends UDF { public String evalute(String str){ try{ return "hello"+str }catch(Exception e){ return str+"error" } } }

      (5)Hive 優(yōu)化:看做 mapreduce 處理

      排序優(yōu)化: sort by 效率高于 order by

      分區(qū):使用靜態(tài)分區(qū) (statu_date="20160516",location="beijin") ,每個分區(qū)對應 hdfs 上

      的一個目錄,減少 job 和 task 數(shù)量:使用表鏈接操作,解決 groupby 數(shù)據(jù)傾斜問題:設置 hive.groupby.skewindata=true ,那么 hive 會自動負載均衡,小文件合并成大文件:表連接操作,使用 UDF 或 UDAF 函數(shù):

      http://www.cnblogs.com/ggjucheng/archive/2013/02/01/2888819.html

      image.png

      字段解釋:

      product_no:用戶手機號;

      lac_id:用戶所在基站;

      start_time:用戶在此基站的開始時間;

      staytime:用戶在此基站的逗留時間。

      需求描述:

      根據(jù) lac_id 和 start_time 知道用戶當時的位置,根據(jù) staytime 知道用戶各個基站的逗留時長。根據(jù)軌跡合并連續(xù)基站的 staytime。最終得到每一個用戶按時間排序在每一個基站駐留時長。

      期望輸出舉例:

      image.png

      共同點:

      1.hbase 與 hive 都是架構(gòu)在 hadoop 之上的。都是用 hadoop 作為底層存儲

      區(qū)別:

      2.Hive 是建立在 Hadoop 之上為了減少 MapReduce jobs 編寫工作的批處理系統(tǒng),HBase

      是為了支持彌補 Hadoop 對實時操作的缺陷的項目 。

      3.想象你在操作 RMDB 數(shù)據(jù)庫,如果是全表掃描,就用 Hive+Hadoop,如果是索引訪問,

      就用 HBase+Hadoop 。

      4.Hive query 就是 MapReduce jobs 可以從 5 分鐘到數(shù)小時不止,HBase 是非常高效的,

      肯定比 Hive 高效的多。

      5.Hive 本身不存儲和計算數(shù)據(jù),它完全依賴于 HDFS 和 MapReduce,Hive 中的表純邏輯。

      揭秘hive常見面試題(一)-20道

      6.hive 借用 hadoop 的 MapReduce 來完成一些 hive 中的命令的執(zhí)行

      7.hbase 是物理表,不是邏輯表,提供一個超大的內(nèi)存 hash 表,搜索引擎通過它來存

      儲索引,方便查詢操作。

      8.hbase 是列存儲。

      9.hdfs 作為底層存儲,hdfs 是存放文件的系統(tǒng),而 Hbase 負責組織文件。

      10.hive 需要用到 hdfs 存儲文件,需要用到 MapReduce 計算框架。

      1、 內(nèi)存數(shù)據(jù)庫 derby,安裝小,但是數(shù)據(jù)存在內(nèi)存,不穩(wěn)定

      2、 mysql 數(shù)據(jù)庫,數(shù)據(jù)存儲模式可以自己設置,持久化好,查看方便

      1、因為外部表不會加載數(shù)據(jù)到 hive,減少數(shù)據(jù)傳輸、數(shù)據(jù)還能共享。

      2、hive 不會修改數(shù)據(jù),所以無需擔心數(shù)據(jù)的損壞

      3、刪除表時,只刪除表結(jié)構(gòu)、不刪除數(shù)據(jù)。

      在導入hive的時候,如果數(shù)據(jù)庫中有blob或者text字段會報錯,解決方案在sqoop筆記中

      Hadoop Hive

      版權(quán)聲明:本文內(nèi)容由網(wǎng)絡用戶投稿,版權(quán)歸原作者所有,本站不擁有其著作權(quán),亦不承擔相應法律責任。如果您發(fā)現(xiàn)本站中有涉嫌抄襲或描述失實的內(nèi)容,請聯(lián)系我們jiasou666@gmail.com 處理,核實后本網(wǎng)站將在24小時內(nèi)刪除侵權(quán)內(nèi)容。

      上一篇:華為云CCE Turbo重磅發(fā)布,全面加速企業(yè)應用創(chuàng)新
      下一篇:【用戶案例】世界人工智能大會的客服應該是怎樣的?沃豐科技攜手華為交答卷!
      相關(guān)文章
      亚洲精品国精品久久99热| 亚洲人成无码网WWW| 国产精品亚洲一区二区三区在线 | 78成人精品电影在线播放日韩精品电影一区亚洲 | 亚洲日韩乱码久久久久久| 久久青青草原亚洲av无码app| 婷婷久久久亚洲欧洲日产国码AV | 亚洲色无码专区一区| 亚洲最大的成人网站| 亚洲色大网站WWW永久网站| 亚洲色大成网站www| 亚洲精品国产高清在线观看| 亚洲国产欧美日韩精品一区二区三区| 亚洲国产91在线| 亚洲欧洲无卡二区视頻| 亚洲美国产亚洲AV| 精品国产亚洲一区二区三区在线观看| 豆国产96在线|亚洲| 国产成人+综合亚洲+天堂| 亚洲国产成人VA在线观看| 亚洲爽爽一区二区三区| 亚洲熟妇av一区二区三区漫画| 亚洲精品午夜国产VA久久成人| 亚洲av永久无码精品漫画| 婷婷精品国产亚洲AV麻豆不片 | 亚洲国产午夜福利在线播放| 国产精品亚洲美女久久久| 亚洲午夜福利717| 亚洲婷婷天堂在线综合| 亚洲入口无毒网址你懂的| 亚洲欧洲专线一区| 亚洲成av人片在线观看天堂无码| 精品国产亚洲AV麻豆| 国产亚洲精品成人AA片新蒲金| 亚洲精品无码成人片久久| 久久亚洲春色中文字幕久久久| 国产成人亚洲精品| 精品国产日韩亚洲一区91| 亚洲午夜久久久久妓女影院| 666精品国产精品亚洲 | 亚洲不卡在线观看|