采用CDM進行HDFS到OBS的數據遷移

      網友投稿 714 2022-05-28

      1????? 背景介紹

      傳統的Hadoop和Spark大數據生態,主要是以本地硬盤或云硬盤承載HDFS文件系統進行數據存儲,但是存在成本高,擴容難等問題。

      當前華為云對象存儲服務OBS可以與Hadoop和Spark大數據生態進行對接,為用戶提供計算存儲分離的大數據解決方案。為了實現用戶數據平滑上云,可以采用華為云CDM服務進行HDFS到OBS的數據遷移。

      2????? 遷移背景和目標

      已存在集群一采用EVS存儲HDFS格式數據,新建集群二采用OBS存儲數據,需要將數據從集群一的HDFS遷移至集群二的OBS。

      3????? 遷移方法

      1、已搭建集群一(北京一)和集群二(華東),集群一采用EVS存儲數據,集群二采用OBS存儲數據

      2、在集群一構造Spark或者Hive的數據,例如,構造Hive表數據如下

      (1)創建DATABASE

      CREATE DATABASE top_ods;

      (2)創建TABLE

      CREATE TABLE `top_ods.claim_6yue_pt`(

      `user_id` varchar(300),

      `ese_id` int,

      `task_id` varchar(100))

      partitioned by (tagdate int)

      ROW FORMAT DELIMITED FIELDS TERMINATED BY "|"

      STORED AS parquetfile

      TBLPROPERTIES ("orc.compression"="Snappy");

      insert into table top_ods.claim_6yue_pt partition(tagdate=1) values( '10' ,10,'10');

      insert into table top_ods.claim_6yue_pt partition(tagdate=1) values( '11' ,11,'11');

      insert into table top_ods.claim_6yue_pt partition(tagdate=1) values( '12' ,12,'12');

      insert into table top_ods.claim_6yue_pt partition(tagdate=1) values( '13' ,13,'13');

      insert into table top_ods.claim_6yue_pt partition(tagdate=1) values( '14' ,14,'14');

      insert into table top_ods.claim_6yue_pt partition(tagdate=1) values( '15' ,15,'15');

      insert into table top_ods.claim_6yue_pt partition(tagdate=2) values( '20' ,20,'20');

      insert into table top_ods.claim_6yue_pt partition(tagdate=2) values( '21' ,21,'21');

      insert into table top_ods.claim_6yue_pt partition(tagdate=2) values( '22' ,22,'22');

      insert into table top_ods.claim_6yue_pt partition(tagdate=2) values( '23' ,23,'23');

      insert into table top_ods.claim_6yue_pt partition(tagdate=2) values( '24' ,24,'24');

      insert into table top_ods.claim_6yue_pt partition(tagdate=2) values( '25' ,25,'25');

      select * from top_ods.claim_6yue_pt;

      3、在集群二創建Spark或者Hive的新表,新表格式與源表的存儲格式等屬性要一致

      (1)創建DATABASE

      CREATE DATABASE top_odstest location 'obs://obs-bigdata-hd-003/user/hive/warehouse/top_ods.db';

      (2)創建TABLE,新表格式與源表的存儲格式等屬性要一致

      CREATE TABLE `top_odstest.claim_6yue_pt`(

      `user_id` varchar(300),

      `ese_id` int,

      `task_id` varchar(100))

      采用CDM進行HDFS到OBS的數據遷移

      partitioned by (tagdate int)

      ROW FORMAT DELIMITED FIELDS TERMINATED BY "|"

      STORED AS parquetfile

      TBLPROPERTIES ("orc.compression"="Snappy");

      4、創建CDM任務,將集群一的HDFS數據遷移至集群二的OBS

      (1)創建CDM集群(華東),跨Region需要綁定公網彈性IP

      (2)配置連接管理,一個連接使用Apache HDFS,另一個連接使用對象存儲服務(OBS)

      備注:集群一的所有節點需配置公網彈性IP,并且Apache HDFS連接中的IP與主機名映射要填寫所有集群一的主機

      XX.XX.XX.XX ecs-bigdata-hdtest-0000.novalocal

      XX.XX.XX.XX ecs-bigdata-hdtest-0001.novalocal

      XX.XX.XX.XX ecs-bigdata-hdtest-0002.novalocal

      XX.XX.XX.XX ecs-bigdata-hdtest-0003.novalocal

      (3)配置作業管理,源連接使用HDFS連接,目標連接使用OBS連接,文件格式使用二進制格式

      (4)配置完成后,運行作業進行數據遷移

      5、遷移完成后,在集群二恢復Hive表數據,即可查詢數據成功。

      恢復Hive表數據:MSCK REPAIR TABLE top_odstest.claim_6yue_pt;

      查詢Hive表數據:select * from top_odstest.claim_6yue_pt;

      OBS 大數據

      版權聲明:本文內容由網絡用戶投稿,版權歸原作者所有,本站不擁有其著作權,亦不承擔相應法律責任。如果您發現本站中有涉嫌抄襲或描述失實的內容,請聯系我們jiasou666@gmail.com 處理,核實后本網站將在24小時內刪除侵權內容。

      上一篇:利用QEMU+GDB搭建Linux內核調試環境
      下一篇:構建升華:現代計算架構正在發生變化的四種方式
      相關文章
      亚洲一区二区三区国产精品| 亚洲欧洲无码一区二区三区| 狠狠入ady亚洲精品| 亚洲人成在线播放| 亚洲欧洲在线观看| 亚洲成在人天堂在线| 亚洲成av人片天堂网| 亚洲成a人片在线观看日本| 亚洲人JIZZ日本人| 亚洲中文字幕久久精品无码喷水| 亚洲女人被黑人巨大进入| 亚洲国产精品自在拍在线播放 | 久久久久久久综合日本亚洲 | 亚洲伊人成无码综合网 | 亚洲第一二三四区| 久久精品亚洲一区二区三区浴池 | 亚洲AV日韩AV一区二区三曲| 亚洲精品国产suv一区88| 亚洲av日韩精品久久久久久a| 亚洲精品国产首次亮相| 国产成人高清亚洲一区久久| 少妇亚洲免费精品| 亚洲狠狠爱综合影院婷婷| 国产成人精品亚洲精品| 亚洲精品无码久久久久| 亚洲av无码一区二区三区网站| 无码专区—VA亚洲V天堂| 久久久久亚洲AV无码网站| 亚洲精品mv在线观看 | 在线亚洲午夜理论AV大片| 日本亚洲成高清一区二区三区| 久久久久亚洲精品无码系列| 亚洲欧洲日韩不卡| 久久精品国产亚洲av麻豆图片| 亚洲色偷偷偷综合网| 国产精品亚洲五月天高清| 久久久无码精品亚洲日韩软件| 国产亚洲成AV人片在线观黄桃| 亚洲av日韩av不卡在线观看| 亚洲日韩乱码中文无码蜜桃臀| 亚洲av无码电影网|