<ul id="kwigs"></ul>

<fieldset id="kwigs"></fieldset>

<ul id="kwigs"></ul><strike id="kwigs"><rt id="kwigs"></rt></strike>

采用CDM進行 HDFS到OBS的數據遷移

網友投稿 714 2022-05-28

1????? 背景介紹

傳統的Hadoop和Spark大數據生態，主要是以本地硬盤或云硬盤承載HDFS文件系統進行數據存儲，但是存在成本高，擴容難等問題。

當前華為云對象存儲服務OBS可以與Hadoop和Spark大數據生態進行對接，為用戶提供計算存儲分離的大數據解決方案。為了實現用戶數據平滑上云，可以采用華為云CDM服務進行HDFS到OBS的數據遷移。

2????? 遷移背景和目標

已存在集群一采用EVS存儲HDFS格式數據，新建集群二采用OBS存儲數據，需要將數據從集群一的HDFS遷移至集群二的OBS。

3????? 遷移方法

1、已搭建集群一（北京一）和集群二（華東），集群一采用EVS存儲數據，集群二采用OBS存儲數據

2、在集群一構造Spark或者Hive的數據，例如，構造Hive表數據如下

（1）創建DATABASE

CREATE DATABASE top_ods;

（2）創建TABLE

CREATE TABLE `top_ods.claim_6yue_pt`(

`user_id` varchar(300),

`ese_id` int,

`task_id` varchar(100))

partitioned by (tagdate int)

ROW FORMAT DELIMITED FIELDS TERMINATED BY "|"

STORED AS parquetfile

TBLPROPERTIES ("orc.compression"="Snappy");

insert into table top_ods.claim_6yue_pt partition(tagdate=1) values( '10' ,10,'10');

insert into table top_ods.claim_6yue_pt partition(tagdate=1) values( '11' ,11,'11');

insert into table top_ods.claim_6yue_pt partition(tagdate=1) values( '12' ,12,'12');

insert into table top_ods.claim_6yue_pt partition(tagdate=1) values( '13' ,13,'13');

insert into table top_ods.claim_6yue_pt partition(tagdate=1) values( '14' ,14,'14');

insert into table top_ods.claim_6yue_pt partition(tagdate=1) values( '15' ,15,'15');

insert into table top_ods.claim_6yue_pt partition(tagdate=2) values( '20' ,20,'20');

insert into table top_ods.claim_6yue_pt partition(tagdate=2) values( '21' ,21,'21');

insert into table top_ods.claim_6yue_pt partition(tagdate=2) values( '22' ,22,'22');

insert into table top_ods.claim_6yue_pt partition(tagdate=2) values( '23' ,23,'23');

insert into table top_ods.claim_6yue_pt partition(tagdate=2) values( '24' ,24,'24');

insert into table top_ods.claim_6yue_pt partition(tagdate=2) values( '25' ,25,'25');

select * from top_ods.claim_6yue_pt;

3、在集群二創建Spark或者Hive的新表，新表格式與源表的存儲格式等屬性要一致

（1）創建DATABASE

CREATE DATABASE top_odstest location 'obs://obs-bigdata-hd-003/user/hive/warehouse/top_ods.db';

（2）創建TABLE，新表格式與源表的存儲格式等屬性要一致

CREATE TABLE `top_odstest.claim_6yue_pt`(

`user_id` varchar(300),

`ese_id` int,

`task_id` varchar(100))

采用CDM進行HDFS到OBS的數據遷移

partitioned by (tagdate int)

ROW FORMAT DELIMITED FIELDS TERMINATED BY "|"

STORED AS parquetfile

TBLPROPERTIES ("orc.compression"="Snappy");

4、創建CDM任務，將集群一的HDFS數據遷移至集群二的OBS

（1）創建CDM集群（華東），跨Region需要綁定公網彈性IP

（2）配置連接管理，一個連接使用Apache HDFS，另一個連接使用對象存儲服務（OBS）

備注：集群一的所有節點需配置公網彈性IP，并且Apache HDFS連接中的IP與主機名映射要填寫所有集群一的主機

XX.XX.XX.XX ecs-bigdata-hdtest-0000.novalocal

XX.XX.XX.XX ecs-bigdata-hdtest-0001.novalocal

XX.XX.XX.XX ecs-bigdata-hdtest-0002.novalocal

XX.XX.XX.XX ecs-bigdata-hdtest-0003.novalocal

（3）配置作業管理，源連接使用HDFS連接，目標連接使用OBS連接，文件格式使用二進制格式

（4）配置完成后，運行作業進行數據遷移

5、遷移完成后，在集群二恢復Hive表數據，即可查詢數據成功。

恢復Hive表數據：MSCK REPAIR TABLE top_odstest.claim_6yue_pt;

查詢Hive表數據：select * from top_odstest.claim_6yue_pt;

OBS 大數據

標簽：采用進行 HDFS

寵物集市-寵物集市華東、華南、華北排行榜一覽表

714 2022-05-28

寵物集市在深圳哪里有?時間地址最新消息

714 2022-05-28

京寵展信息指南

714 2022-05-28

<fieldset id="wuoo6"></fieldset>

采用CDM進行 HDFS到OBS的數據遷移

寵物集市-寵物集市華東、華南、華北排行榜一覽表

寵物集市在深圳哪里有?時間地址最新消息

京寵展信息指南

推薦文章

企業生產管理是什么，企業生產管理軟件

進盤點進銷存軟件排行榜前十名

進銷存系統哪個簡單好用？進銷存系統優點

工廠生產管理（工廠生產管理流程及制度）

生產管理軟件，機械制造業生產管理，制造業生產過程管理軟件

進銷存軟件和ERP有什么區別？進銷存與erp軟件理解

進銷存如何進行庫存管理

如何利用excel制作銷售訂單管理系統？

數據庫訂單管理系統有哪些功能？數據庫訂單管理系統怎么設計？

什么是數據庫管理系統？

最近發表

熱評文章

零代碼開發是什么？2022低代碼平臺排行榜">零代碼開發是什么？2022低代碼平臺排行榜

進銷存庫存管理 系統（智慧進銷存）">智能進銷存庫存管理系統（智慧進銷存）

在線文檔哪家強？8款在線文檔編輯軟件推薦">在線文檔哪家強？8款在線文檔編輯軟件推薦

WPS2016怎么繪制簡單的價格表?

系統的功能有哪些？餐飲服務系統的構成及工作程序">連鎖餐飲管理系統的功能有哪些？餐飲服務系統的構成及工

進銷存庫存管理盤點">簡單進銷存庫存管理盤點

友情鏈接