寵物集市-寵物集市華東、華南、華北排行榜一覽表
714
2022-05-28
1????? 背景介紹
傳統的Hadoop和Spark大數據生態,主要是以本地硬盤或云硬盤承載HDFS文件系統進行數據存儲,但是存在成本高,擴容難等問題。
當前華為云對象存儲服務OBS可以與Hadoop和Spark大數據生態進行對接,為用戶提供計算存儲分離的大數據解決方案。為了實現用戶數據平滑上云,可以采用華為云CDM服務進行HDFS到OBS的數據遷移。
2????? 遷移背景和目標
已存在集群一采用EVS存儲HDFS格式數據,新建集群二采用OBS存儲數據,需要將數據從集群一的HDFS遷移至集群二的OBS。
3????? 遷移方法
1、已搭建集群一(北京一)和集群二(華東),集群一采用EVS存儲數據,集群二采用OBS存儲數據
2、在集群一構造Spark或者Hive的數據,例如,構造Hive表數據如下
(1)創建DATABASE
CREATE DATABASE top_ods;
(2)創建TABLE
CREATE TABLE `top_ods.claim_6yue_pt`(
`user_id` varchar(300),
`ese_id` int,
`task_id` varchar(100))
partitioned by (tagdate int)
ROW FORMAT DELIMITED FIELDS TERMINATED BY "|"
STORED AS parquetfile
TBLPROPERTIES ("orc.compression"="Snappy");
insert into table top_ods.claim_6yue_pt partition(tagdate=1) values( '10' ,10,'10');
insert into table top_ods.claim_6yue_pt partition(tagdate=1) values( '11' ,11,'11');
insert into table top_ods.claim_6yue_pt partition(tagdate=1) values( '12' ,12,'12');
insert into table top_ods.claim_6yue_pt partition(tagdate=1) values( '13' ,13,'13');
insert into table top_ods.claim_6yue_pt partition(tagdate=1) values( '14' ,14,'14');
insert into table top_ods.claim_6yue_pt partition(tagdate=1) values( '15' ,15,'15');
insert into table top_ods.claim_6yue_pt partition(tagdate=2) values( '20' ,20,'20');
insert into table top_ods.claim_6yue_pt partition(tagdate=2) values( '21' ,21,'21');
insert into table top_ods.claim_6yue_pt partition(tagdate=2) values( '22' ,22,'22');
insert into table top_ods.claim_6yue_pt partition(tagdate=2) values( '23' ,23,'23');
insert into table top_ods.claim_6yue_pt partition(tagdate=2) values( '24' ,24,'24');
insert into table top_ods.claim_6yue_pt partition(tagdate=2) values( '25' ,25,'25');
select * from top_ods.claim_6yue_pt;
3、在集群二創建Spark或者Hive的新表,新表格式與源表的存儲格式等屬性要一致
(1)創建DATABASE
CREATE DATABASE top_odstest location 'obs://obs-bigdata-hd-003/user/hive/warehouse/top_ods.db';
(2)創建TABLE,新表格式與源表的存儲格式等屬性要一致
CREATE TABLE `top_odstest.claim_6yue_pt`(
`user_id` varchar(300),
`ese_id` int,
`task_id` varchar(100))
partitioned by (tagdate int)
ROW FORMAT DELIMITED FIELDS TERMINATED BY "|"
STORED AS parquetfile
TBLPROPERTIES ("orc.compression"="Snappy");
4、創建CDM任務,將集群一的HDFS數據遷移至集群二的OBS
(1)創建CDM集群(華東),跨Region需要綁定公網彈性IP
(2)配置連接管理,一個連接使用Apache HDFS,另一個連接使用對象存儲服務(OBS)
備注:集群一的所有節點需配置公網彈性IP,并且Apache HDFS連接中的IP與主機名映射要填寫所有集群一的主機
XX.XX.XX.XX ecs-bigdata-hdtest-0000.novalocal
XX.XX.XX.XX ecs-bigdata-hdtest-0001.novalocal
XX.XX.XX.XX ecs-bigdata-hdtest-0002.novalocal
XX.XX.XX.XX ecs-bigdata-hdtest-0003.novalocal
(3)配置作業管理,源連接使用HDFS連接,目標連接使用OBS連接,文件格式使用二進制格式
(4)配置完成后,運行作業進行數據遷移
5、遷移完成后,在集群二恢復Hive表數據,即可查詢數據成功。
恢復Hive表數據:MSCK REPAIR TABLE top_odstest.claim_6yue_pt;
查詢Hive表數據:select * from top_odstest.claim_6yue_pt;
OBS 大數據
版權聲明:本文內容由網絡用戶投稿,版權歸原作者所有,本站不擁有其著作權,亦不承擔相應法律責任。如果您發現本站中有涉嫌抄襲或描述失實的內容,請聯系我們jiasou666@gmail.com 處理,核實后本網站將在24小時內刪除侵權內容。