采用CDM进行HDFS到OBS的数据迁移-伙伴云

采用CDM进行 HDFS到OBS的数据迁移

网友投稿 758 2022-05-28

1 背景介绍

传统的Hadoop和Spark大数据生态，主要是以本地硬盘或云硬盘承载HDFS文件系统进行数据存储，但是存在成本高，扩容难等问题。

当前华为云对象存储服务OBS可以与Hadoop和Spark大数据生态进行对接，为用户提供计算存储分离的大数据解决方案。为了实现用户数据平滑上云，可以采用华为云CDM服务进行HDFS到OBS的数据迁移。

2 迁移背景和目标

已存在集群一采用EVS存储HDFS格式数据，新建集群二采用OBS存储数据，需要将数据从集群一的HDFS迁移至集群二的OBS。

3 迁移方法

1、已搭建集群一（北京一）和集群二（华东），集群一采用EVS存储数据，集群二采用OBS存储数据

2、在集群一构造Spark或者Hive的数据，例如，构造Hive表数据如下

（1）创建DATABASE

CREATE DATABASE top_ods;

（2）创建TABLE

CREATE TABLE `top_ods.claim_6yue_pt`(

`user_id` varchar(300),

`ese_id` int,

`task_id` varchar(100))

partitioned by (tagdate int)

ROW FORMAT DELIMITED FIELDS TERMINATED BY "|"

STORED AS parquetfile

TBLPROPERTIES ("orc.compression"="Snappy");

insert into table top_ods.claim_6yue_pt partition(tagdate=1) values( '10' ,10,'10');

insert into table top_ods.claim_6yue_pt partition(tagdate=1) values( '11' ,11,'11');

insert into table top_ods.claim_6yue_pt partition(tagdate=1) values( '12' ,12,'12');

insert into table top_ods.claim_6yue_pt partition(tagdate=1) values( '13' ,13,'13');

insert into table top_ods.claim_6yue_pt partition(tagdate=1) values( '14' ,14,'14');

insert into table top_ods.claim_6yue_pt partition(tagdate=1) values( '15' ,15,'15');

insert into table top_ods.claim_6yue_pt partition(tagdate=2) values( '20' ,20,'20');

insert into table top_ods.claim_6yue_pt partition(tagdate=2) values( '21' ,21,'21');

insert into table top_ods.claim_6yue_pt partition(tagdate=2) values( '22' ,22,'22');

insert into table top_ods.claim_6yue_pt partition(tagdate=2) values( '23' ,23,'23');

insert into table top_ods.claim_6yue_pt partition(tagdate=2) values( '24' ,24,'24');

insert into table top_ods.claim_6yue_pt partition(tagdate=2) values( '25' ,25,'25');

select * from top_ods.claim_6yue_pt;

3、在集群二创建Spark或者Hive的新表，新表格式与源表的存储格式等属性要一致

（1）创建DATABASE

CREATE DATABASE top_odstest location 'obs://obs-bigdata-hd-003/user/hive/warehouse/top_ods.db';

（2）创建TABLE，新表格式与源表的存储格式等属性要一致

CREATE TABLE `top_odstest.claim_6yue_pt`(

`user_id` varchar(300),

`ese_id` int,

`task_id` varchar(100))

partitioned by (tagdate int)

ROW FORMAT DELIMITED FIELDS TERMINATED BY "|"

STORED AS parquetfile

TBLPROPERTIES ("orc.compression"="Snappy");

4、创建CDM任务，将集群一的HDFS数据迁移至集群二的OBS

（1）创建CDM集群（华东），跨Region需要绑定公网弹性IP

（2）配置连接管理，一个连接使用Apache HDFS，另一个连接使用对象存储服务（OBS）

备注：集群一的所有节点需配置公网弹性IP，并且Apache HDFS连接中的IP与主机名映射要填写所有集群一的主机

XX.XX.XX.XX ecs-bigdata-hdtest-0000.novalocal

XX.XX.XX.XX ecs-bigdata-hdtest-0001.novalocal

XX.XX.XX.XX ecs-bigdata-hdtest-0002.novalocal

XX.XX.XX.XX ecs-bigdata-hdtest-0003.novalocal

（3）配置作业管理，源连接使用HDFS连接，目标连接使用OBS连接，文件格式使用二进制格式

（4）配置完成后，运行作业进行数据迁移

5、迁移完成后，在集群二恢复Hive表数据，即可查询数据成功。

恢复Hive表数据：MSCK REPAIR TABLE top_odstest.claim_6yue_pt;

查询Hive表数据：select * from top_odstest.claim_6yue_pt;

OBS 大数据

在 Excel 中实现自定义顺序排序的全面指南

758 2022-05-28

采用CDM进行 HDFS到OBS的数据迁移

江西科技学院附属中学（江科附中）2025年高三复读班招生信息全解析

在 Excel 中实现自定义顺序排序的全面指南

excel表格怎么做好看颜色搭配

推荐文章

企业生产管理是什么，企业生产管理软件

进盘点进销存软件排行榜前十名

进销存系统哪个简单好用？进销存系统优点

工厂生产管理（工厂生产管理流程及制度）

生产管理软件，机械制造业生产管理，制造业生产过程管理软件

进销存软件和ERP有什么区别？进销存与erp软件理解

进销存如何进行库存管理

如何利用excel制作销售订单管理系统？

数据库订单管理系统有哪些功能？数据库订单管理系统怎么设计？

什么是数据库管理系统？

最近发表

热评文章

零代码开发是什么？2022低代码平台排行榜">零代码开发是什么？2022低代码平台排行榜

进销存库存管理 系统（智慧进销存）">智能进销存库存管理系统（智慧进销存）

在线文档哪家强？8款在线文档编辑软件推荐">在线文档哪家强？8款在线文档编辑软件推荐

WPS2016怎么绘制简单的价格表?

客户管理工具是什么？">客户管理工具是什么？

系统的功能有哪些？餐饮服务系统的构成及工作程序">连锁餐饮管理系统的功能有哪些？餐饮服务系统的构成及工

友情链接

采用CDM进行HDFS到OBS的数据迁移

微信扫一扫：分享

推荐文章

最近发表

热评文章

零代码开发是什么？2022低代码平台排行榜">零代码开发是什么？2022低代码平台排行榜

进销存库存管理系统（智慧进销存）">智能进销存库存管理系统（智慧进销存）

在线文档哪家强？8款在线文档编辑软件推荐">在线文档哪家强？8款在线文档编辑软件推荐

客户管理工具是什么？">客户管理工具是什么？

系统的功能有哪些？餐饮服务系统的构成及工作程序">连锁餐饮管理系统的功能有哪些？餐饮服务系统的构成及工

友情链接

采用CDM进行 HDFS到OBS的数据迁移