Elastic数据迁移方法及注意事项-伙伴云

Elastic 数据迁移方法及注意事项

网友投稿 1325 2022-05-28

需求

ES集群Cluster_A里的数据（某个索引或某几个索引），需要迁移到另外一个ES集群Cluster_B中。

环境

Linux：Centos7 / Centos6.5/ Centos6.4

Elastic：5.2.0

总结的方法

查询并导出数据

拷贝ES物理目录/文件

ES快照数据备份和恢复

迁移方法

分别进行以上方法的详细介绍：

查询并导出数据

通过ES提供的查询API，写各种程序，把数据导出csv，或者把数据查询出来，直接入库到新的ES集群中。

Elastic数据迁移方法及注意事项

#coding=utf-8 import osimport sysimport pyes index_list = [ ["index_A", "type_A"], ["index_B", "type_B"], ["index_C", "type_C"], ] ES_URL = "http://192.168.1.1:9200/"NEW_ES_URL = "http://192.168.2.1:8200/" def main(): for _index, _type in index_list: conn = pyes.es.ES(ES_URL) search = pyes.query.MatchAllQuery().search(bulk_read=10000) hits = conn.search(search, _index, _type, scan=True, scroll="30m", model=lambda _,hit: hit) conn2 = pyes.es.ES(NEW_ES_URL) count = 0 for hit in hits: conn2.index(hit['_source'], _index, _type, hit['_id'], bulk=True) count += 1 if count % 10000 == 0: print count conn2.flush() conn2.flush() conn2 = None conn = None if __name__ == '__main__': main()

需要安装python的pyes模块，注意pyes的版本，此处的版本为：pyes.0.20.1

用了查询ES的scroll方式，也有一种直接通过ES的DSL查询语句用分页from和size查询，但是ES的分页查询到了千万级别之后，from就会慢的出奇，甚至报错，不信的同学去尝试吧，等着功亏一篑….

客户现场的数据级别是物理存储大概在5T(一个副本)，条数大概1百亿。现场使用该方法亲测之后，未解决ES迁移的问题。pyes在约到后面查询越慢，最后ES报错…..

百万、千万级别条数的数据，可以尝试该方法。

拷贝ES物理目录/文件

ES的文件存在磁盘中，把物理文件一模一样拷贝一份到新的集群环境中，达到数据迁移的效果。

1. 找到ES的存储目录，一般可以到elasticsearch.yml中找到path.data的配置 2. 集群下一般会有多个节点，所以ES的存储目录也就有多个 3. 一般ES的存储目录下，会存储一个集群名字一样的文件夹，需要拷贝的就是这个文件夹. 4. 环境如下：旧集群：集群名字：Cluster_A 分片数：6机器A：一个节点 192.168.1.1node0 数据存储目录：/opt/data1,/opt/data2 机器B：三个节点 192.168.1.2node1 数据存储目录：/opt/data1,/opt/data2 node2 数据存储目录：/opt/data3,/opt/data4 node3 数据存储目录：/opt/data5,/opt/data6 新的集群：集群名字：Cluster_A 分片数：6机器A：一个节点 192.168.2.1node0 数据存储目录：/opt/data1,/opt/data2 机器B：三个节点 192.168.2.2node1 数据存储目录：/opt/data1,/opt/data2 node2 数据存储目录：/opt/data3,/opt/data4 node3 数据存储目录：/opt/data5,/opt/data6 5. 迁移代码如下：新集群机器A：192.168.2.1如下操作 scp –r root@192.168.1.1:/opt/data1/Cluster_A /opt/data1/ scp –r root@192.168.1.1:/opt/data2/Cluster_A /opt/data2/ 新集群机器B：192.168.2.2如下操作 scp –r root@192.168.1.2:/opt/data1/Cluster_A /opt/data1/ scp –r root@192.168.1.2:/opt/data2/Cluster_A /opt/data2/ scp –r root@192.168.1.2:/opt/data3/Cluster_A /opt/data3/ scp –r root@192.168.1.2:/opt/data4/Cluster_A /opt/data4/ scp –r root@192.168.1.2:/opt/data5/Cluster_A /opt/data5/ scp –r root@192.168.1.2:/opt/data6/Cluster_A /opt/data6/

ES快照数据备份和恢复

使用ES官网提供的快照备份方法，将旧集群ES的索引进行备份，拷贝备份出来的所有文件，在新的集群中进行恢复。

官网写的非常简单：先创建仓库(repository)，再往仓库里添加一个快照(snapshot)，查看备份状态，That’s all。但是实践需要麻烦很多了。

索引很大，需要有足够的空间存储备份出来的数据，挂载磁盘和设置path.repo来解决该问题。

在简历仓库的时候，会报错，找不到快照目录/opt/backup_es

需要在elasticsearch.yml中设置path.repo: /opt/backup_es

挂载的磁盘需要赋权限，让ES的用户能读写。Sshfs的时候加上 -oallow_other；Mount的时候需要对目录进行赋权限chown

Mount nfs的时候需要注意配置：vi /etc/exports

/opt/data07192.168.1.1(rw,no_root_squash)/opt/data07192.168.1.2(rw,no_root_squash)

新集群中如果有索引和备份出来的索引有冲突（索引已存在），恢复不成功。

解决：可以将旧的索引重命名，然后导入新集群中。导入成功后，将两个索引建立一个别名。

恢复期间，整个集群会变成红色(集群不可用)，最好半夜的时候进行。

数据迁移 Elasticsearch 迁移

如何在照片上写字（苹果13如何在照片上写字）

1325 2022-05-28

Elastic 数据迁移 方法及注意事项

从身份证号码里提取生日和周岁的方法

如何改变背景（自拍如何改变背景）

如何在照片上写字（苹果13如何在照片上写字）

推荐文章

企业生产管理是什么，企业生产管理软件

进盘点进销存软件排行榜前十名

进销存系统哪个简单好用？进销存系统优点

工厂生产管理（工厂生产管理流程及制度）

生产管理软件，机械制造业生产管理，制造业生产过程管理软件

进销存软件和ERP有什么区别？进销存与erp软件理解

进销存如何进行库存管理

如何利用excel制作销售订单管理系统？

数据库订单管理系统有哪些功能？数据库订单管理系统怎么设计？

什么是数据库管理系统？

最近发表

热评文章

零代码开发是什么？2022低代码平台排行榜

智能进销存库存管理系统（智慧进销存）

在线文档哪家强？8款在线文档编辑软件推荐

WPS2016怎么绘制简单的价格表?

什么是在线文档？怎么发在线文档

家居定制平台是什么？

友情链接