Elastic数据迁移方法注意事项

网友投稿 1190 2022-05-28

需求

ES集群Cluster_A里的数据(某个索引或某几个索引),需要迁移到另外一个ES集群Cluster_B中。

环境

Linux:Centos7 / Centos6.5/ Centos6.4

Elastic:5.2.0

总结的方法

查询并导出数据

拷贝ES物理目录/文件

ES快照数据备份和恢复

迁移方法

分别进行以上方法的详细介绍:

查询并导出数据

通过ES提供的查询API,写各种程序,把数据导出csv,或者把数据查询出来,直接入库到新的ES集群中。

#coding=utf-8  import osimport sysimport pyes     index_list = [     ["index_A", "type_A"],     ["index_B", "type_B"],     ["index_C", "type_C"], ]     ES_URL = "http://192.168.1.1:9200/"NEW_ES_URL = "http://192.168.2.1:8200/"  def main():     for _index, _type in index_list:         conn = pyes.es.ES(ES_URL)         search = pyes.query.MatchAllQuery().search(bulk_read=10000)         hits = conn.search(search, _index, _type, scan=True, scroll="30m", model=lambda _,hit: hit)                   conn2 = pyes.es.ES(NEW_ES_URL)         count = 0          for hit in hits:             conn2.index(hit['_source'], _index, _type, hit['_id'], bulk=True)             count += 1             if count % 10000 == 0:                print count                 conn2.flush()         conn2.flush()         conn2 = None           conn = None    if __name__ == '__main__':     main()

需要安装python的pyes模块,注意pyes的版本,此处的版本为:pyes.0.20.1

Elastic数据迁移方法及注意事项

用了查询ES的scroll方式,也有一种直接通过ES的DSL查询语句用分页from和size查询,但是ES的分页查询到了千万级别之后,from就会慢的出奇,甚至报错,不信的同学去尝试吧,等着功亏一篑….

客户现场的数据级别是物理存储大概在5T(一个副本),条数大概1百亿。现场使用该方法亲测之后,未解决ES迁移的问题。pyes在约到后面查询越慢,最后ES报错…..

百万、千万级别条数的数据,可以尝试该方法。

拷贝ES物理目录/文件

ES的文件存在磁盘中,把物理文件一模一样拷贝一份到新的集群环境中,达到数据迁移的效果。

1. 找到ES的存储目录,一般可以到elasticsearch.yml中找到path.data的配置  2. 集群下一般会有多个节点,所以ES的存储目录也就有多个    3. 一般ES的存储目录下,会存储一个集群名字一样的文件夹,需要拷贝的就是这个文件夹.    4. 环境如下: 旧集群: 集群名字:Cluster_A 分片数:6机器A:一个节点 192.168.1.1node0  数据存储目录:/opt/data1,/opt/data2 机器B:三个节点 192.168.1.2node1  数据存储目录:/opt/data1,/opt/data2 node2  数据存储目录:/opt/data3,/opt/data4 node3  数据存储目录:/opt/data5,/opt/data6   新的集群: 集群名字:Cluster_A 分片数:6机器A:一个节点 192.168.2.1node0  数据存储目录:/opt/data1,/opt/data2 机器B:三个节点 192.168.2.2node1  数据存储目录:/opt/data1,/opt/data2 node2  数据存储目录:/opt/data3,/opt/data4 node3  数据存储目录:/opt/data5,/opt/data6    5. 迁移代码如下: 新集群机器A:192.168.2.1如下操作 scp –r root@192.168.1.1:/opt/data1/Cluster_A /opt/data1/ scp –r root@192.168.1.1:/opt/data2/Cluster_A /opt/data2/   新集群机器B:192.168.2.2如下操作 scp –r root@192.168.1.2:/opt/data1/Cluster_A /opt/data1/ scp –r root@192.168.1.2:/opt/data2/Cluster_A /opt/data2/ scp –r root@192.168.1.2:/opt/data3/Cluster_A /opt/data3/ scp –r root@192.168.1.2:/opt/data4/Cluster_A /opt/data4/ scp –r root@192.168.1.2:/opt/data5/Cluster_A /opt/data5/ scp –r root@192.168.1.2:/opt/data6/Cluster_A /opt/data6/

ES快照数据备份和恢复

使用ES官网提供的快照备份方法,将旧集群ES的索引进行备份,拷贝备份出来的所有文件,在新的集群中进行恢复。

官网写的非常简单:先创建仓库(repository),再往仓库里添加一个快照(snapshot),查看备份状态,That’s all。但是实践需要麻烦很多了。

索引很大,需要有足够的空间存储备份出来的数据,挂载磁盘和设置path.repo来解决该问题。

在简历仓库的时候,会报错,找不到快照目录/opt/backup_es

需要在elasticsearch.yml中设置path.repo: /opt/backup_es

挂载的磁盘需要赋权限,让ES的用户能读写。Sshfs的时候加上 -oallow_other;Mount的时候需要对目录进行赋权限chown

Mount nfs的时候需要注意配置:vi /etc/exports

/opt/data07192.168.1.1(rw,no_root_squash)/opt/data07192.168.1.2(rw,no_root_squash)

新集群中如果有索引和备份出来的索引有冲突(索引已存在),恢复不成功。

解决:可以将旧的索引重命名,然后导入新集群中。导入成功后,将两个索引建立一个别名。

恢复期间,整个集群会变成红色(集群不可用),最好半夜的时候进行。

数据迁移 Elasticsearch 迁移

版权声明:本文内容由网络用户投稿,版权归原作者所有,本站不拥有其著作权,亦不承担相应法律责任。如果您发现本站中有涉嫌抄袭或描述失实的内容,请联系我们jiasou666@gmail.com 处理,核实后本网站将在24小时内删除侵权内容。

上一篇:Orace SQL调优系列之执行计划学习笔记
下一篇:五款企业运维监控工具简单介绍-行云管家
相关文章