ES数据写入调优1-伙伴云

ES数据写入调优1

网友投稿 1162 2022-05-28

大多数操作系统都尽可能多地为文件系统缓存使用内存，并切换出未使用的应用程序内存。这可能导致部分JVM堆被交换到磁盘上。

对于性能和节点的稳定性来说，这种交换是非常糟糕的，应该不惜一切代价避免。它可能导致垃圾收集持续几分钟而不是几毫秒，这可能导致节点响应缓慢，甚至脱离集群。

Linux/Unix系统中使用mlockall在RAM中锁定进程的地址空间，阻止Elasticsearch内存被交换出去，从而实现禁用Swapping。

按以下步骤启用“bootstrap.memory_lock”参数。

1.以管理员帐号登录FusionInsight Manager界面，选择“集群 > 待操作集群的名称 > 服务 > Elasticsearch > 配置 > 全部配置 > 自定义”。

2.添加新的参数“bootstrap.memory_lock”，设置值为“true”，单击“保存”按钮，保存配置并重启Elasticsearch服务。

3.使用root用户登录任意Elasticsearch数据节点，执行如下命令验证是否修改成功。执行命令后结果显示包含“true”则表示修改成功。

curl -XGET "http://ip:httpport/_nodes?filter_path=**.mlockall"

针对于5个以上机器节点，为了让各个实例上的分片均匀分布，添加如下参数，设置每个索引在单个实例上的分片个数，如下所示为每个索引在每个实例上的分片为2个。

curl -XPUT "http://ip:httpport/myindex/_settings?pretty' -H 'Content-Type:application/json' -d ' { "index.routing.allocation.total_shards_per_node":"2" }'

默认“index.refresh_interval”为“1s”，即每秒都会强制生成1个新的segments文件，增大索引刷新时间，可以生成更大的segments文件，有效降低IO并减少segments merge的压力，该配置项可以建索引时指定（或者配置到template里去）。

如果只是单纯导入数据，不需要做实时查询，可以把refresh禁用（即设置index.refresh_interval为-1），并设置“index.number_of_replicas”为“0”，当然这样设置会有数据丢失风险。等到数据完成导入后，再把参数设置为合适的值。

命令为单索引下操作如下所示，同时也支持多索引（索引名按逗号分隔）和全索引（用*通配符）操作。

curl -XPUT "http://ip:httpport/myindex/_settings" -H 'Content-Type: application/json' -d' { "number_of_replicas": 0, "refresh_interval": "180s" }'

Elasticsearch写入数据时，refresh刷新会生成1个新的segment，segments会按照一定的策略进行索引段合并merge。merge的频率对写入和查询的速度都有一定的影响，如果merge频率比较快，会占用较多的IO，影响写入的速度，但同时segment个数也会比较少，可以提高查询速度。所以merge频率的设定需要根据具体业务去权衡，同时保证写入和查询都相对快速。Elasticsearch默认使用TieredMergePolicy，可以通过参数去控制索引段合并merge的频率：

1.参数“index.merge.policy.floor_segment”，Elasticsearch避免产生很小的segment，小于这个阈值的所有的非常小的segment都会merge直到达到这个floor的size，默认是2MB。

2.参数“index.merge.policy.max_merge_at_once”，一次最多只merge多少个segments，默认是10。

3.参数“index.merge.policy.max_merged_segment”，超过多大size的segment不会再做merge，默认是5GB。

4.参数“index.merge.policy.segment_per_tier”默认为10，表示每个tier允许的segment个数，注意这个值要大于等于“index.merge.policy.max_merge_at_once”值，否则这个值会先于最大可操作数到达，就会立刻做merge，这样会造成频繁merge。

5.参数“ index.merge.scheduler.max_thread_count ”，单个shard上可能同时合并的最大线程数。默认会启动Math.max(1, Math.min(4, Runtime.getRuntime().availableProcessors() / 2))个线程进行merge操作，适用于SSD固态硬盘。但是如果硬盘是机械硬盘，很容易出现IO阻塞，将线程数设置为1。

一般情况下，通过调节参数“index.merge.policy.max_merge_at_once”和“index.merge.policy.segment_per_tier”去控制merge的频率。

image.png

修改参数命令如下示例：

curl -XPUT "http://ip:httpport/myindex-001/_settings?pretty" -H 'Content-Type: application/json' -d' { "merge":{ "scheduler":{ "max_thread_count" : "1" }, "policy":{ "segments_per_tier" : "20", "max_merge_at_once": "20", "floor_segment" : "2m", "max_merged_segment" : "5g" } } }'

Elasticsearch 任务调度

江西科技学院附属中学（江科附中）2025年高三复读班招生信息全解析

1162 2022-05-28

ES数据 写入 调优1

江科附中2025高复招生：分层锻造，特级名师领航一本线突围

江西科技学院附属中学（江科附中）2025年高三复读班招生信息全解析

九江高三复读学校有哪些，九江地区2025年高三复读学校推荐及选择指南

推荐文章

企业生产管理是什么，企业生产管理软件

进盘点进销存软件排行榜前十名

进销存系统哪个简单好用？进销存系统优点

工厂生产管理（工厂生产管理流程及制度）

生产管理软件，机械制造业生产管理，制造业生产过程管理软件

进销存软件和ERP有什么区别？进销存与erp软件理解

进销存如何进行库存管理

如何利用excel制作销售订单管理系统？

数据库订单管理系统有哪些功能？数据库订单管理系统怎么设计？

什么是数据库管理系统？

最近发表

热评文章

零代码开发是什么？2022低代码平台排行榜">零代码开发是什么？2022低代码平台排行榜

进销存库存管理 系统（智慧进销存）">智能进销存库存管理系统（智慧进销存）

在线文档哪家强？8款在线文档编辑软件推荐">在线文档哪家强？8款在线文档编辑软件推荐

WPS2016怎么绘制简单的价格表?

什么是在线文档？怎么发在线文档

客户管理工具是什么？">客户管理工具是什么？

友情链接