<a target="_blank" href="https://www.huoban.com/news/tags-1774.html"style="font-weight:bold;">ClickHouse</a> kafka表引擎使用故障问题 (一)-伙伴云

ClickHouse kafka表引擎使用故障问题 (一)

网友投稿 2323 2025-03-31

场景与问题：MRS ClickHouse客户，在执行滚动重启操作后，发现manager界面“集群队列大小”有大量业务拥塞，检查后台信息“Too many parts (303). Parts cleaning are processing significantly slower than inserts…”

客户数据表情况：

（1）客户报错信息设计数据表test.dwd_c_vehicle_upload_real_detail采用vin String 设置分区键，“PARTITION BY xxHash32(vin) % 100”

ClickHouse kafka表引擎使用故障问题 (一)

（2）kafka引擎数据表，参数仅配置了必须配置的参数

SETTINGS kafka_broker_list = ‘xx.xx.xx.xx:9092,xx.xx.xx.xx:9092,xx.xx.xx.xx:9092’,

kafka_topic_list = ‘pro_dwd_c_vehicle_upload_real_detail’,

kafka_group_name = ‘clickhouse_pro_new’,

kafka_format = ‘JSONEachRow’,

kafka_num_consumers = 1

（3）客户数据插入的频次不详，每次插入数据大致在几百条。

根据报错信息定位源码信息与相关参数信息：

（1）\ClickHouse_Kernel-master\src\Storages\MergeTree\MergeTreeData.cpp

size_t parts_count_in_partition = getMaxPartsCountForPartition(); ……. if (parts_count_in_partition >= settings->parts_to_throw_insert) { ProfileEvents::increment(ProfileEvents::RejectedInserts); throw Exception( ErrorCodes::TOO_MANY_PARTS, "Too many parts ({}). Parts cleaning are processing significantly slower than inserts", parts_count_in_partition); }

查阅官方文档parts_to_throw_insert默认值为300；

（2）根据kafka表引擎，其他参数分析，影响kafka数据表性能的重要参数：'kafka_max_block_size’默认值为65536即64K。

结合以上信息得出结论：由于客户数据表采用hash值作为分区键，数据表分区相对较多，再由于客户kafka表引擎参数“kafka_max_block_size”采用默认值65536，导致数据块较小，进而也就导致了数据插入时数据块较多，相应的分区part数量很容易超过“parts_to_throw_insert”默认值300，进而触发异常报错。

给客户建议：建议客户根据数据表情况、数据插入频次和每次插入数据的条数，对kafka表引擎数据表进行合理化配置，也可对clickhouse相应配置进行更改。例如：可以修改parts_to_throw_insert的默认值，可以增加“kafka_max_block_size”默认值，社区建议将“kafka_max_block_size”设置应增加为521K-1M，实现单表的最佳性能。

参考链接：

https://github.com/ClickHouse/ClickHouse/issues/3174

https://github.com/ClickHouse/ClickHouse/issues/9053

https://altinity.com/blog/clickhouse-kafka-engine-faq

ClickHouse Kafka

Clickhouse如何实现数据更新

2323 2025-03-31

Oracle SQL调优系列之表设计与性能

2323 2025-03-31

表分区？涨知识了">MySQL 表分区？涨知识了

2323 2025-03-31

ClickHouse kafka表引擎使用故障问题 (一)

Clickhouse如何实现数据更新

Oracle SQL调优系列之表设计与性能

表分区？涨知识了">MySQL 表分区？涨知识了

推荐文章

企业生产管理是什么，企业生产管理软件

进盘点进销存软件排行榜前十名

进销存系统哪个简单好用？进销存系统优点

工厂生产管理（工厂生产管理流程及制度）

生产管理软件，机械制造业生产管理，制造业生产过程管理软件

进销存软件和ERP有什么区别？进销存与erp软件理解

进销存如何进行库存管理

如何利用excel制作销售订单管理系统？

数据库订单管理系统有哪些功能？数据库订单管理系统怎么设计？

什么是数据库管理系统？

最近发表

热评文章

零代码开发是什么？2022低代码平台排行榜">零代码开发是什么？2022低代码平台排行榜

进销存库存管理 系统（智慧进销存）">智能进销存库存管理系统（智慧进销存）

在线文档哪家强？8款在线文档编辑软件推荐">在线文档哪家强？8款在线文档编辑软件推荐

WPS2016怎么绘制简单的价格表?

进销存库存管理盘点">简单进销存库存管理盘点

Excel项目进度表模板，简化您的项目进度管理">Excel项目进度表模板，简化您的项目进度管理

友情链接

ClickHouse kafka表引擎使用故障问题 (一)

微信扫一扫：分享

表分区？涨知识了">MySQL 表分区？涨知识了

推荐文章

最近发表

热评文章

零代码开发是什么？2022低代码平台排行榜">零代码开发是什么？2022低代码平台排行榜

进销存库存管理系统（智慧进销存）">智能进销存库存管理系统（智慧进销存）

在线文档哪家强？8款在线文档编辑软件推荐">在线文档哪家强？8款在线文档编辑软件推荐

进销存库存管理盘点">简单进销存库存管理盘点

Excel项目进度表模板，简化您的项目进度管理">Excel项目进度表模板，简化您的项目进度管理

友情链接