excel表格基于某条件进行求和的教程
1200
2022-05-28
基于BoostKit的大数据性能调优实践
1. 大数据特点及调优原因
1.1 大数据介绍及组件关系分布
大数据是集收集,处理,存储为一体的技术总称。在海量数据处理的场景,大数据对计算及存储的要求较高,普遍以集群形式存在。不同的组件有不同的功能体现
1.2 大数据并行计算特点天然匹配鲲鹏多核架构
海量数据需要更高的并发度来加速数据处理,鲲鹏多核计算的特点能够提升大数据任务的并发度,加速大数据的计算性能。此处以Mapreduce模型为例
但是,为了获得更好的性能,仍需根据硬件配置和应用程序特点,对软硬件系统做进一步的优化
1.3 调优原因
2. 大数据性能调优思路
2.1 常用调优思路
2.2 常见调优问题介绍
2.3 大数据组件:Hadoop-HDFS模块
Hadoop由HDFS、Yarn、Mapreduce三个核心模块组成,分别负责分布式存储、资源分配和管理、分布式计算
调优建议:尽可能保证DataNode节点间的磁盘性能统一,并从磁盘IO和网络IO两方面进行优化
2.4 大数据组件:Hadoop-Yarn模块
调优建议:尽可能将Slaves的CPU和内存资源提供给Yarn管理和使用,并根据应用程序的数据量,适当调整Container内存大小,将所有CPU核都利用起来,发挥鲲鹏多核的优势
2.5 大数据组件:Hadoop-Mapreduce模块
调优建议:适当调整Map核Reduce任务的数量与Reduce任务启动的时间,保证总任务数能覆盖到所有CPU核,避免资源浪费
2.6 大数据组件:Hadoop 常用调优参数
2.7 大数据组件:HBase框架
调优建议:适当增加MemStore核BlockCache容量来提升读写性能,同时优化磁盘IO和网络IO
2.8 大数据组件:HBase读写流程
写入流程:优先写入Memstore内存区域,加速写入速度,HLog保障数据可靠
读取流程:依次从Memstore和BlockCache查找数据,若未命中,再从磁盘查找
2.9 大数据组件:HBase常用调优参数
2.10 性能定位:问题定位流程
2.11 性能定位:资源监控工具
nmon:支持收集一段时间内,整机的CPU、磁盘、网络、内存等各项资源的使用情况
perf:获取指定进程内的调用情况、各线程调用的CPU资源消耗情况,并支持生成火焰圈
dstat:监控系统整体的性能信息,包括CPU、磁盘、网络、分页等
top:监控进程和整机的CPU、内存资源消耗情况,并支持查看每个CPU核的使用情况
iostat:监控每块磁盘的读写次数、数据量大小、使用率
sar:监控每张网卡的网络IO读写次数和数据量大小
jstat:JVM统计监控工具
java VisualVM:图形化的Java程序性能分析工具,能监控应用程序性能消耗、GC状况、线程堆信息等
2.12 性能定位:Web监控界面,显示基本配置和运行状态
3. 性能调优案例分享
3.1 案例1:HBase Bulkload性能优化
背景:以HBase bulkload 性能优化为切入点,阐述调优过程中可能遇到的问题和解决思路
环境配置:采用1+3集群规模,由Ambari统一管理,每个节点拥有64 cores、384G内存、10GE网络带宽和6 * 4T的机械硬盘,将NameNode、ResourceManager、HMaster等进程部署在server节点,并在3个agent节点部署DataNode、NodeManager和RegionServer进程
应用程序:使用HBase组件自带的bulkload程序进行测试
3.2 案例2:HBase 1.X版本执行读测试时,资源利用率低
大数据 应用性能调优
版权声明:本文内容由网络用户投稿,版权归原作者所有,本站不拥有其著作权,亦不承担相应法律责任。如果您发现本站中有涉嫌抄袭或描述失实的内容,请联系我们jiasou666@gmail.com 处理,核实后本网站将在24小时内删除侵权内容。