1. 利用ansible、stress-ng进行压力测试
1.1. 压测利器-stress-ng
stress-ng --cpu 6 --timeout 300
stress-ng -i 6 --hdd 1 --timeout 300
(( proc_cnt = `nproc`*10 )); stress-ng --cpu $proc_cnt --pthread 1 timeout 300
stress-ng --cpu `nproc` --pthread 1024 timeout 300
stress-ng --vm 8 --vm-bytes 80% -t 1h run 8 virtual memory stressors that combined use 80% of the available memory for 1 hour. Thus each stressor uses 10% of the available memory.
stress-ng --cpu 4 --io 2 --vm 1 --vm-bytes 1G --timeout 60s runs for 60 seconds with 4 cpu stressors, 2 io stressors and 1 vm stressor using 1GB of virtual memory.
stress-ng --iomix 2 --iomix-bytes 10% -t 10m runs 2 instances of the mixed I/O stressors using a total of 10% of the available file system space for 10 minutes. Each stressor will use 5% of the available file system space.
1.2. 最简单的运维工具-ansible
在小规模的机器上执行命令,最简单非ansible莫属,因为ansible默认是不需要在待运维的机器上安装额外的服务, 只要开启了ssh服务就可以了。
1.3. 如何管理压测进程-给压测进程找个爹
使用ansible进行加压时,如果执行stress-ng命令,然后马上退出,压测工具进程也就被杀死了,这是因为压测工具默认的父进程是ansible的ssh会话 这时候可以使用nohup、setsid命令让stress-ng命令后台执行。 在稍微复杂的场景模拟时,stress-ng可能会启动很多的进程,并且有些时候不仅有stress-ng,而且可能还需要sys-bench等工具, 当需要调整压力时,可能需要杀掉之前的压测进程,再启动新的压测,如果一个一个的找出来并杀掉进程,不仅操作复杂而且经常 会产生僵尸进程。
这时候就需要screen、tmux这样的会话管理工具了,通过screen来统一管理会话,所有的压测进程都被托管在screen里,这样如果需要 关掉所有的压力时,只需要杀掉screen进程就可以了。
screen -S stress -d -m stress-ng -c 1 --timeout 300
1.4. 负载场景剧本设计-playbook
在云计算场景下,经常会需要用压测工具来模拟一些业务场景,stress-ng是最常用到的工具之一,通常ansible+stress-ng就能应付绝大多数的压测场景。 如果需要模拟的CPU、MEM、磁盘IO模型比较多,用命令行就显得不是那么方便了,这时候就可以用playbook。
项目已经在CenstOS 7上测试过了,在Ubuntu上应该也是可以正常工作的。
test_duration: stress-ng 超时时间
1.5. 自动重试-ansile经常不靠谱
ansible-playbook -i host stress.yml --extra-vars "host=all" --limit @$playbook_retry
其中playbook_retry文件里保存的是需要重试的IP列表,可以从执行回显中分析执行结果,通过awk找出执行失败 的IP列表,通过ansible-playbook进行重试。
#!/bin/sh hosts=( "host1" "host2" "host3" ) cpu_load=(15 15 15 15 15 15) mem_load=(5 5 5 5 5 5) mkdir -p tmp host_file="./hosts" total_result="./tmp/total_result.log" playbook_result="./tmp/playbook_result.log" playbook_retry="./tmp/playbook_retry.txt" echo "" > $total_result parse_playbook_result() { sed '1,/PLAY RECAP/d' $playbook_result | awk -F" *|=|\t" ' /unreachable/{ ip=$1 ok_cnt=$4 changed_cnt=$6 unreachable_cnt=$8 failed_cnt=$10 if(unreachable_cnt!=0 || failed_cnt!=0 || rescued_cnt!=0){ print ip } }' > $playbook_retry } ansible_playbook() { echo "playbook Vars: $2" ansible-playbook -i $host_file $1 --extra-vars "$2" >$playbook_result 2>&1 cat $playbook_result > $total_result while true do parse_playbook_result RETRY_CNT=$(wc -l $playbook_retry | awk '{print $1}') if [[ $RETRY_CNT != 0 ]]; then echo "Some host will retry:" cat $playbook_retry ansible-playbook -i $host_file stress_stop.yml --extra-vars "$2" --limit @$playbook_retry >/dev/null 2>&1 ansible-playbook -i $host_file $1 --extra-vars "$2" --limit @$playbook_retry >$playbook_result 2>&1 cat $playbook_result > $total_result else return fi done } for(( i=0; i<${#hosts[@]}; i++ )) do echo "Stress" ${hosts[i]} ansible_playbook "stress_start.yml" "host=${hosts[i]} cpu_load=${cpu_load[i]} mem_load=${mem_load[i]}" done echo "Over zzz"
