Zabbix對(duì)Kafka?topic積壓數(shù)據(jù)監(jiān)控的解決方案
Kafka
Apache Kafka是一個(gè)分布式發(fā)布-訂閱消息系統(tǒng)和一個(gè)強(qiáng)大的隊(duì)列,可以處理大量的數(shù)據(jù),并使您能夠?qū)⑾囊粋€(gè)端點(diǎn)傳遞到另一個(gè)端點(diǎn)。
Kafka適合離線和在線消息消費(fèi)。
Kafka消息保留在磁盤上,并在群集內(nèi)復(fù)制以防止數(shù)據(jù)丟失。Kafka構(gòu)建在ZooKeeper同步服務(wù)之上。它與Apache Storm和Spark非常好地集成,用于實(shí)時(shí)流式數(shù)據(jù)分析。
需求
雖然我們?cè)谏a(chǎn)環(huán)境中可以使用Kafka對(duì)業(yè)務(wù)進(jìn)行解耦,但這并不意味著業(yè)務(wù)系統(tǒng)就高枕無(wú)憂了。消費(fèi)者的消費(fèi)速度是否能夠匹配生產(chǎn)速度、過(guò)多的消息積壓這些都可能影響業(yè)務(wù)系統(tǒng)的正常運(yùn)行。
關(guān)于業(yè)務(wù)系統(tǒng)運(yùn)行狀態(tài),雖然我們可以通過(guò)業(yè)務(wù)監(jiān)控來(lái)確定,但是業(yè)務(wù)監(jiān)控一般是要對(duì)數(shù)據(jù)進(jìn)行聚合分析并達(dá)到一定的閾值才能觸發(fā)告警。因此業(yè)務(wù)監(jiān)控告警通知時(shí),業(yè)務(wù)實(shí)際已經(jīng)有問(wèn)題一段時(shí)間了。為應(yīng)對(duì)這種情況,我們一般需要和系統(tǒng)監(jiān)控進(jìn)行互補(bǔ)。系統(tǒng)監(jiān)控會(huì)周期性的對(duì)硬件、網(wǎng)絡(luò)、服務(wù)器、應(yīng)用等不同維度進(jìn)行監(jiān)控告警,一旦某個(gè)組件的狀態(tài)有問(wèn)題,那么系統(tǒng)監(jiān)控會(huì)先預(yù)警,然后業(yè)務(wù)系統(tǒng)才可能進(jìn)一步預(yù)警。經(jīng)過(guò)不同監(jiān)控系統(tǒng)的告警升級(jí),才更能準(zhǔn)確的反映業(yè)務(wù)系統(tǒng)的運(yùn)行狀態(tài)。
話說(shuō)回來(lái),對(duì)于上線后的Kafka集群,我們除了要對(duì)服務(wù)的可用性進(jìn)行監(jiān)控外,還要對(duì)Topic的消費(fèi)情況進(jìn)一步監(jiān)控。
解決方案
1.監(jiān)控分析
Lag作為監(jiān)控指標(biāo),它直接反映了一個(gè)消費(fèi)者的運(yùn)行情況。一個(gè)正常工作的消費(fèi)者,它的Lag值應(yīng)該很小,甚至是接近于0的,這表示該消費(fèi)者能夠及時(shí)地消費(fèi)生產(chǎn)者生產(chǎn)出來(lái)的消息,滯后程度很小。
因此我們將Topic作為我們的監(jiān)控項(xiàng),當(dāng)相關(guān)的Topic Lag達(dá)到某一閾值時(shí)進(jìn)行多渠道告警。
另經(jīng)過(guò)Kafka運(yùn)行機(jī)制的我們知道:
- 每個(gè)Topic內(nèi)部需要按照Partition進(jìn)行再次分區(qū)
- 同一個(gè)topic的partition只能由同一個(gè)消費(fèi)者組(group)內(nèi)的一個(gè)consumer來(lái)消費(fèi),分區(qū)數(shù)決定了同組消費(fèi)者個(gè)數(shù)的上限
通過(guò)以上“Topic-Partition-消費(fèi)者組(group)”之間的關(guān)系,為了便于我們通過(guò)告警信息更快的定位故障點(diǎn):
- 監(jiān)控項(xiàng)命名規(guī)則:消費(fèi)者組(Group)/Topic/Partition,三者組成唯一的監(jiān)控項(xiàng);
- 監(jiān)控項(xiàng)Lag值:獲取業(yè)務(wù)系統(tǒng)中某個(gè)消費(fèi)者組的特定Topic所有分區(qū)的Lag值進(jìn)行告警;
2.監(jiān)控思路
(1) 消費(fèi)者組管理
通過(guò)Kafka自帶的kafka-consumer-groups.sh腳本,我們可以輕松獲取查看指定消費(fèi)組 消費(fèi)的所有Topic、及所在分區(qū)、最新消費(fèi)offset、Log最新數(shù)據(jù)offset、Lag還未消費(fèi)數(shù)量、消費(fèi)者ID等等信息
# 查看消費(fèi)者組的topic 消費(fèi)狀態(tài) bash kafka-consumer-groups.sh --bootstrap-server 192.168.3.55:9090 --describe --group test2_consumer_group TOPIC PARTITION CURRENT-OFFSET LOG-END-OFFSET LAG CONSUMER-ID HOST CLIENT-ID test 0 1000000 1000000 0 consumer-1-8688633a-2f88-4c41-89ca-fd0cd6d19ec7 /127.0.0.1 consumer-1 test 1 1000000 1000000 0 consumer-1-8688633a-2f88-4c41-89ca-fd0cd6d19ec7 /127.0.0.1 consumer-1 test 2 1000000 1000000 0 consumer-1-8688633a-2f88-4c41-89ca-fd0cd6d19ec7 /127.0.0.1 consumer-1 test 3 1000000 1000000 0 consumer-1-8688633a-2f88-4c41-89ca-fd0cd6d19ec7 /127.0.0.1 consumer-1
(2)分區(qū)自動(dòng)發(fā)現(xiàn)
對(duì)于Kafka topic的監(jiān)控我們使用Zabbix監(jiān)控平臺(tái),考慮到后續(xù)業(yè)務(wù)系統(tǒng)的持續(xù)性接入,我們通過(guò)Zabbix自動(dòng)發(fā)現(xiàn)實(shí)現(xiàn)對(duì)特定消費(fèi)者組(Group)和Topic下所有分區(qū)自動(dòng)發(fā)現(xiàn):
# 自動(dòng)發(fā)現(xiàn) vim consumer-groups.conf #按消費(fèi)者組(Group)|Topic格式,寫入自動(dòng)發(fā)現(xiàn)配置文件 test-group|test # 執(zhí)行腳本自動(dòng)發(fā)現(xiàn)指定消費(fèi)者和topic的分區(qū) bash consumer-groups.sh discovery { "data": [ { "{#GROUP}":"test-group", "{#TOPICP}":"test", "{#PARTITION}":"0" }, { "{#GROUP}":"test-group", "{#TOPICP}":"test", "{#PARTITION}":"1" }, { "{#GROUP}":"test-group", "{#TOPICP}":"test", "{#PARTITION}":"3" }, { "{#GROUP}":"test-group", "{#TOPICP}":"test", "{#PARTITION}":"2" } ] }
自動(dòng)發(fā)現(xiàn)中的GROUP、TOPIC、PARTITION 這三個(gè)信息可以用于進(jìn)一步過(guò)濾不同的分區(qū)的Lag值和監(jiān)控系統(tǒng)中的監(jiān)控項(xiàng)名稱:
- test-group/test/分區(qū)0
- test-group/test/分區(qū)1
- test-group/test/分區(qū)2
- test-group/test/分區(qū)3
- 等其他 test-group/test相關(guān)的所有分區(qū)
(3)獲取監(jiān)控項(xiàng)“test-group/test/分區(qū)X”的Lag
# 獲取分區(qū)0 lag bash consumer-groups.sh lag 0 # 獲取分區(qū)1 lag bash consumer-groups.sh lag 1 # 獲取分區(qū)2 lag bash consumer-groups.sh lag 2 # 獲取分區(qū)3 lag bash consumer-groups.sh lag 3
(4)最終腳本
vim consumer-groups.sh #!/bin/bash #comment: 根據(jù)消費(fèi)者組監(jiān)控topic lag,進(jìn)行監(jiān)控告警 #配置文件說(shuō)明 #消費(fèi)者組|Topic #test-group|test #獲取topic 信息 cal_topic() { if [ $# -ne 2 ]; then echo "parameter num error, 讀取topic信息失敗" exit 1 else /usr/local/kafka/bin/kafka-consumer-groups.sh --bootstrap-server 192.168.3.55:9092 --describe --group $1 |grep -w $2 fi } #topic+分區(qū)自動(dòng)發(fā)現(xiàn) topic_discovery() { printf "{\n" printf "\t\"data\": [\n" for line in `cat /data/scripts/consumer-groups.conf` do group=`echo ${line} | awk -F'|' '{print $1}'` topic=`echo ${line} | awk -F'|' '{print $2}'` cal_topic $group $topic > /tmp/consumer-group-tmp count=`cat /tmp/consumer-group-tmp|wc -l` n=0 while read line do n=`expr $n + 1` #判斷最后一行 if [ $n -eq $count ]; then topicp=`echo $line | awk '{print $1}'` partition=`echo $line | awk '{print $2}'` printf "\t\t{ \"{#GROUP}\":\"${group}\", \"{#TOPICP}\":\"${topicp}\", \"{#PARTITION}\":\"${partition}\" }\n" else topicp=`echo $line | awk '{print $1}'` partition=`echo $line | awk '{print $2}'` printf "\t\t{ \"{#GROUP}\":\"${group}\", \"{#TOPICP}\":\"${topicp}\", \"{#PARTITION}\":\"${partition}\" },\n" fi done < /tmp/consumer-group-tmp done printf "\t]\n" printf "}\n" } if [ $1 == "discovery" ]; then topic_discovery elif [ $1 == "lag" ];then cat /tmp/consumer-group-tmp |awk -v p=$2 '{if($2==p){print $5}}' else echo "Usage: /data/scripts/consumer-group.sh discovery | lag" fi
3.Zabbix 自動(dòng)發(fā)現(xiàn)配置
1.自動(dòng)發(fā)現(xiàn)配置
2.監(jiān)控項(xiàng)原型 通過(guò)消費(fèi)者組、Topic、Partition 組成監(jiān)控項(xiàng)名稱,告警信息中的名稱能夠幫助我們快定位故障點(diǎn)。
3.觸發(fā)器 我們lag的初始閾值設(shè)置為50,可根據(jù)時(shí)間情況進(jìn)行調(diào)整。
4.告警信息
告警主機(jī):Kafka_192.168.3.55 主機(jī)IP:192.168.3.55 主機(jī)組:Kafka 告警時(shí)間:2022.03.21 00:23:10 告警等級(jí):Average 告警信息:test-group/test/分區(qū)1:數(shù)據(jù)積壓62 告警項(xiàng)目:topic_lag[test,1] 問(wèn)題詳情: test-group/test/1: 62
到此這篇關(guān)于Zabbix對(duì)Kafkatopic積壓數(shù)據(jù)監(jiān)控的文章就介紹到這了,更多相關(guān)ZabbixKafka監(jiān)控內(nèi)容請(qǐng)搜索本站以前的文章或繼續(xù)瀏覽下面的相關(guān)文章希望大家以后多多支持本站!
版權(quán)聲明:本站文章來(lái)源標(biāo)注為YINGSOO的內(nèi)容版權(quán)均為本站所有,歡迎引用、轉(zhuǎn)載,請(qǐng)保持原文完整并注明來(lái)源及原文鏈接。禁止復(fù)制或仿造本網(wǎng)站,禁止在非www.sddonglingsh.com所屬的服務(wù)器上建立鏡像,否則將依法追究法律責(zé)任。本站部分內(nèi)容來(lái)源于網(wǎng)友推薦、互聯(lián)網(wǎng)收集整理而來(lái),僅供學(xué)習(xí)參考,不代表本站立場(chǎng),如有內(nèi)容涉嫌侵權(quán),請(qǐng)聯(lián)系alex-e#qq.com處理。