2021年8月17日火曜日

grafanaの通知テスト

課題:
grafanaを介して、CPUの閾値オーバーした場合、Lineに通知されることを検証してみる。


手順:

■アラートの通知を設定

1)ベルのマークを選択 > Nitification chasnnnelsタブからAdd channnelを選択する。








2)Name: line test(適当)

3)Type:   LINE

4)Token: 以下のサイトで発行した物を使用する

https://notify-bot.line.me/ja/


























5)Saveを行う。

以下のように作成できていることが把握できる。


















■ダッシュボードの作成

1)Dashboardを選択





































2)Add new pannelを選択















■ダッシュボードの作成

Metorics: 今回、対象のコンテナのCPU使用率(例:60%)をトリガーに

Lineに通知する実験を行いました。



コンテナのCPU使用率の閾値:

1)Metricsにクエリを挿入する。

1分平均のリクエスト数からどれくらい増えているかというクエリになる。

sum(rate(container_cpu_usage_seconds_total[1m])) by (pod) * 30


2)Applyを押す

->以下のグラフが表示されていることが把握できる。
















■アラートルールの作成


次に上記で作成した閾値に対してのアラート通知を行ってみる

1)Alertタブを選択 > Create Alertを押す。








メモ(アラート通知のフローについて):


アラートまでのフローとして以下になる

グリーン -> オレンジ(Pending) ->レッド(通知を行う)


以下、赤枠の色が変化していくことになる。









2)Evaluate every:1m

->状態変化の判定(間隔)を決める箇所


3)For:2m

->pending判定から2分以上を継続して閾値オーバーになった場合、通知を行う。


4)IS ABOVE: 60

->上記の値を超えると閾値オーバーになる。


5)Send to: line test

->上記で作成したLine通知を指定する


6)Message: お試しに作成してみる。



■実験開始

障害ツール(Gremlin)を使ってCPU使用率を上げてみる


対象:

wordpressのコンテナをターゲットにしている。




以下、Lensというk8sのモニタリングツールを使って

wordpressコンテナのプロセスをみると、gremlinが実行されているのが把握できる。

(CPU使用率も設定した60%になっている)


テスト実施後、pending判定(オレンジ色)になってから赤色のステータス(約2分後)になり

アラートの通知を送信される。



以下、LineCPU閾値オーバーの通知を受信したのを確認できる。



0 件のコメント:

コメントを投稿

helm( kube-prometheus-stack)とlokiの連携

helm経由で、 kube-prometheus-stackとloki stackを入れるだけだと連携ができないので 追加で以下の手順を進める必要がある。 1)Loki stackの導入を実施 helm install loki grafana/loki-stack --name...