2020年5月21日木曜日

障害対応について考える

障害発生 EC2:
1)障害発生する
2)電話で通知をいただく。
3)AWSにログインして、管理コンソールにて状況を判断する。
4)CPU使用率の状況を確認する。
5)Cluodwatchで発生時刻を確認する。
6)各インスタンスにログインして、発生時刻をポイントにログの調査を行う。
①/var/log/httpd
②/var/php

7)ログで、原因が特定できない場合は、topコマンドで原因を特定する。
8)以下のプロセスについてはkillを実施する。

[消して良いもの]
①vi
②httpd
③top
④watchdog/0
⑤khubd
(USB機器の抜き差しを監視するデーモン)

[消さないもの]
sh
init
migration/0
(cpuのプロセッサ間のワークロード(仕事量)を分散するカーネルプロセス)
stopper/0
events/0
events_long/0
events_power_ef
cgroup
(プロセスをグループ化して,そのグループ内に存在するプロセスに対して共通の管理)
ksoftirqd/0
(負荷が重いときに実行されるCPUごとのカーネルスレッド)
kthreadd
(カーネルスレッド処理を行なうためのカーネルスレッド)
khelper
(カーネル関連)
ksuspend_usbd
kseriod
kintegrityd/0
kblockd/0
khungtaskd
(ロックされハングアップしたプロセスを定期巡回から発見し、プロセスのスタックダンプを取る機能)
kswapd0
(空きメモリが少くなった時にpageoutを行なうカーネルスレッド。)
netns
async/mgr
pm
xenwatch
xenbus
sync_supers
bdi-default
ata_aux
ata_sff/0
md/0
md_misc/0
linkwatch

9)プロセスkillでもCPU使用率が100%を維持するようであればrebootを実施する。


RDS:
1)障害発生する
2)電話で通知をいただく。
3)AWSにログインして、管理コンソールにて状況を判断する。
4)CPU使用率の状況を確認する。
5)対象のDBにログインを行う
6)現在のプロセスの状態を確認する。
SHOW PROCESSLIST;
7)処理に60秒以上かかっているプロセスを確認する(rdsadminは除外で確認する。)
SELECT * FROM information_schema.PROCESSLIST WHERE time >= 60 and user != 'ユーザ名';
8)以下のコマンドで、削除対象のプロセスを指定する。
KILL [Id];
9)再度のプロセスの状態を確認して、対処のプロセスが削除されていること。
SHOW PROCESSLIST;


0 件のコメント:

コメントを投稿

helm( kube-prometheus-stack)とlokiの連携

helm経由で、 kube-prometheus-stackとloki stackを入れるだけだと連携ができないので 追加で以下の手順を進める必要がある。 1)Loki stackの導入を実施 helm install loki grafana/loki-stack --name...