<攻撃ツール>
1: ボトルネックになりえないこと
以下、負荷ツールを使って調査を行う。
①Jmeter
②locust
③Gremlin
<Podレベル>
2: 想定レイテンシでレスポンスを返せること
HPAを無効(Pod単体)にして、resourceのrequestとlimitの値を増やしてどこまで要求を満たすか確認
->アプリケーションに問題があってレイテンシが超過する場合はアプリケーションのチューニングが必要
3: 想定スループットを満たせること
HPAを無効にしてPodを手動でスケールアウトしていき、どこまでスループットを伸ばせるかを確認。
①各PodのCPU使用率
特定のPodだけCPU使用率が偏ってる場合はルーティングポリシーの再確認
②各Podのレイテンシ
一つ前の「想定レイテンシでレスポンスを返せること」に戻って確認
攻撃側のCPU使用率
攻撃ツールのスケールアップ、スケールアウト
4: 突然のスパイクに対応できること
5: ノードレベルの障害、ダウンを想定した設定になっていること
6: 配置が想定どおりに行われていること
7: 新バージョンリリースがダウンタイム無しで可能なこと
8: 長時間運転で問題が起こり得ないこと
<クラスタレベル>
9: Podの集約度が適切であること
10: 配置するPodの特性に合わせたノードになっていること
11: 突然のスパイクに対応できること
12: クラスタの自動アップグレードの設定が適切であること
13: Preemptibleノードの運用が可能であるか
0 件のコメント:
コメントを投稿