インシデントマネジメント 事態収拾のための取り組みに迫る Lunch LT
セッション
LT①「BASEにおけるインシデント対応フローと工夫」
BASE株式会社 大津さん
- 障害検知したらインシデントチャンネル作成
- 自動で関係者をbotがインバイト
- プレモーテル
- 対応方針のすり合わせ
- インシデントコマンダー作成
- 復旧対応
- インシデントの重大度に対応したToDoリストに応じて対応
- 再発防止・クロージング
- ポストモーテムの内容が問題なければCTOがクローズ
- 参考ドキュメント
フロー整備をトップダウン・ボトムアップ両方で作ったと。現場の意見が入っているのは大事。
自動化多めなのはいいですね。インシデント対応時は余裕が無いし。
LT②「Luupの開発組織におけるインシデントマネジメントのこれから」
株式会社Luup Wataru Tsudaさん
- インシデントマネジメントツール
- Waroom を導入、60,000円/月
Waroomは決して安くは無いけど、ツール利用して進めると標準的なフローで動くことができるので、値段なりの価値はありそう。
LT③「インシデントマネジメントとエンジニアリングのかけ算」
GMOペパボ株式会社 伊藤 洋也さん
- 機密性・完全性・可用性
- 3つのうちどれかが発生するとインシデント
- 準備・対応・事後対応
インシデント事にSlackチャンネルセットアップするって結構一般的なのかな?PagerDuty 使うとそうなるらしいと。
RAG作って検索できるようにできるのイマドキだわ。
LT④「手を動かさないインシデント対応 - 自動化で迅速・正確な運用を目指す」
PagerDuty Kazuto Kusamaさん
- 「PagerDuty いいサービスですね!見たくないど」
- インシデント中は二次災害など失敗することも多い
- Runbook をまずは作る
- 自動化で作ってしまう
- CloudWatch などから自動で PagerDuty 経由で Rundeck に投げる
登壇に合わせて事前に仕込んだポストが投稿されていて、内容も素晴らしいけどプレゼンレベルがとても高い!だから進行時間を気にしたりしていたのか。