omuronの備忘録

個人的な備忘録

「インシデントマネジメント 事態収拾のための取り組みに迫る Lunch LT」#インシデントマネジメント_findy 受講メモ

インシデントマネジメント 事態収拾のための取り組みに迫る Lunch LT

findy.connpass.com

セッション

LT①「BASEにおけるインシデント対応フローと工夫」

BASE株式会社 大津さん

  • 障害検知したらインシデントチャンネル作成
    • 自動で関係者をbotがインバイト
  • プレモーテル
  • 復旧対応
    • インシデントの重大度に対応したToDoリストに応じて対応
  • 再発防止・クロージング
    • ポストモーテムの内容が問題なければCTOがクローズ
  • 参考ドキュメント

フロー整備をトップダウンボトムアップ両方で作ったと。現場の意見が入っているのは大事。
自動化多めなのはいいですね。インシデント対応時は余裕が無いし。

LT②「Luupの開発組織におけるインシデントマネジメントのこれから」

株式会社Luup Wataru Tsudaさん

speakerdeck.com

  • インシデントマネジメントツール
    • Waroom を導入、60,000円/月

Waroomは決して安くは無いけど、ツール利用して進めると標準的なフローで動くことができるので、値段なりの価値はありそう。

LT③「インシデントマネジメントとエンジニアリングのかけ算」

GMOペパボ株式会社 伊藤 洋也さん

speakerdeck.com

  • 機密性・完全性・可用性
    • 3つのうちどれかが発生するとインシデント
  • 準備・対応・事後対応
    • 準備:インシデント対応マニュアル
    • 対応:エンジニアリングで自動化
      • Slack botでインシデント対応の進行を自動化
    • 事後対応:トラッキングとフォローアップ
      • botでポストモーテムを半自動化
      • ドキュメントはOpenAI+RAG+ベクトルデータベースで検索

インシデント事にSlackチャンネルセットアップするって結構一般的なのかな?PagerDuty 使うとそうなるらしいと。
RAG作って検索できるようにできるのイマドキだわ。

LT④「手を動かさないインシデント対応 - 自動化で迅速・正確な運用を目指す」

PagerDuty Kazuto Kusamaさん

  • 「PagerDuty いいサービスですね!見たくないど」
  • インシデント中は二次災害など失敗することも多い
    • Runbook をまずは作る
    • 自動化で作ってしまう
    • CloudWatch などから自動で PagerDuty 経由で Rundeck に投げる

登壇に合わせて事前に仕込んだポストが投稿されていて、内容も素晴らしいけどプレゼンレベルがとても高い!だから進行時間を気にしたりしていたのか。