omuronの備忘録

個人的な備忘録

「SRE立ち上げてどうなった?最新のコア技術とSRE事情 Lunch LT」 #SRE_findy 受講メモ

SRE立ち上げてどうなった?最新のコア技術とSRE事情 Lunch LT

findy.connpass.com

セッション

LT①「SRE、このへんで苦戦しがちじゃないですか?」

株式会社X-Tech5 馬場俊彰さん

speakerdeck.com

  • SREおさらい
    • モチベーション:Opsがどんどん増えていかないようにしたい
    • DevOpsを実現する一つの手法
  • SREエンタープライズロードマップ
  • 言外の前提条件の認識不足
    • ステークホルダーと対話して認識合わせが大事
    • 会社全体として信頼性に価値を置いているか
  • 変化を定着させる困難さ
    • 大人の変化は難しい
  • 取り組みの事業価値・商業的価値の言語化不足
    • 一度やめてみるのも手
  • まとめ
    • 始めるより続けるのが難しい
    • 理論、理性、情熱大事
    • わかってもらうには一度燃やすのも手

SRE 流行ってるから始めるじゃ失敗しがちですよね。
片手までやるのも難しいし情熱を持って引っ張る人や専任者がいないとうまくいかない。

LT②「SRE を立ち上げた4ヶ月後の世界」

株式会社Magic Moment 木村 竜介さん

speakerdeck.com

  • SRE立ち上げの経緯
    • エラーが毎週増えていくし、顧客も増えていく
    • 手動で対応するためロードマップへの影響が出る
    • ポストモーテムで反省してSREチーム発足へ
      • システムの定点チェックができてなくて状態変化に気がつけてなかった
  • SRE立ち上げ後にやったこと
    • SRE活動からSREチームに変更
    • Core SRE(全体) と Embedded SRE
    • SRE活動を整理整頓
      • バラバラだった活動を「顧客が本当に必要だったもの」にトリアージ
    • 見える化と監視
      • Datadog でアラート整備
      • Datadog APM 導入してマイクロサービス間のトレースを可視化

専任化するのとあわせてオブザーバビリティちゃんとしよう。

LT③「SREチームの立ち上げから5年間とこれから(仮)」

株式会社サイバーエージェント(株式会社サムザップ出向中) Yoshioka Suguru (吉岡 賢)さん

  • インフラチームが SRE チームをかねてすべてのプロダクトをみていた
    • インフラチームはサーバの整備と保守と思われるので名前を SRE チームに変更
  • SRE チームの行動指針を作成
    • UXファースト
    • オープンなチームであれ
    • その技術はイケているか?
    • 1人プレイ禁止
    • むちゃをしない
    • 感謝されるチームであれ
  • 技術および業務の標準化
    • ドキュメントの場所や内容を規定
    • ログの場所や内容を規定
  • 最後にSREチームを解散して各プロジェクトにSREメンバーが所属するように変更
    • Embedded SRE として活動を進める
    • プロジェクト内に閉じこもりがちになるのは課題
  • 課題
    • 文化の属人化:組織じゃなくて人に依存している
    • Observability:Telemetryの標準化とカスタマイズが難しい

SREチームを解散するのがゴールというアプローチが面白い。
プロダクトチーム入れてよりよく実践していくのか。

LT④「カンファレンスから見る SRE トレンド」

株式会社 Topotal Ryota Yoshikawaさん

speakerdeck.com

  • カンファレンス
    • 日本:SRE Next
    • 海外:SRECon

Incident Response が US では盛り上がってるとのこと。

所感

SREチームを作ってきた実際の事例がたくさん聞けて参考になりました。
まずはSREチームをちゃんと立ち上げて横串的に活動しつつ、重要なプロダクトではEmbedded SREも入れていくのが良さそうかな。