omuronの備忘録

個人的な備忘録

「JAWS-UG SRE支部 #1」 #jawsug_sre 受講メモ

jawsug-sre.connpass.com

SRE ってなんやねん...という知識で参加しました。

セッション

SREのプラクティスにAWSで取り組むときに悩んでいること

Yuki Andoさん

www.slideshare.net

SRE とは

  • Site Reliability Engineering
  • ソフトウェアエンジニアリングでサービス運用を改善する方法論(from google)
    • 技術だけじゃなく組織・コミュ・文化な側面まで
  • 信頼性とスピードのバランスをとる考え方
    • 信頼性こそプロダクトの基本

SRE がエンジニアリングである理由

  • 顧客体験から SLI/SLO を決める
    • SLO に SRE が駆動される
      • SLO: サービスレベル目標
      • SLI: サービスレベル指標
      • CUJ: クリティカルユーザージャーニー
  • モデル化して定量分析して改善する

SRE on AWS の難しさ

  • AWS のサービスが多い
    • アップデートで最適解が変わっていく
    • サービスの状況ニーズ時期によって判断
  • SLI/SLO の実装をする場合
    • SLI の仕様を決めて実装
    • SLO ダッシュボード、アラートを実装する

Site Reliability Engineering on AWS

Yukitaka Ohmuraさん

SRE が実現すること

  • SREs: Site Reliability Engineer
    • 信頼性などをエンジニアリングで改善することが仕事
    • やるべき作業が先にあるのではない
  • SREs の信条
    • エンジニアリングに対する継続的な注力の保証
    • SLO を下回ることなく変更の速度の最大化
    • モニタリング、緊急対応、変更管理
    • 需要予測、キャパシティプランニング
  • SREs at Amazon
    • サービスチームの中に Systems Development Engineer という職種がある
      • 開発プロセスや運用課題をソフトウェアで解決
      • 横串でプラットフォームだけを担当するものではない
      • SREs の信条と同じ
  • 開発と運用の壁は無い
    • you build it, you run it.
    • 開発者も日々の運用に入る
    • DevOps で Project ではなく Product にフォーカス
  • Amazon のサービス運用
    • すべてをサービスチームが担当する
      • 顧客ヒアリング、プロダクトデザイン、KPI...
    • Two Pizza Team
      • ソフトウェアで解決
      • Self-service Tools を作る便利なツールはサービスにする
        • AWS もそのひとつ

SRE とは?

  • SRE だけが全てではない
  • SRE は Google の考え方
    • Amazon は Two Pizza Team
    • 開発と SREs が同じチーム
    • 唯一の正解はない
    • 組織によって違う
  • SREs チームと開発チームを分けるケース
    • Google はインフラとサービス開発が別れている
    • Error Budget が必要になる、これも一つのやり方

SRE を AWS で実現するには

  • AWS ベストプラクティス
    • AWS Well-Architected Framework
      • 運用上の優秀性、セキュリティ、信頼性、パフォーマンス
  • アーキテクチャによる高信頼性確保のナレッジ
    • Amazon Builder's Library
      • Amazon がソフトウェアをどのように構築して運用しているかを知る
      • 例)静的安定性:依存関係が壊れてもシステム全体は動作する
  • 言葉は大事
    • 運用課題をエンジニアリングで解決することに SRE と名前がついた
      • 必要だけで注目されなかった領域にフォーカスがあたった
    • でも言葉に縛られない
      • 目的はサービスを利用するお客様へ価値を提供すること
  • 運用が始まったら開発を止めてでも改善に注力する
    • プロダクトマネージャーの判断にはなる

いにしえの日系大企業の情シスに勃興したSREチームの奮闘記

御田 稔さん

speakerdeck.com

  • DX の波が来て SRE チームができた
  • 基幹系情報を集約して API で社内提供するシステム構築
  • オンプレや AWS との連携課題
    • Direct Connect
    • VPC 接続方式フロー整備
  • 社内運用系機能がレガシー
    • AWS 運用管 PF を構築
    • Datadog 環境準備
  • 委託管理に慣れた社員の技術スキル
    • AWS 商用システム保守作業の内製化推進
  • 苦労ポイント
    • AWS の標準化と統制
    • AWS の予算計画
    • SRE が解るようにジョブディスクリプションを作成

オンラインの技術カンファレンスを安定稼働させるための取り組み

inductorさん

speakerdeck.com

  • コロナ禍でのミートアップ運営側
    • Zoom 便利
    • 配信機材準備大変
    • 懇親会、質問大変
  • カンファレンス
  • 改善したこと
    • AWS の改善は極力入れる
      • 仕事じゃないので好きに実験
  • まとめ
    • SRE を実践できる環境は少ない
    • サービスのフェーズに合わせて取り組む
    • 多様性大事
    • SRE チーム作って満足しない
      • サービスが正しく動くように

SRE on AWSのことはじめ〜スタートアップ協業におけるビジネスに寄り添ったSLO定義・計測に関する取り組み事例〜

Masaya ARAIさん

speakerdeck.com

SLO 定義計測に関する事例

  • 金融系スタートアップ
    • セキュリティ PCIDSS 準拠必須
    • 信頼性が大事なので「機能」として位置づけ
  • 最初に SLO を構築
    • 重要なふるまいの定義
      • 可用性(稼働率)、レイテンシ遵守率
        • どんな根拠で値をつくる?
        • AWS や関連システムのサービスレベルの前提を考察
        • プロダクトに対する利用者の期待を考察
          • ビジネス領域の重要度を俯瞰
    • 計測と評価
  • SLO を主軸として SRE の文化を醸成するのが本番

weblioはSREチームの0→1フェーズにどのようにAWSを取り入れているのか

paprika-mahさん

  • 最優先はセキュリティ
    • CMS を守るために WAF 導入
      • 特定検索で403が出た
      • Cookie内容によってはエラー
        • WAF のチューニングが必要
  • 次はモニタリング
  • SRE の準備
    • 可観測性、回復力、疎結合、管理力
    • クラウドネイティブにするため 12FactorApp な作りへ
  • SRE を取り入れる
    • 即効性がない、文化や組織を変える必要あり

所感

送迎で懇親会をすぐに離脱することになったのが残念。
SRE とはを丁寧に色々な角度で知ることができるいい勉強会でした。

プロダクトの信頼性を高めるために、計測して指標を作成しエンジニアリングで解決しようというもの。
SRE は、小さい組織だとなんでも屋さんのスーパーマンがこなすしかなく、大きな組織だとサイロ化せずに開発と一緒に進めるのが大変そうな印象です。
知見を持った仲間を増やしていきたいなぁ。