SRE ってなんやねん...という知識で参加しました。
セッション
SREのプラクティスにAWSで取り組むときに悩んでいること
Yuki Andoさん
www.slideshare.net
SRE とは
- Site Reliability Engineering
- ソフトウェアエンジニアリングでサービス運用を改善する方法論(from google)
- 技術だけじゃなく組織・コミュ・文化な側面まで
- 信頼性とスピードのバランスをとる考え方
- 信頼性こそプロダクトの基本
SRE がエンジニアリングである理由
- 顧客体験から SLI/SLO を決める
- SLO に SRE が駆動される
- SLO: サービスレベル目標
- SLI: サービスレベル指標
- CUJ: クリティカルユーザージャーニー
- SLO に SRE が駆動される
- モデル化して定量分析して改善する
SRE on AWS の難しさ
- AWS のサービスが多い
- アップデートで最適解が変わっていく
- サービスの状況ニーズ時期によって判断
- SLI/SLO の実装をする場合
- SLI の仕様を決めて実装
- SLO ダッシュボード、アラートを実装する
Site Reliability Engineering on AWS
Yukitaka Ohmuraさん
SRE が実現すること
- SREs: Site Reliability Engineer
- SREs の信条
- エンジニアリングに対する継続的な注力の保証
- SLO を下回ることなく変更の速度の最大化
- モニタリング、緊急対応、変更管理
- 需要予測、キャパシティプランニング
- SREs at Amazon
- サービスチームの中に Systems Development Engineer という職種がある
- 開発プロセスや運用課題をソフトウェアで解決
- 横串でプラットフォームだけを担当するものではない
- SREs の信条と同じ
- サービスチームの中に Systems Development Engineer という職種がある
- 開発と運用の壁は無い
- you build it, you run it.
- 開発者も日々の運用に入る
- DevOps で Project ではなく Product にフォーカス
- Amazon のサービス運用
SRE とは?
- SRE だけが全てではない
- SRE は Google の考え方
- Amazon は Two Pizza Team
- 開発と SREs が同じチーム
- 唯一の正解はない
- 組織によって違う
- SREs チームと開発チームを分けるケース
- Google はインフラとサービス開発が別れている
- Error Budget が必要になる、これも一つのやり方
SRE を AWS で実現するには
- AWS ベストプラクティス
- AWS Well-Architected Framework
- 運用上の優秀性、セキュリティ、信頼性、パフォーマンス
- AWS Well-Architected Framework
- アーキテクチャによる高信頼性確保のナレッジ
- 言葉は大事
- 運用課題をエンジニアリングで解決することに SRE と名前がついた
- 必要だけで注目されなかった領域にフォーカスがあたった
- でも言葉に縛られない
- 目的はサービスを利用するお客様へ価値を提供すること
- 運用課題をエンジニアリングで解決することに SRE と名前がついた
- 運用が始まったら開発を止めてでも改善に注力する
- プロダクトマネージャーの判断にはなる
いにしえの日系大企業の情シスに勃興したSREチームの奮闘記
御田 稔さん
- DX の波が来て SRE チームができた
- 基幹系情報を集約して API で社内提供するシステム構築
- オンプレや AWS との連携課題
- Direct Connect
- VPC 接続方式フロー整備
- 社内運用系機能がレガシー
- AWS 運用管 PF を構築
- Datadog 環境準備
- 委託管理に慣れた社員の技術スキル
- AWS 商用システム保守作業の内製化推進
- 苦労ポイント
オンラインの技術カンファレンスを安定稼働させるための取り組み
inductorさん
- コロナ禍でのミートアップ運営側
- Zoom 便利
- 配信機材準備大変
- 懇親会、質問大変
- カンファレンス
- スポンサーやバック企業も関係するから難しい
- Dreamkast を自分たちで作成
- https://github.com/cloudnativedaysjp/dreamkast
- スポンサーやバック企業も関係するから難しい
- 改善したこと
- AWS の改善は極力入れる
- 仕事じゃないので好きに実験
- AWS の改善は極力入れる
- まとめ
- SRE を実践できる環境は少ない
- サービスのフェーズに合わせて取り組む
- 多様性大事
- SRE チーム作って満足しない
- サービスが正しく動くように
SRE on AWSのことはじめ〜スタートアップ協業におけるビジネスに寄り添ったSLO定義・計測に関する取り組み事例〜
Masaya ARAIさん
SLO 定義計測に関する事例
- 金融系スタートアップ
- セキュリティ PCIDSS 準拠必須
- 信頼性が大事なので「機能」として位置づけ
- 最初に SLO を構築
- SLO を主軸として SRE の文化を醸成するのが本番
weblioはSREチームの0→1フェーズにどのようにAWSを取り入れているのか
paprika-mahさん
- 最優先はセキュリティ
- 次はモニタリング
- SRE の準備
- SRE を取り入れる
- 即効性がない、文化や組織を変える必要あり
所感
送迎で懇親会をすぐに離脱することになったのが残念。
SRE とはを丁寧に色々な角度で知ることができるいい勉強会でした。
プロダクトの信頼性を高めるために、計測して指標を作成しエンジニアリングで解決しようというもの。
SRE は、小さい組織だとなんでも屋さんのスーパーマンがこなすしかなく、大きな組織だとサイロ化せずに開発と一緒に進めるのが大変そうな印象です。
知見を持った仲間を増やしていきたいなぁ。