omuronの備忘録

個人的な備忘録

「nakanoshima.dev #21 LED!! (Let's enjoy データ分析!!)」 #nakanoshima_dev 受講メモ

nakanoshima-dev.connpass.com

データレイク活用したいしたい詐欺で全然できてません。

セッション

小さく始めるデータレイク

池田 敬之氏 (Amazon Web Services Japan)

データレイク

  • すべてのデータを一元的に保管するのが大事
  • S3 をデータレイクのコアとして考える
    • 対障害性など利点あり
ポイント:小さく段階的に始める
  1. 土台: S3, Glue
  2. 最小限のデータ分析: Athena, Glue Crawler, Glue Data Catalog
  3. 可視化: QuickSight
  4. 大規模化: Redshift, EMR
  5. 民主化: LOB, BI, Glue DataBrew
  6. 高速化: クエリ/置き方の最適化、チューニング、高速化、リアルタイム処理
  7. AI/ML: SageMaker, Forecast...

ETL - AWS Glue

  • サーバーレス
  • GUI でコードが書ける Glue Studio
  • データソースのメタデータ管理

デモ

S3 をデータレイクとして、AWS Glue で Data Catalog 化して、Athena で検索したのを QuickSight で可視化する。

  • Glue でのカタログ化
    • Database 作成
    • データベース - テーブルに作成される
  • Athena で検索
    • データソースに AwsDataCatalog
    • ビューの作成でネストした内容を展開
  • QuickSight と接続
    • データベース/ビューと接続可能

Amazon MWAA を導入しようとした話

西谷 圭佑氏 (シルバーエッグ・テクノロジー株式会社)

Amazon MWAA

AWS+Tableauで「誰もが使えるデータ分析基盤」を!

中南 臣吾氏 (株式会社セールスフォース・ドットコム Tableau)

誰もが使えるデータ基盤

Tableau のモットー We help people see and understand data!

  • 必要な時にすぐアクセス
  • 常に最新データ
  • 大量データでも高速に分析
  • SQLかけなくても簡単に

Tonamelのデータ基盤 〜データモデリング編〜

池田 将士氏 (面白法人カヤック)

Tonamel

  • 大会開催するときに利用するプラットフォーム
  • データ基盤:DynamoDB + Aurra -> S3 -> Redshift -> Redash/Slack
    • 問題が出たので改善
    • MWAA + Redshift へ

データ基盤運用問題

  • データ基盤運用問題
    • Git Flow で開発
    • データ基盤は Production のみ
      • ロジックやデータ構造変化の修正が大変
    • ETL は SQL
      • コピペSQL増加
  • dbt_ で解決
    • データ変換ツール
    • OSS, Python Jinja2 記法の SQL ビルダー/ランナー
    • 超便利ツール!

所感

「小さく始めるデータレイク」のデモがとてもよかったです。
Athena って、テーブル作るのがめんどくさくて大変なイメージがあるのですが、Glue でもテーブル作れるんですね。
QuickSight は可視化するだけならあまり考えずにできるんですが、ちゃんと必要なデータを表示しようとすると元ネタを作るのに困る状況でした。
こちらも Glue で作って連携できるんですね。
Glue を全く触ったことがなかったので、これを機会に試してみたいと思います。