データレイク活用したいしたい詐欺で全然できてません。
セッション
小さく始めるデータレイク
池田 敬之氏 (Amazon Web Services Japan)
データレイク
- すべてのデータを一元的に保管するのが大事
- S3 をデータレイクのコアとして考える
- 対障害性など利点あり
ポイント:小さく段階的に始める
- 土台: S3, Glue
- 最小限のデータ分析: Athena, Glue Crawler, Glue Data Catalog
- 可視化: QuickSight
- 大規模化: Redshift, EMR
- 民主化: LOB, BI, Glue DataBrew
- 高速化: クエリ/置き方の最適化、チューニング、高速化、リアルタイム処理
- AI/ML: SageMaker, Forecast...
ETL - AWS Glue
デモ
S3 をデータレイクとして、AWS Glue で Data Catalog 化して、Athena で検索したのを QuickSight で可視化する。
- Glue でのカタログ化
- Athena で検索
- データソースに AwsDataCatalog
- ビューの作成でネストした内容を展開
- QuickSight と接続
- データベース/ビューと接続可能
Amazon MWAA を導入しようとした話
Amazon MWAA
AWS+Tableauで「誰もが使えるデータ分析基盤」を!
中南 臣吾氏 (株式会社セールスフォース・ドットコム Tableau)
誰もが使えるデータ基盤
Tableau のモットー We help people see and understand data!
- 必要な時にすぐアクセス
- 常に最新データ
- 大量データでも高速に分析
- SQLかけなくても簡単に
Tonamelのデータ基盤 〜データモデリング編〜
池田 将士氏 (面白法人カヤック)
Tonamel
- 大会開催するときに利用するプラットフォーム
- データ基盤:DynamoDB + Aurra -> S3 -> Redshift -> Redash/Slack
- 問題が出たので改善
- MWAA + Redshift へ
データ基盤運用問題
- データ基盤運用問題
dbt_
で解決
所感
「小さく始めるデータレイク」のデモがとてもよかったです。
Athena って、テーブル作るのがめんどくさくて大変なイメージがあるのですが、Glue でもテーブル作れるんですね。
QuickSight は可視化するだけならあまり考えずにできるんですが、ちゃんと必要なデータを表示しようとすると元ネタを作るのに困る状況でした。
こちらも Glue で作って連携できるんですね。
Glue を全く触ったことがなかったので、これを機会に試してみたいと思います。