AKIBA.AWS ONLINE #07 - データ分析 編-
データ分析したいんだけどどこからやればいいものか...ということで受講しました。
セッション
サーバーレスなデータ分析基盤の紹介
データアナリティクス事業本部 梶原裕さん
- データの収集と蓄積、分析を行う仕組み
- アーキテクチャ
- Lambda -> SNS -> SQS -> Lambda(StepFunctions) -> DynamoDB
- StepFunctions: S3 -> Glue -> Redshift
- Lambda -> SNS -> SQS -> Lambda(StepFunctions) -> DynamoDB
Redshift内のデータの活用をAthenaにオフロードしてみた
データアナリティクス事業本部 鈴木那由太さん
- Redhift に BI ツールがアクセスするケースから変える
- Redhift から S3 に出力して Athena からアクセスするようにしたい
- Athena のフェデレーテッド・クエリで、横串検索ができる
- Athena を BI ツールでアクセス
- Redhift から S3 に出力して Athena からアクセスするようにしたい
- アンロード
- 検索
- まとめ
S3にあるデータをAthenaのクエリで取得してLambda ( Pandas ) で加工してみた
データアナリティクス事業本部 笠原宏さん
- Athena クエリでデータ取得
- スキーマ定義で Glue Data Catalog が利用できる
- Athena を利用するケース
- Athena をつかって S3 内の大量のデータから抽出したい
- パーティション化してフィアル格納
- 複数ファイルに分散されている一部利用
- S3 にある Parguet データを Athena クエリで取得
- Athena クエリ実行結果を Lambda で取得
- Lambda の Pandas データフレームに加工できれば Pandas を操作してデータ加工できる
- Athena クエリ実行結果を Lambda で取得
- AWS Data Wrangler が便利
- https://dev.classmethod.jp/articles/aws-data-wrangler-pandas-athena/
- Pandas の機能を AWS に拡張する Python ライブラリ
- Redshift, Glue, Athena, EMR と簡単に連携
- ETL タスクに必要な関数が揃っている
- ファリサイズが大きくてそのままだと Lambda に乗らない
- GitHub の Rlelease ページにある Lambda Layer 用の zip を利用する
所感
想像以上に理解できませんでした😇
Glue 使いたいなーと思ってるだけで、触ってないのでちゃんとわかってない。
Redshift も知ってるだけで操作したこと無い。
とりあえず、キーワードだけ拾っといてそれぞれを調査実装復習しないと進展なさそうです。