BigData-JAWS 勉強会 #27 #bdjaws
セッション
LT① 【【Bedrock×Athena】生成系AIを活用したSlackデータの分析に挑戦
荒牧 慧さん
- Slack AI が GA
- 休み明けSlack貯まる問題のサマリーだしてくれるのでは?
- 1,200円と高い...
- 使わずに Bedrock x Athena で実装
- AWSアーキテクチャ
- 収集用 Lambda で Slack からデータ取得して S3 へ
- 推論用 Lambda で Bedrock
LLMの使い方でサマリーや要約は比較的ハルシネーション起きなくいい感じの答えくれるので、ユースケースとしては実現しやすい内容ですね。
LT② IoT Core と Data Firehose によるデータ連携で直面した課題
井川 朋樹さん
Firehose作成時に設定できる「動的パーティショニング」で処理する必要があったが「S3プレフィックスタイムゾーン」設定が増えたと。
UTCだけだったがバケットプレフィックスのタイムゾーンも指定できるようになったよと。
LT③ Athena Partiton Projectionを調べてみた!
水村 健太さん
- Athena のよくあるパーティション管理
- Athena Partition Projection
Glue Crawler 便利だけど定期実行させないとだめで、だんだん辛くなるので Partition Projection に寄せれるときは寄せるほうがいいかと。
LT④ データ初心者がAWS GlueでPII対策やってみた
佐藤 亨さん
- PII≒個人情報
- Glue DataBrew で個人情報保護できるのでは?
- DataBrew の PII マスキング機能
- 日本語はマスクされない
- メールはマスキングされるのに氏名はされない
- 日本語はマスクされない
- DataBrew の PII マスキング機能
Glue DataBrew の PII マスキング機能は英語(US)用のなので日本語では使えないと。
列を指定するなら使えそうと。
LT⑤ AWS Glue for Ray の普及にささやかで微力な貢献を
坂口 拓生(株式会社エーピーコミュニケーションズ)
- Glue の ETL
- Ray:PythonアプリをスケーリングするためのOSS統合フレームワーク
pip
でray
をインストールしても使える- Cloud9は Glue の Ray とバージョン違うので注意
Glue Jobs は Spark と Python Shell は触った事あるけど、Ray は知りませんでした。
ただ、日本語も含めてドキュメントが少ないのがネックと。
LT⑥ 大規模な通信制御信号処理の環境下におけるAthenaのパフォーマンス比較
小澤 遼さん
- 500万レコード vs 8,500万レコードの LEFT OUTER JOIN 比較
ログとかは細かく分割されるケースもあるのでそういうときに前処理したくない場合は S3 Express One Zone
使えば良さそう。