AWS
Batch ETL (AWS Glue + Step Functions)
AWS Glue + Step Functions + S3 + Redshift のサーバーレスバッチETL構成。Step Functionsによる複雑な依存関係の可視化・エラーハンドリングと、Glueのサーバーレス Spark 実行環境を組み合わせたスケーラブルなデータパイプラインです。
アーキテクチャ構成図
トリガー
EventBridge スケジュール / S3イベント
AWS Step Functions
ワークフロー管理・エラーハンドリング
AWS Glue Job
Spark ETL・スキーマ変換
S3
ステージング・変換済みParquet
Redshift / Aurora
ロード
SNS
完了通知 / エラーアラート
↑ リクエスト / データの流れ(上から下)
採用サービス構成
- ワークフロー
- AWS Step Functions
- ETLエンジン
- AWS Glue (Spark)
- ストレージ
- S3 (Parquet)
- ロード先
- Redshift / Aurora
代表的なユースケース
- ✓日次売上集計・データマート生成
- ✓CSV / JSON → Parquet 変換パイプライン
- ✓RDS → DWH の日次フルロード
- ✓機械学習向け特徴量エンジニアリング
このパターンを選ぶ判断基準
Sparkによる大規模バッチ変換をサーバーレスで実行したい場合や、ステップ間の依存・再試行・エラー通知をフローとして管理したい場合に最適です。