AWS

Batch ETL (AWS Glue + Step Functions)

AWS Glue + Step Functions + S3 + Redshift のサーバーレスバッチETL構成。Step Functionsによる複雑な依存関係の可視化・エラーハンドリングと、Glueのサーバーレス Spark 実行環境を組み合わせたスケーラブルなデータパイプラインです。

アーキテクチャ構成図

トリガー
EventBridge スケジュール / S3イベント
AWS Step Functions
ワークフロー管理・エラーハンドリング
AWS Glue Job
Spark ETL・スキーマ変換
S3
ステージング・変換済みParquet
Redshift / Aurora
ロード
SNS
完了通知 / エラーアラート

↑ リクエスト / データの流れ(上から下)

採用サービス構成

ワークフロー
AWS Step Functions
ETLエンジン
AWS Glue (Spark)
ストレージ
S3 (Parquet)
ロード先
Redshift / Aurora

代表的なユースケース

  • 日次売上集計・データマート生成
  • CSV / JSON → Parquet 変換パイプライン
  • RDS → DWH の日次フルロード
  • 機械学習向け特徴量エンジニアリング

このパターンを選ぶ判断基準

Sparkによる大規模バッチ変換をサーバーレスで実行したい場合や、ステップ間の依存・再試行・エラー通知をフローとして管理したい場合に最適です。

このパターンで設計書を自動生成

要件を入力するだけで構成図・設計書・コスト見積もりを自動生成します。

無料で試す