Google Cloud
Batch ETL (Dataproc + Cloud Composer)
Cloud Composer (Apache Airflow) + Dataproc (Apache Spark) + BigQuery + Cloud Storage の大規模バッチ処理構成。既存のHadoop / Sparkワークロードをクラウドに移行しながら、BigQueryでのアドホック分析と組み合わせたモダンデータ基盤を構築します。
アーキテクチャ構成図
データソース
Cloud Storage / GCS / 外部DB
Cloud Composer / Airflow DAG
スケジュール管理
Dataproc Spark クラスター
バッチ変換・集計
Cloud Storage
中間データ / Parquet
BigQuery
データウェアハウス・アドホック分析
Looker Studio / Connected Sheets
可視化
↑ リクエスト / データの流れ(上から下)
採用サービス構成
- ワークフロー
- Cloud Composer (Airflow)
- バッチ処理
- Dataproc (Spark / Hadoop)
- DWH
- BigQuery
- ストレージ
- Cloud Storage (Parquet)
代表的なユースケース
- ✓Hadoop / Sparkワークロードのクラウド移行
- ✓日次売上集計・レポート自動生成
- ✓ETLパイプライン (CSV → BigQuery)
- ✓BI向けデータマート定期更新
このパターンを選ぶ判断基準
オンプレミスのHadoopクラスターをクラウドに移行する場合や、複雑な依存関係を持つ日次バッチパイプラインのオーケストレーションが必要な場合に最適です。