Google Cloud

Batch ETL (Dataproc + Cloud Composer)

Cloud Composer (Apache Airflow) + Dataproc (Apache Spark) + BigQuery + Cloud Storage の大規模バッチ処理構成。既存のHadoop / Sparkワークロードをクラウドに移行しながら、BigQueryでのアドホック分析と組み合わせたモダンデータ基盤を構築します。

アーキテクチャ構成図

データソース
Cloud Storage / GCS / 外部DB
Cloud Composer / Airflow DAG
スケジュール管理
Dataproc Spark クラスター
バッチ変換・集計
Cloud Storage
中間データ / Parquet
BigQuery
データウェアハウス・アドホック分析
Looker Studio / Connected Sheets
可視化

↑ リクエスト / データの流れ(上から下)

採用サービス構成

ワークフロー
Cloud Composer (Airflow)
バッチ処理
Dataproc (Spark / Hadoop)
DWH
BigQuery
ストレージ
Cloud Storage (Parquet)

代表的なユースケース

  • Hadoop / Sparkワークロードのクラウド移行
  • 日次売上集計・レポート自動生成
  • ETLパイプライン (CSV → BigQuery)
  • BI向けデータマート定期更新

このパターンを選ぶ判断基準

オンプレミスのHadoopクラスターをクラウドに移行する場合や、複雑な依存関係を持つ日次バッチパイプラインのオーケストレーションが必要な場合に最適です。

このパターンで設計書を自動生成

要件を入力するだけで構成図・設計書・コスト見積もりを自動生成します。

無料で試す