グローバルなスポーツウェア小売企業が分析基盤として BigQuery に標準化しており、毎日 02:00 UTC に実行する夜間バッチ ETL をフルマネージドで実行する方法を必要としている。この ETL は、複数のソース(Cloud SQL、SFTP サーバー、パートナーの REST API)から 50 個のテーブル(合計約 12 TB)を取得し、複数の Google Cloud サービスにまたがる変換処理をトリガーし、その後キュレート済みデータセットを BigQuery にロードする。
エンジニアリングチーム(開発者 8 名)は Python に最も強く、保守しやすいコードを書き、Google サービス向けの事前構築済みコネクタ/オペレーターを利用し、リトライ/アラート付きでタスクの依存関係を設定し、サーバーの管理を避けたいと考えている。
チームの Python スキルを活用しつつ、これらのバッチ ETL ワークフローをオーケストレーションするために、どのツールを推奨すべきか?
多国籍の小売企業で、プロジェクト ret-prod の BigQuery データセット ret_prod.sales_tx を管理しています。このデータセットにはトークン化されたクレジットカードのトランザクションが保存されています。最小権限の原則を遵守しつつ、8名からなる Risk-Analytics の Google Group(risk-analytics@retail.example)のみがテーブルに対して SELECT クエリを実行できるようにし、組織内の他の120名の従業員がクエリできないようにする必要があります。どうすべきですか?
あなたは動画配信プラットフォームで働いています。
Compute Engine VM 上の既存の Bash/Python 製 ETL スクリプトは、レガシーな NFS 共有から毎日約 120,000 件の再生イベントを集計し、変換して、その結果を BigQuery にロードしています。
現在は手動でスクリプトを実行していますが、毎日 02:00 UTC に自動トリガーし、トラブルシューティングのための実行履歴、タスクレベルのログ、リトライの可視性を備えた中央集約型の監視を追加する必要があります。
ETL コードを書き換えず、オーケストレーションにオープンソースのツールを用いる単一のマネージドソリューションを求めています。
どうすべきですか?
あるゲーム分析スタートアップは、6 つの Google Cloud リージョン(us-central1, europe-west1, asia-east1, australia-southeast1, southamerica-east1, us-east4)にまたがる 1 日あたり 200 万人のアクティブユーザーからアプリ内テレメトリを収集しており、1 分あたり約 120,000 件の JSON イベントを生成しています。
BigQuery でエンドツーエンドで 90 秒未満のほぼリアルタイムな鮮度でダッシュボードを提供する必要があります。ロード前に、各イベントはクレンジング(null フィールドの削除)、生成元リージョンから導出した region_code を付与してエンリッチし、ネストされた JSON を列指向スキーマにフラット化する必要があります。
提供の迅速化と将来の保守性のため、パイプラインはビジュアルなローコード インターフェースで構築しなければなりません。
どうすべきですか?
あなたのヘルスケアアナリティクスのスタートアップでは、患者の受診データを 1 日に 1 回 02:00(UTC)に更新しており、6 つの BigQuery データセットに分散して保存しています。いくつかのテーブルには、full_name、phone_number、notes のような PHI フィールドが含まれています。新しい契約アナリストが、直近 180 日間について、機密性の低い運用メトリクス(例: clinic_id、visit_date、procedure_code、total_cost)だけをクエリできるようにする必要があります。同時に、PHI や基盤となるベーステーブルにはアクセスできないようにしなければなりません。どうすべきですか?