メインコンテンツまでスキップ

ジョブのdbtプラットフォームタスク

備考

ベータ版

この機能はベータ版です。

dbt プラットフォーム タスクを使用して、既存の dbt プラットフォーム ジョブを Databricks から直接オーケストレーションおよび監視します。このページでは、dbt ジョブを選択してトリガーする方法、失敗時の自動再試行オプションを設定する方法、実行を監視する方法について説明します。

dbtプラットフォームとdbtタスクの違い

Jobs は、dbt プロジェクトに 2 種類のタスクを提供します。dbt プロジェクトが管理されている場所に基づいて適切なものを選択してください。

dbt プラットフォーム タスク : これを使用して、既存の dbt プラットフォーム ジョブを調整します。dbt プラットフォーム API に接続し、そこで実行をトリガーします。モニタリングやスケジューリングなどのdbtプラットフォームの利点をすべて維持しながら、オーケストレーションをDatabricksに一元化する場合は、これを選択します。

dbt タスク : Git のコードを使用して、Databricks クラスター上で dbt コアプロジェクトを実行します。実行環境を完全に制御する必要があり、依存関係を Databricks 内で完全に管理したい場合は、こちらを選択してください。ジョブについては dbt タスクを参照してください。

前提条件

dbt プラットフォーム タスクを使用するには、次の前提条件を満たしている必要があります。

  • ワークスペース管理者がプレビューを有効にする必要があります。「Databricks プレビューの管理」を参照してください。
  • ワークスペースのUnity Catalogメタストアに対するCREATE CONNECTION権限が必要です。
  • dbt プラットフォーム内の定義されたジョブを持つ既存の dbt プロジェクトへのアクセス。詳細については、dbt ドキュメントの「dbt プラットフォームのジョブ」を参照してください。
  • dbt プラットフォームでサービス トークンを生成する権限。詳細については、 「サービス アカウント トークン」をご覧ください。
注記

セキュリティと運用の安定性を確保するために、 Databricks個人のアクセスウイルスではなく、サービス アカウントを生成することをお勧めします。 サービス アカウント トークンは個々のユーザーに関連付けられておらず、必要最小限の権限を提供するように簡単にスコープを設定できます。

dbtプラットフォームの詳細を収集する

dbt を Databricks と統合するには、次の 3 つの詳細が必要です。

  • dbt プラットフォームのアカウント ID。
  • dbt プラットフォームで生成された API キー。
  • dbt プラットフォームのデプロイメント ホストの URL。

次のセクションでは、この必要な情報を見つける方法について説明します。

アカウント ID を取得します:

アカウント ID を取得するには:

  1. dbt プラットフォームにログインします。
  2. [設定] > [アカウント設定] に移動します。
  3. URL サフィックスからアカウント ID を取得します。形式は次のようになります: https://cloud.getdbt.com/settings/accounts/{account_id}

APIキーを取得する

API キーを取得するには:

  1. dbt プラットフォームにログインします。
  2. [設定] > [プロフィール設定] > [あなたのプロフィール] > [API アクセス] > [API キー] に移動します。

ホストURL

ホスト URL は、場所とテナントによって異なります。リージョンの URL を見つけるには、dbt ドキュメントの「アクセス、リージョン、IP アドレス」を参照してください。

リージョンとテナンシー (マルチテナントまたはセルベース) を識別します。 アクセス URL 列を使用してホスト URL を取得します。

賃貸タイプ

地域の例

ホストURLの例

マルチテナント

北米

https://cloud.getdbt.com

細胞ベース

北米( us-east-1

https://12345.us1.dbt.com (アカウント ID として12345を使用)

dbtプラットフォーム接続のセットアップ

次のステップを使用して、 Databricksでdbtプラットフォーム接続をセットアップします。

  1. クリックデータアイコン。サイドバーの カタログ

  2. クリックプラスアイコン。スキーマ ブラウザのプラス アイコン。次に、 「接続の作成」 をクリックします。 接続の設定 フォームが開きます。

  3. 次の情報を入力し、 「次へ」 をクリックします。

    • 「接続名」 に名前を入力します。
    • 接続タイプ には、 dbt プラットフォーム を選択します。
  4. ホスト テキスト フィールドに dbt プラットフォーム ホスト URL を入力します。末尾のスラッシュ ( / ) を含めないでください。

  5. dbtプラットフォームのアカウント ID と、前のステップで収集したAPIアカウントを入力します。

  6. 「接続の作成」 をクリックして、接続の詳細を確認します。

  7. (オプション) 他のユーザーに接続を使用する権限を付与します。

    • 「プリンシパル」 ドロップダウン メニューで、権限を付与するユーザー ID とグループを選択します。
    • 付与する特権を選択します。
    • 確認 をクリックします。

dbt プラットフォームタスクを使用して新しいジョブを作成する

  1. ワークスペースで、サイドバーの ワークフロー アイコン。 ジョブ & パイプライン をクリックします。

  2. [作成] を クリックし、 [ジョブ] を クリックします。新しいジョブには、関連付けられたタイムスタンプを使用して自動的に名前が付けられます。

  3. (オプション) ジョブ名をクリックし、新しい名前を入力して編集します。

    「タスク」 タブには、空の「タスク」ペインが表示されます。

注記
  • LakeFlowジョブ UIオンの 場合は、 [別のタスク タイプを追加] をクリックします。 dbt プラットフォームを検索し、タイルをクリックして選択します。
  • LakeFlowジョブ UIオフの 場合は、 [タイプ] ドロップダウン メニューを使用してdbtプラットフォームを選択します。
  1. タスク名 を入力します。

  2. dbt プラットフォーム接続 ドロップダウン メニューを使用して、以前に作成した接続を選択します。

  3. dbt プラットフォーム ジョブ ドロップダウン メニューを使用して、オーケストレーションする dbt プラットフォーム ジョブを選択します。

  4. タスクの保存 をクリックします。

  5. (オプション) ジョブを手動でテストするには、 [今すぐ実行] をクリックします。

スケジュールまたはトリガーを設定する

時間ベースのスケジュールまたは新しいデータの到着に応じてジョブが自動的にトリガーされるように構成できます。利用可能なオプションの詳細については、 「スケジュールとトリガーを使用したジョブの自動化」を参照してください。

注記

継続的なトリガーは、dbt プラットフォーム ジョブではサポートされていません。

モニター実行

Databricks UI でLakeFlow Job監視できます。 dbtプラットフォーム ジョブの場合は、 dbtプラットフォームのジョブ実行の詳細を指すリンクを開くこともできます。

実行を監視するには:

  1. ワークスペース サイドバーで [ジョブとパイプライン] をクリックします。

  2. (オプション) [ジョブ] および [自分が所有] フィルターを選択します。

  3. ジョブの 名前 リンクをクリックします。

    タブ が表示され、アクティブな実行と完了した実行のマトリックス ビューとリスト ビューが表示されます。

  4. 実行リスト ビューの 開始時刻 列にある実行のリンクをクリックします。 dbt プラットフォームのジョブ ステータスが開きます。

  5. dbt プラットフォームでジョブ実行の詳細を表示するには 、「dbt で表示」 をクリックします。