タグを使用して使用状況を属性付けし、追跡する
この記事では、タグを使用してコンピュートの使用状況を特定のワークスペース、チーム、プロジェクト、またはユーザーに関連付け、コストの追跡と予算編成をサポートする方法について説明します。
タグには次の 2 つのタイプがあります。
- デフォルト tags: クラウドにデプロイされたリソースに Databricks によって自動的に適用されます。 これらは、ベンダー、クラスタリング ID、作成者などの基本的なメタデータを提供します。
- カスタムタグ: コンピュート リソースおよびサーバレス ワークロードに追加できるユーザー定義タグ。 これにより、きめ細かな追跡、レポート作成、予算編成が可能になります。
タグデータはグローバルにレプリケートできます。リソースのセキュリティを損なう可能性のあるタグ名や値は使用しないでください。たとえば、個人情報や機密情報を含むタグ名は使用しないでください。
デフォルトのタグ
Databricks は、クラウド アカウントにデプロイするコンピュート リソースにデフォルト タグを自動的に追加します。 これらのタグは、使用状況を Databricks に関連付け、リソースの名前、ID、作成者など、リソースに関する基本情報を提供します。
デフォルト タグとタグ キーは、VM とその永続ディスクなどの GCE リソース上のラベルに自動的に伝達されます。
デフォルトのタグのキーと値
Databricksは、次のデフォルト タグをコンピュート リソースに追加します。
タグキー | 値 |
---|---|
| 定数値: |
| Databricks クラスターの内部 ID |
| クラスターの名前 |
| クラスターを作成したユーザーのユーザー名(Eメールアドレス) |
| ジョブ名 (ジョブ コンピュートにのみ反映されます) |
| ジョブ ID (ジョブ コンピュートにのみ反映されます) |
GCE リソースに伝達されるタグのキーと値の場合、文字は小文字に変換されます。文字が文字、数字、アンダースコア、またはダッシュでない場合、文字は削除されます。作成者のEメール アドレスに @
が付いているものは _at_
に置き換えられます。 たとえば、 X+Y@databricks.com
は xy_at_databricks.com
になります。
Databricks は、プールとプールによって作成されたコンピュート リソースに次のデフォルト タグを追加します。
タグキー | 値 |
---|---|
| 定数値: |
| プールを作成したユーザーの Databricks 内部 ID |
| プールの Databricks 内部 ID |
カスタムタグ
カスタム タグを使用すると、コンピュートの使用状況を特定のチーム、プロジェクト、またはコスト センターに、デフォルト タグよりも細かく関連付けることができます。 これらのタグはユーザーまたは管理者によって適用され、アカウントの使用状況ログと該当するクラウドリソースの両方に伝播されます。これらのタグは、Databricks アカウントで予算を作成および監視するためにも使用されます。
カスタムタグでサポートされているリソース
Databricks によって管理される次のオブジェクトにカスタム タグを追加できます。
オブジェクト | タグ付けインターフェイス (UI) | タグ付けインターフェイス (API) |
---|---|---|
プール | Databricks ワークスペースのプール UI | |
All-purposeとジョブコンピュート | Databricks ワークスペースのコンピュート UI | |
SQLウェアハウス | Databricks ワークスペースの SQL ウェアハウス UI |
カスタムタグは、GCE ログでは小文字で表示されます。文字が文字、数字、アンダースコア、またはダッシュでない場合、文字は削除されます。たとえば、 My Key
は mykey
になり、 My.Val
は myval
になります。
キー Name
を持つカスタム タグをクラスターに割り当てないでください。 すべてのクラスターには、 Databricksによって値が設定されるタグ Name
があります。 キー Name
に関連付けられた値を変更すると、クラスターは Databricksで追跡できなくなります。 その結果、クラスターはアイドル状態になった後に終了せず、引き続き使用コストが発生します。
Tag サーバレス コンピュート workloads
プレビュー
この機能は パブリック プレビュー段階です。
サーバレス コンピュートの使用状況をユーザー、グループ、またはプロジェクトに帰属させるには、サーバレス予算ポリシーを使用できます。 ユーザにサーバレス予算ポリシーが割り当てられると、そのユーザのサーバレス使用状況は、ポリシーのカスタムタグで自動的にタグ付けされます。 サーバレス予算ポリシーは、サーバレス ノートブック、ジョブ、パイプライン、モデルサービング エンドポイントに適用できます。
サーバレス コンピュートの利用状況は、アカウントの 課金利用 システムテーブルに記録されています。 従来の DBU 使用状況レポートには、サーバレス使用状況タグやサーバレス予算ポリシー タグは含まれません。
サーバレス 予算ポリシーでの属性の使用を参照してください。
タグの伝播
クラスタリング タグとプール タグを使用して、コストを集計および分析できます。 これらのタグは、次のように伝播します。
- DBUレポートのタグ : カスタムタグは、課金利用 システムテーブル ログに反映されます。カスタム タグとデフォルト タグは、ダウンロードしたレポートの DBU 使用状況レポートに反映されます。
- 各 VM とその永続ディスクの GCE ラベル : タグは、VM とその永続ディスクなどの GCE リソースのラベルに伝達されます。これにより、 GCE 使用量測定 を使用してコストを属性化できます。タグのキーと値は、 GCE ラベル形式の制限に準拠するように変換されます。
プールから作成されたクラスターのタグの伝播方法
タグは、クラスターがプールから作成されたかどうかによって、ノードインスタンスに異なる方法で伝播されます。
- クラスターがプールから作成されていない場合、そのタグは期待どおりにノードインスタンスに伝播されます。
- クラスタリングがプールから作成された場合、そのインスタンスはプールタグとクラスタータグの両方を継承します。 プールのタグは、アイドル状態の VM のみの VM 使用状況データに直接使用されます。
- タグ名の競合がある場合は、 Databricks デフォルト タグがカスタム タグよりも優先され、プール タグがクラスター タグよりも優先されます。
タグの施行
特定のカスタム タグの使用を強制するには、コンピュート ポリシーを使用できます。 カスタムタグの適用をご覧ください。サーバレス コンピュート ワークロードにカスタムタグを適用するには、 サーバレス 予算ポリシーを使用します。
制限
- タグのキーと値には、文字、スペース、数字、または文字
+
、-
、=
、.
、_
、:
、/
、@
のみを含めることができます。 他の文字を含むタグは無効です。 - タグキーの名前または値を変更した場合、これらの変更はクラスターの再起動またはプールの拡張後にのみ適用されます。
- GCE ラベルに伝達できるタグの最大カスタム数は 54 です。
- GCE ラベルのキーと値の最大長は 63 文字です。
- ラベルの伝達は、プロジェクトの GCE API レート制限により遅延する可能性があります。 これを解決するには、Google Cloudプロジェクトの GCE API レート制限を増やします。
GCE ラベルの制限
GCEラベルには、次の制限があります。
- キーと値は、小文字、数字、アンダースコア、およびダッシュのみで構成する必要があります。
- GCE ラベルのキーと値の最大長は 63 文字です。
- GCE ラベルに伝播できるタグの最大数は 54 です。
GCE 形式のルールに準拠するために、タグは GCE ラベルのキーと値になる前に変換されます。変換後に重複がある場合、タグ定義の後半 (下位) に表示されるキーと値のペアが保持されます。