ワークスペースオブジェクトの概要

この記事では、Databricksワークスペースオブジェクトの概要を説明します。ワークスペースブラウザでは、複数のペルソナにわたってワークスペースオブジェクトを作成、表示、整理できます。

ワークスペースアセットの命名に関する注意

ワークスペースアセットのフルネームは、 ベース名と ファイル拡張子 で構成されます。たとえば、ノートブックのファイル拡張子は、ノートブックの言語と形式に応じて、 .py、 .sql、 .scala、 .r、および .ipynb になります。

ノートブックアセットを作成するときは、そのベース名とフルネーム (ベース名とファイル拡張子を連結したもの) は、ワークスペースフォルダー内で一意である必要があります。アセットに名前を付けると、Databricks はファイル拡張子を追加して、この条件を満たしているかどうかを確認します。フルネームがフォルダ内の既存のファイルと一致する場合、その名前は許可されないため、新しいノートブック名を選択する必要があります。たとえば、test.pyという名前の Python ファイルと同じフォルダーに test という名前の Python ノートブック (Python ソース形式) を作成しようとすると、許可されません。

クラスター

Databricks データサイエンス & エンジニアリングと Databricks Mosaic AI クラスターは、本番運用 ETL パイプラインの実行、ストリーミング分析、アドホックアナリティクス、機械学習など、さまざまなユースケースに対応する統合プラットフォームを提供します。クラスターは、 Databricks コンピュートリソース の一種です。その他のコンピュートリソースの種類には、DatabricksSQL ウェアハウスがあります。

クラスターの管理と使用に関する詳細な情報については、「コンピュート」を参照してください。

ノートブック

ノートブックは、ファイルやテーブル、ビジュアライゼーション、および説明テキストを操作する一連の実行可能なセル (コマンド) を含むドキュメントへの Web ベースのインターフェイスです。コマンドは、以前に実行した 1 つ以上のコマンドの出力を参照して、順番に実行できます。

ノートブックは、Databricks でコードを実行するための 1 つのメカニズムです。もう1つのメカニズムはジョブです。

ノートブックの管理と使用に関する詳細な情報については、「Databricks ノートブック」を参照してください。

ジョブ

ジョブは、Databricksでコードを実行するためのメカニズムのひとつです。もうひとつのメカニズムはノートブックです。

ジョブの管理と使用に関する詳細な情報については、「ジョブLakeflow」を参照してください。

ライブラリ

ライブラリを使用すると、クラスター上で実行されているノートブックやジョブでサードパーティやローカルで構築されたコードを利用できるようになります。

ライブラリの管理と使用に関する詳細な情報については、「ライブラリのインストール」を参照してください。

データ

Databricksワークスペースにマウントされた分散ファイルシステムにデータをインポートし、Databricksノートブックおよびクラスターでそのデータを作業することができます。さまざまなApache Sparkデータソースを使用して、データにアクセスすることもできます。

データの読み込みの詳細については、Lakeflowコネクトの標準コネクタを参照してください。

ファイル

備考

プレビュー

この機能はパブリックプレビュー段階です。

Databricks Runtime 11.3 LTS 以降では、Databricks ワークスペースで任意のファイルを作成して使用できます。ファイルの種類は任意です。一般的なファイルタイプの例は次のとおりです。

.py カスタムモジュールで使用されるファイル。
.md ファイル（README.mdなど）
.csv またはその他の小さなデータファイル。
.txt ファイル。
ログファイル。

ファイルの使用に関する詳細な情報については、「Databricksでのファイルの操作」を参照してください。Databricks ノートブックで開発するときにファイルを使用してコードをモジュール化する方法については、「Databricks ノートブック間でコードを共有する」を参照してください

Git フォルダ

Git フォルダーは、その内容がリモート Git リポジトリに同期されることで共同バージョン管理される Databricks フォルダーです。 Databricks Git フォルダーを使用すると、Databricks でノートブックを開発し、コラボレーションとバージョン管理にリモート Git リポジトリを使用できます。

リポジトリの使用に関する詳細な情報については、「Databricks GitフォルダーのGit連携」を参照してください。

モデル

モデル とは、MLflow Model Registryに登録されているモデルを指します。モデルレジストリは、MLflowモデルのライフサイクル全体を管理できる一元化されたモデルストアです。時系列のモデル系譜、モデルのバージョン管理、ステージ遷移、モデルとモデルバージョンの注釈と説明を提供します。

モデルの管理と使用に関する詳細な情報については、Unity Catalogでのモデルのライフサイクルの管理を参照してください。

エクスペリメント

MLflow エクスペリメントは、MLflow機械学習モデルトレーニング実行の組織とアクセス制御の主要単位です。すべての MLflow 実行はエクスペリメントに属します。各エクスペリメントでは、実行を視覚化、検索、比較したり、アーティファクトやメタデータをダウンロードして実行したりして、他のツールで解析することができます。

エクスペリメントの管理と使用に関する詳細な情報については、「MLflow エクスペリメントを使用してトレーニング実行を整理する」を参照してください。

クエリ

クエリは、データとの対話を可能にする SQL ステートメントです。詳細については、「保存されたクエリへのアクセスと管理」を参照してください。

ダッシュボード

ダッシュボードは、クエリの視覚化と解説のプレゼンテーションです。「ダッシュボード」または「レガシーダッシュボード」を参照してください。

アラート

アラートは、クエリによって返されるフィールドがしきい値に達したという通知です。詳細については、「アラートDatabricks SQL」を参照してください。

ワークスペースオブジェクトへの参照

従来、ユーザーは一部の Databricks API (%sh)には/Workspaceパスプレフィックスを含める必要がありましたが、他の%run、 REST API 入力には含める必要はありませんでした。

ユーザーは、どこでも /Workspace プレフィックスが付いたワークスペースパスを使用できます。 /Workspace プレフィックスのないパスへの古い参照はリダイレクトされ、引き続き機能します。すべてのワークスペースパスには、ボリュームパスや DBFS パスと区別するために、 /Workspace プレフィックスを付けることをお勧めします。

一貫した /Workspace パスプレフィックスの動作の前提条件は、ワークスペースのルートレベルに /Workspace フォルダーが存在できないことです。ルートレベルに /Workspace フォルダーがあり、この UX の改善を有効にする場合は、作成した /Workspace フォルダーを削除するか名前を変更し、Databricks アカウントチームにお問い合わせください。

ファイル、フォルダー、またはノートブックの URL を共有する

Databricks ワークスペースでは、ワークスペースファイル、ノートブック、フォルダーへの URL は次の形式です。

ワークスペースファイルの URL

  https://<databricks-instance>/?o=<16-digit-workspace-ID>#files/<16-digit-object-ID>

ノートブックの URL

  https://<databricks-instance>/?o=<16-digit-workspace-ID>#notebook/<16-digit-object-ID>/command/<16-digit-command-ID>

フォルダー (ワークスペースと Git) の URL

  https://<databricks-instance>/browse/folders/<16-digit-ID>?o=<16-digit-workspace-ID>

これらのリンクは、現在のパス内のフォルダー、ファイル、またはノートブックが Git プルコマンドで更新された場合、または削除されて同じ名前で再作成された場合に壊れる可能性があります。ただし、ワークスペースパスに基づいてリンクを作成し、適切なアクセスレベルを持つ他の Databricks ユーザーと共有するには、次の形式のリンクに変更します。

  https://<databricks-instance>/?o=<16-digit-workspace-ID>#workspace/<full-workspace-path-to-file-or-folder>

フォルダー、ノートブック、ファイルへのリンクを共有するには、 ?o=<16-digit-workspace-ID> の後の URL 内のすべてをワークスペースルートからのファイル、フォルダー、またはノートブックへのパスに置き換えます。フォルダのURLを共有する場合は、元のURLから /browse/folders/<16-digit-ID> も削除します。

ファイルパスを取得するには、共有するワークスペース内のフォルダー、ノートブック、またはファイルを右クリックしてコンテキストメニューを開き、 [ URL / パスをコピー ] > [フルパス] を選択します。コピーしたファイルパスの先頭に #workspace を付加し、 ?o=<16-digit-workspace-ID> の後に結果の文字列を追加して、上記の URL 形式と一致するようにします。

ワークスペースフォルダーのコンテキストメニューから [URL パスのコピー] を選択し、その後に [フルパス] を選択します�。

URLフォーミュレーションの例 #1: フォルダーのURL

ワークスペースフォルダの URL https://<databricks-instance>/browse/folders/1111111111111111?o=2222222222222222を共有するには、URL から browse/folders/1111111111111111 部分文字列を削除します。 #workspaceを追加し、その後に共有するフォルダーまたはワークスペースオブジェクトへのパスを追加します。

この場合、ワークスペースパスはフォルダ ( /Workspace/Users/user@example.com/team-git/notebooks) です。ワークスペースから完全なパスをコピーした後、共有可能なリンクを構築できます。

  https://<databricks-instance>/?o=2222222222222222#workspace/Workspace/Users/user@example.com/team-git/notebooks

URL 作成例 2: ノートブックの URL

ノートブックの URL https://<databricks-instance>/?o=1111111111111111#notebook/2222222222222222/command/3333333333333333を共有するには、 #notebook/2222222222222222/command/3333333333333333を削除します。 #workspaceを追加し、その後にフォルダまたはワークスペースオブジェクトへのパスを追加します。

この場合、ワークスペースパスはノートブックを指し /Workspace/Users/user@example.com/team-git/notebooks/v1.0/test-notebook。ワークスペースから完全なパスをコピーした後、共有可能なリンクを構築できます。

  https://<databricks-instance>/?o=1111111111111111#workspace/Workspace/Users/user@example.com/team-git/notebooks/v1.0/test-notebook

これで、共有するファイル、フォルダー、またはノートブックのパスの安定した URL ができました。 URL と識別子の詳細については、「ワークスペースオブジェクトの識別子を取得する」を参照してください。

ワークスペースアセットの命名に関する注意​

クラスター​

ノートブック​

ジョブ​

ライブラリ​

データ​

ファイル​

Git フォルダ​

モデル​

エクスペリメント​

クエリ​

ダッシュ ボード​

アラート​

ワークスペースオブジェクトへの参照​

ファイル、フォルダー、またはノートブックの URL を共有する​

URLフォーミュレーションの例 #1: フォルダーのURL​

URL 作成例 2: ノートブックの URL​