ワークスペースオブジェクトの概要
この記事では、Databricksワークスペースオブジェクトの概要を説明します。ワークスペースブラウザでは、複数のペルソナにわたってワークスペースオブジェクトを作成、表示、整理できます。
ワークスペースアセットの命名に関する注意
ワークスペース アセットのフル ネームは、 ベース名と ファイル拡張子 で構成されます。たとえば、ノートブックのファイル拡張子は、ノートブックの言語と形式に応じて、 .py
、 .sql
、 .scala
、 .r
、および .ipynb
になります。
ノートブック アセットを作成するときは、そのベース名とフル ネーム (ベース名とファイル拡張子を連結したもの) は、ワークスペース フォルダー内で一意である必要があります。 アセットに名前を付けると、Databricks はファイル拡張子を追加して、この条件を満たしているかどうかを確認します。 フルネームがフォルダ内の既存のファイルと一致する場合、その名前は許可されないため、新しいノートブック名を選択する必要があります。 たとえば、test.py
という名前の Python ファイルと同じフォルダーに test
という名前の Python ノートブック (Python ソース形式) を作成しようとすると、許可されません。
クラスター
Databricks データサイエンス & エンジニアリング と Databricks Mosaic AI クラスターは、本番運用 ETL パイプラインの実行、ストリーミング分析、アドホック アナリティクス、機械学習など、さまざまなユースケースに対応する統合プラットフォームを提供します。 クラスターは、 Databricks コンピュート リソース の一種です。 その他のコンピュート リソースの種類には、DatabricksSQL ウェアハウス があります。
クラスターの管理と使用に関する詳細な情報については、「 コンピュート」を参照してください。
ノートブック
ノートブックは、ファイルや テーブル、 ビジュアライゼーション、および説明テキストを操作する一連の実行可能なセル (コマンド) を含むドキュメントへの Web ベースのインターフェイスです。 コマンドは、以前に実行した 1 つ以上のコマンドの出力を参照して、順番に実行できます。
ノートブックは、Databricks でコードを実行するための 1 つのメカニズムです。 もう1つのメカニズムは ジョブです。
ノートブックの管理と使用に関する詳細な情報については、「Databricks ノートブックの概要」を参照してください。
ジョブ
ジョブは、Databricksでコードを実行するためのメカニズムのひとつです。もうひとつのメカニズムはノートブックです。
ジョブの管理と使用に関する詳細な情報については、Databricksでのオーケストレーションの概要を参照してください。
ライブラリ
ライブラリを使用すると、クラスター上で実行されているノートブックやジョブでサードパーティやローカルで構築されたコードを利用できるようになります。
ライブラリの管理と使用に関する詳細な情報については、「 ライブラリ」を参照してください。
データ
Databricksワークスペースにマウントされた分散ファイルシステムにデータをインポートし、Databricksノートブックおよびクラスターでそのデータを作業することができます。さまざまなApache Sparkデータソースを使用して、データにアクセスすることもできます。
データの読み込みに関する詳細な情報については、「Databricks レイクハウスへのデータの取り込み」を参照してください。
ファイル
プレビュー
この機能は パブリック プレビュー段階です。
Databricks Runtime 11.3 LTS 以降では、Databricks ワークスペースで任意のファイルを作成して使用できます。 ファイルの種類は任意です。 一般的なファイルタイプの例は次のとおりです。
.py
カスタムモジュールで使用されるファイル。.md
ファイル(README.md
など).csv
またはその他の小さなデータファイル。.txt
ファイル。- ログファイル。
ファイルの使用に関する詳細な情報については、「Databricksでのファイルの操作」を参照してください。Databricks ノートブックで開発するときにファイルを使用してコードをモジュール化する方法については、「Databricks ノートブック間でコードを共有する」を参照してください
Git フォルダ
Git フォルダーは、その内容がリモート Git リポジトリに同期されることで共同バージョン管理される Databricks フォルダーです。 Databricks Git フォルダーを使用すると、Databricks でノートブックを開発し、コラボレーションとバージョン管理にリモート Git リポジトリを使用できます。
リポジトリの使用に関する詳細な情報については、「フォルダーのGit 統合DatabricksGit 」を参照してください。
モデル
モデル とは、MLflow Model Registryに登録されているモデルを指します。モデルレジストリは、MLflowモデルのライフサイクル全体を管理できる一元化されたモデルストアです。時系列のモデル系譜、モデルのバージョン管理、ステージ遷移、モデルとモデルバージョンの注釈と説明を提供します。
モデルの管理と使用に関する詳細な情報については、Unity Catalogでのモデルのライフサイクルの管理を参照してください。
エクスペリメント
MLflow エクスペリメントは、MLflow機械学習モデル トレーニング 実行の組織とアクセス制御の主要単位です。すべての MLflow 実行はエクスペリメントに属します。 各エクスペリメントでは、実行を視覚化、検索、比較したり、アーティファクトやメタデータをダウンロードして実行したりして、他のツールで解析することができます。
エクスペリメントの管理と使用に関する詳細な情報については、「MLflow エクスペリメントを使用してトレーニング 実行を整理する」を参照してください。
クエリ
クエリは、データとの対話を可能にする SQL ステートメントです。 詳細については、「 保存されたクエリへのアクセスと管理」を参照してください。
ダッシュ ボード
ダッシュボードは、クエリの視覚化と解説のプレゼンテーションです。 「ダッシュボード」または「レガシーダッシュボード」を参照してください。
アラート
アラートは、クエリによって返されるフィールドがしきい値に達したという通知です。 詳細については、「Databricks SQL アラートとは」を参照してください。
ワークスペースオブジェクトへの参照
従来、ユーザーは一部の Databricks APIs (%sh
)には/Workspace
パスプレフィックスを含める必要がありましたが、他の%run
、 REST API 入力には含める必要はありませんでした。
ユーザーは、どこでも /Workspace
プレフィックスが付いたワークスペースパスを使用できます。 /Workspace
プレフィックスのないパスへの古い参照はリダイレクトされ、引き続き機能します。すべてのワークスペース パスには、ボリューム パスや DBFS パスと区別するために、 /Workspace
プレフィックスを付けることをお勧めします。
一貫した /Workspace
パス プレフィックスの動作の前提条件は、ワークスペースのルート レベルに /Workspace
フォルダーが存在できないことです。 ルート レベルに /Workspace
フォルダーがあり、この UX の改善を有効にする場合は、作成した /Workspace
フォルダーを削除するか名前を変更し、Databricks アカウント チームにお問い合わせください。
ファイル、フォルダー、またはノートブックの URL を共有する
Databricks ワークスペースでは、ワークスペース ファイル、ノートブック、フォルダーへの URL は次の形式です。
ワークスペース ファイルの URL
https://<databricks-instance>/?o=<16-digit-workspace-ID>#files/<16-digit-object-ID>
ノートブックの URL
https://<databricks-instance>/?o=<16-digit-workspace-ID>#notebook/<16-digit-object-ID>/command/<16-digit-command-ID>
フォルダー (ワークスペースと Git) の URL
https://<databricks-instance>/browse/folders/<16-digit-ID>?o=<16-digit-workspace-ID>
これらのリンクは、現在のパス内のフォルダー、ファイル、またはノートブックが Git プル コマンドで更新された場合、または削除されて同じ名前で再作成された場合に壊れる可能性があります。 ただし、ワークスペース パスに基づいてリンクを作成し、適切なアクセス レベルを持つ他の Databricks ユーザーと共有するには、次の形式のリンクに変更します。
https://<databricks-instance>/?o=<16-digit-workspace-ID>#workspace/<full-workspace-path-to-file-or-folder>
フォルダー、ノートブック、ファイルへのリンクを共有するには、 ?o=<16-digit-workspace-ID>
の後の URL 内のすべてをワークスペース ルートからのファイル、フォルダー、またはノートブックへのパスに置き換えます。 フォルダのURLを共有する場合は、元のURLから /browse/folders/<16-digit-ID>
も削除します。
ファイル パスを取得するには、共有するワークスペース内のフォルダー、ノートブック、またはファイルを右クリックしてコンテキスト メニューを開き、 [ URL / パスをコピー ] > [フル パス] を選択します。 コピーしたファイル パスの先頭に #workspace
を付加し、 ?o=<16-digit-workspace-ID>
の後に結果の文字列を追加して、上記の URL 形式と一致するようにします。
URLフォーミュレーションの例 #1: フォルダーのURL
ワークスペースフォルダの URL https://<databricks-instance>/browse/folders/1111111111111111?o=2222222222222222
を共有するには、URL から browse/folders/1111111111111111
部分文字列を削除します。 #workspace
を追加し、その後に共有するフォルダーまたはワークスペースオブジェクトへのパスを追加します。
この場合、ワークスペース パスはフォルダ ( /Workspace/Users/user@example.com/team-git/notebooks
) です。 ワークスペースから完全なパスをコピーした後、共有可能なリンクを構築できます。
https://<databricks-instance>/?o=2222222222222222#workspace/Workspace/Users/user@example.com/team-git/notebooks
URL 作成例 2: ノートブックの URL
ノートブックの URL https://<databricks-instance>/?o=1111111111111111#notebook/2222222222222222/command/3333333333333333
を共有するには、 #notebook/2222222222222222/command/3333333333333333
を削除します。 #workspace
を追加し、その後にフォルダまたはワークスペースオブジェクトへのパスを追加します。
この場合、ワークスペース パスはノートブックを指し /Workspace/Users/user@example.com/team-git/notebooks/v1.0/test-notebook
。 ワークスペースから完全なパスをコピーした後、共有可能なリンクを構築できます。
https://<databricks-instance>/?o=1111111111111111#workspace/Workspace/Users/user@example.com/team-git/notebooks/v1.0/test-notebook
これで、共有するファイル、フォルダー、またはノートブックのパスの安定した URL ができました。 URL と識別子の詳細については、「 ワークスペース オブジェクトの識別子を取得する」を参照してください。