ワークスペースオブジェクトの概要

この記事では、Databricksワークスペースオブジェクトの概要を説明します。ワークスペースブラウザでは、複数のペルソナにわたってワークスペースオブジェクトを作成、表示、整理できます。

ワークスペースアセットの命名に関する注意

ワークスペース アセットの完全な名前は、ベース名ファイル拡張子で構成されます。 たとえば、ノートブックのファイル拡張子は、ノートブックの言語と形式に応じて、 .py.sql.scala.r.ipynbになります。

ノートブック アセットを作成するときは、そのベース名とフル ネーム (ベース名とファイル拡張子を連結したもの) は、ワークスペース フォルダー内で一意である必要があります。 アセットに名前を付けると、Databricks はファイル拡張子を追加して、この条件を満たしているかどうかを確認します。 フルネームがフォルダ内の既存のファイルと一致する場合、その名前は許可されないため、新しいノートブック名を選択する必要があります。 たとえば、test.pyという名前の Python ファイルと同じフォルダーに test という名前の Python ノートブック (Python ソース形式) を作成しようとすると、許可されません。

クラスター

Databricks データサイエンス & エンジニアリング と Databricks Mosaic AI クラスターは、実行中の本番運用 ETL パイプライン、ストリーミング分析、アドホック アナリティクス、機械学習など、さまざまなユースケースに対応する統合プラットフォームを提供します。 クラスターは、 Databricks コンピュート リソースの一種です。 その他のコンピュート リソースの種類には、DatabricksSQL ウェアハウス があります。

クラスターの管理と使用の詳細については、「 コンピューティング」を参照してください。

ノートブック

ノートブックは、ファイルや視覚化、説明テキストを操作する一連の実行可能なセル (コマンド) を含むドキュメントへの Web ベースのインターフェイスです。 コマンドは、以前に実行された 1 つ以上のコマンドの出力を参照して、連続して実行できます。

ノートブックは、Databricksでコードを実行するためのメカニズムのひとつです。もうひとつのメカニズムはジョブです。

ノートブックの管理と使用の詳細については、Databricksノートブックの概要を参照してください。

ジョブ

ジョブは、Databricksでコードを実行するためのメカニズムのひとつです。もうひとつのメカニズムはノートブックです。

ジョブの管理と使用に関する詳細な情報については、「 ワークフローのスケジュールと調整」を参照してください。

ライブラリ

ライブラリを使用すると、クラスター上で実行されているノートブックやジョブでサードパーティやローカルで構築されたコードを利用できるようになります。

ライブラリの管理と使用の詳細については、 ライブラリを参照してください。

データ

Databricksワークスペースにマウントされた分散ファイルシステムにデータをインポートし、Databricksノートブックおよびクラスターでそのデータを作業することができます。さまざまなApache Sparkデータソースを使用して、データにアクセスすることもできます。

データの読み込みに関する詳細については、「 Databricks レイクハウスへのデータの取り込み」を参照してください。

ファイル

プレビュー

この機能はパブリックプレビュー段階です。

Databricks Runtime 11.3 LTS 以降では、Databricks ワークスペースで任意のファイルを作成して使用できます。 ファイルの種類は任意です。 一般的なファイルタイプの例は次のとおりです。

  • .py カスタムモジュールで使用されるファイル。

  • .md ファイル(README.mdなど)。

  • .csv またはその他の小さなデータファイル。

  • .txt ファイル。

  • ログファイル。

ファイルの使用に関する詳細な情報については、「 Databricks でのファイルの操作」を参照してください。 Databricks ノートブックで開発するときにファイルを使用してコードをモジュール化する方法については、「Databricks ノートブック間でコードを共有する」を参照してください。

Git フォルダー

Git フォルダーは Databricks フォルダーであり、その内容はリモート Git リポジトリに同期することによって一緒にバージョン管理されます。 Databricks Git フォルダーを使用すると、Databricks でノートブックを開発し、コラボレーションとバージョン管理にリモート Git リポジトリを使用できます。

リポジトリの使用に関する詳細な情報については、「 フォルダーのGit 統合DatabricksGit 」を参照してください。

モデル

モデルとは、MLflow Model Registryに登録されているモデルを指します。モデルレジストリは、MLflowモデルのライフサイクル全体を管理できる一元化されたモデルストアです。時系列のモデル系譜、モデルのバージョン管理、ステージ遷移、モデルとモデルバージョンの注釈と説明を提供します。

モデルの管理と使用に関する詳細については、「 Unity Catalogでモデルのライフサイクルを管理する」を参照してください。

エクスペリメント

MLflow エクスペリメントは、MLflow機械学習モデル トレーニング 実行の組織とアクセス制御の主要単位です。すべての MLflow 実行はエクスペリメントに属します。 各エクスペリメントでは、実行を視覚化、検索、比較したり、アーティファクトやメタデータをダウンロードして実行したりして、他のツールで解析することができます。

エクスペリメントの管理と使用に関する詳細については、MLflowエクスペリメントを使用してトレーニングの実行を整理するを参照してください。

クエリー

クエリは、データを操作できる SQL ステートメントです。 詳細については、「 保存されたクエリへのアクセスと管理」を参照してください。

ダッシュボード

ダッシュボードは、クエリの視覚化と解説のプレゼンテーションです。 「 ダッシュボード」 または 「レガシーダッシュボード」を参照してください。

アラート

アラートは、クエリーによって返されたフィールドがしきい値に達したことを知らせる通知です。 詳細については、「 Databricks SQL アラートとは」を参照してください。

ワークスペースオブジェクトへの参照

これまで、ユーザーは一部の Databricks APIs (%sh) に対しては /Workspace パス プレフィックスを含める必要がありましたが、他のもの (%run、REST API 入力) に対しては必要ありませんでした。

ユーザーは、どこでも/Workspace接頭辞が付いたワークスペース パスを使用できます。 /Workspaceプレフィックスのないパスへの古い参照はリダイレクトされ、引き続き機能します。 すべてのワークスペース パスには、ボリューム パスや DBFS パスと区別するために、 /Workspaceプレフィックスを付けることをお勧めします。

一貫した/Workspaceパス接頭辞の動作の前提条件は次のとおりです。ワークスペースのルート レベルに/Workspaceフォルダーが存在してはなりません。 ルート レベルに/Workspaceフォルダーがあり、この UX 改善を有効にしたい場合は、作成した/Workspaceフォルダーを削除するか名前を変更し、Databricks アカウント チームにお問い合わせください。

ファイル、フォルダ、ノートブックの URL を共有する

Databricks ワークスペースでは、ワークスペース ファイル、ノートブック、フォルダーへの URL は次の形式になります。

ワークスペースファイルの URL

  https://<databricks-instance>/?o=<16-digit-workspace-ID>#files/<16-digit-object-ID>

ノートブックの URL

  https://<databricks-instance>/?o=<16-digit-workspace-ID>#notebook/<16-digit-object-ID>/command/<16-digit-command-ID>

フォルダ(ワークスペースと Git)の URL

  https://<databricks-instance>/browse/folders/<16-digit-ID>?o=<16-digit-workspace-ID>

現在のパス内のフォルダー、ファイル、またはノートブックが Git プル コマンドで更新されたり、削除されて同じ名前で再作成されたりすると、これらのリンクが壊れる可能性があります。 ただし、次の形式のリンクに変更することで、ワークスペース パスに基づいてリンクを作成し、適切なアクセス レベルを持つ他の Databricks ユーザーと共有することができます。

  https://<databricks-instance>/?o=<16-digit-workspace-ID>#workspace/<full-workspace-path-to-file-or-folder>

フォルダー、データベース、ファイルへのリンクは、URL 内の?o=<16-digit-workspace-ID>の後のすべてをワークスペース ルートからのファイル、フォルダー、またはデータベースへのパスに置き換えることで共有できます。 フォルダの URL を共有している場合は、元の URL からも URL を削除し /browse/folders/<16-digit-ID>

ファイル パスを取得するには、共有するワークスペース内のフォルダー、ノートブック、またはファイルを右クリックしてコンテキスト メニューを開き、 [URL/パスのコピー] > [フル パス]を選択します。 コピーしたファイル パスの先頭に#workspaceを追加し、結果の文字列を?o=<16-digit-workspace-ID>の後に追加して、上記の URL 形式と一致させます。

ワークスペース フォルダーのコンテキスト メニューから [URL パスのコピー] を選択し、続いて [フル パス] を選択します。

URL の定式化の例 #1: フォルダー URL

ワークスペース フォルダー URL https://<databricks-instance>/browse/folders/1111111111111111?o=2222222222222222を共有するには、URL からbrowse/folders/1111111111111111サブ文字列を削除します。 #workspaceを追加し、その後に共有するフォルダーまたはワークスペース オブジェクトへのパスを追加します。

この場合、ワークスペース パスはフォルダー/Workspace/Users/user@example.com/team-git/notebooksになります。 ワークスペースから完全なパスをコピーしたら、共有可能なリンクを作成できます。

  https://<databricks-instance>/?o=2222222222222222#workspace/Workspace/Users/user@example.com/team-git/notebooks

URL 作成例 2: ノートブック URL

ノートブック URL https://<databricks-instance>/?o=1111111111111111#notebook/2222222222222222/command/3333333333333333を共有するには、 #notebook/2222222222222222/command/3333333333333333を削除してください。 #workspaceを追加し、その後にフォルダーまたはワークスペース オブジェクトへのパスを追加します。

この場合、ワークスペース パスはノートブックを指し /Workspace/Users/user@example.com/team-git/notebooks/v1.0/test-notebook。 ワークスペースから完全なパスをコピーした後、共有可能なリンクを構築できます。

  https://<databricks-instance>/?o=1111111111111111#workspace/Workspace/Users/user@example.com/team-git/notebooks/v1.0/test-notebook

これで、共有するファイル、フォルダー、またはノートブック パスの安定した URL ができました。 URL と識別子の詳細については、 「ワークスペース オブジェクトの識別子を取得する」を参照してください。