メインコンテンツまでスキップ

Databricks Reposはどうなりましたか?

Databricks 、ユーザーがワークスペースUIからリポジトリにバックアップされたフォルダを直接操作できる新しいユーザーインターフェイス要素 Git ロールアウトし、以前の個別の「Repos」機能を効果的に置き換えました。

この変更は私にとって何を意味しますか?

プロジェクト資産の共同バージョン管理された Git ベースのソース管理のための Databricks Repos 機能のユーザーである場合、コア機能は変更されていません。 最も顕著な違いは、多くのコンテキスト UI 操作が "Repos" ではなく "Git folders" を参照するようになったことです。

たとえば、Git リポジトリによってサポートされる Databricks フォルダーを作成するには、UI から [ 新規 ] を選択し、次に [リポジトリ ] を選択します。

" リポジトリ " を参照するのに使用される " New " メニューオプション

次に、[ 新規 ] を選択し、[ Git フォルダー ] を選択します。 同じこと、名前が違う!

「新規」メニューオプションで、「Gitフォルダ」を作成するように求められます

この変更により、バージョン管理されたフォルダーの操作を簡略化するいくつかの改善が提供されます。

  1. フォルダの整理の改善 : Git フォルダは、ワークスペース ファイル ツリーの任意のレベルで作成できるため、プロジェクトに最適な方法で Git フォルダを整理できます。 たとえば、 /Workspace/Users/<user email>/level_1/level_2/level_3/<Git folder name>で Git フォルダーを作成できます。 Repos は、 /Workspace/Repos/<user email>/<Repo name>のような Repos ユーザーフォルダーのルートなど、固定ディレクトリレベルでのみ作成できます。

    • 注: Git フォルダーには、現在の Repos でサポートされていない他のアセットが含まれていたり、他のアセットと併置されたりすることがあります。 DBSQL アセットや MLflow エクスペリメントなど、サポートされていないアセットの種類は、 Git フォルダーに移動できます。 追加のアセットのシリアル化サポートは、今後追加される予定です。
  2. UI の動作の簡素化 : この変更により、Git を使用した一般的なワークスペースの操作が Databricks ワークスペースに直接導入され、ワークスペースとバージョン管理された Git フォルダー間の移動に費やす時間が短縮されます。

具体的には何が変わったのですか?

  1. Git フォルダーは、 /Repos ディレクトリの外部に作成できます。
  2. Git フォルダーを作成するには、Databricks ワークスペースで [ 新規 ] > [Git フォルダー ] を選択します。 これにより、新しい Git フォルダが /Workspace/Users/<user-email>/の下に作成されます。
  3. Git フォルダーは、ワークスペース ファイル ツリーのさまざまな深さに作成できます /Workspace/Users/<user-email>。 たとえば、 /Workspace/Users/<user-email>/level_1/level_2/level_3/<git-folder-name>で Git フォルダーを作成できます。 /Workspace/Users/<user-email>の下に複数の Git フォルダーを持つことができます。
  4. サポートされていないアセット は、Git フォルダーで許可されます。 他のアセット タイプのシリアル化サポートは、今後追加される予定です。
  5. Reposとは異なり、Databricksで新しいGitフォルダーを作成するには、リモートリポジトリURLが必要です。

現在のReposはどうなりますか?

Databricks ワークスペースに Repos が定義されている場合、それらはなくなる ことはなく 、それらの既存の Repos を Git フォルダーに移行する必要はありません。 代わりに、Repos は Databricks ワークスペースのユーザー インターフェイスに統合され、最上位の Repo ノードの下に整理された個別のフォルダー セットとして表示されなくなりました。 これらは現在、/Workspaceルートフォルダの下に次のように配置されています/Workspace/Repos

  • 既存の /Repos 参照は引き続き機能します。 /Repos または /Workspace/Repos で始まるパスは同じフォルダーを参照し、jobsdbutils.notebook.run、および %run 参照で宣言されたパスは変更されません。
  • まれに、このリダイレクトを機能させるために、ワークスペースで 1 回限りの変更を行う必要があります。 この変更の詳細については、 ワークスペース オブジェクトへの参照を参照してください。

Databricks では、Databricks ワークスペースから Git ソース管理に接続する必要がある場合は、Repos ではなく新しい Git フォルダーを作成することをお勧めします。 Git リポジトリとその他のワークスペース資産を併置すると、Git フォルダーは Repos よりも見つけやすく、管理しやすくなります。

Git フォルダの権限 Git フォルダーには、他のワークスペース フォルダーと同じ ワークスペース フォルダーのアクセス許可 があります。 ほとんどの Git 操作を実行するには、ユーザーが CAN_MANAGE アクセス許可を持っている必要があります。

Git フォルダでコードを実行するためにどの DBR を使用すべきですか?

Git フォルダーと従来の Repos 間で一貫したコード実行を行うために、Databricks では、DBR 15+ の Git フォルダーでのみコードを実行することをお勧めします。

現在の作業ディレクトリ (CWD) の動作

Databricks Runtime (DBR) バージョン 14 以降では、相対パスの使用が許可され、現在の作業ディレクトリからノートブックを実行するすべてのノートブックに対して同じ 現在の作業ディレクトリ (CWD) エクスペリエンス が提供されます。 Git フォルダー内のノートブックと、以前のバージョンの Databricks Runtime (DBR) の非 Git フォルダーでは、現在の作業ディレクトリ (CWD) の動作に一貫性がない可能性があります。

Python sys.path の動作

Databricks Runtime (DBR) バージョン 14.3 以降では、Git フォルダーでの sys.path 動作は従来の Reposと同じです。 以前の DBR バージョンでは、ルート リポジトリ ディレクトリが Git フォルダーの sys.path に自動的に追加されないため、Git フォルダーの動作は従来の Repos とは異なります。 Python の場合、 sys.path には、モジュールのインポート時にインタプリタが検索するディレクトリのリストが含まれています。 DBR 15 以降を使用できない場合は、回避策として sys.path にフォルダー パスを手動で追加できます。

相対パスを使用してディレクトリを sys.path に追加する方法の例については、「 Python モジュールと R モジュールのインポート」を参照してください。

Python ライブラリの優先順位

Databricks Runtime (DBR) バージョン 14.3 以降では、従来の Repos と同じ Python ライブラリの優先順位 が Git フォルダーで提供されます。