Databricks Reposはどうなりましたか?

Databricks は、ユーザーが Workspace UI から Git リポジトリでバックアップされたフォルダーを直接操作できるようにする新しいユーザー インターフェイス要素を展開し、以前の個別の「 Repos 」機能を効果的に置き換えました。

この変更はどのような意味がありますか?

プロジェクト アセットのバージョン管理された Git ベースのソース管理のための Databricks Repos 機能のユーザーの場合、コア機能は変更されていません。 最も顕著な違いは、多くのコンテキスト UI 操作が「Repos」ではなく「Git フォルダー」を参照するようになったことです。

たとえば、Git リポジトリでバックアップされた Databricks フォルダーは、UI から[新規] を選択してから[リポジトリ] を選択することで作成できます。

「リポジトリ」を参照するために使用される「新規」メニュー オプション

ここで、 「新規」を選択し、 「Git フォルダー」を選択します。 同じこと、違う名前!

「新規」メニューオプションでは、「Git フォルダー」を作成するように求められます。

この変更により、バージョン管理されたフォルダーの操作が簡素化されるいくつかの機能強化が提供されます。

  1. フォルダー構成の改善: Git フォルダーはワークスペース ファイル ツリーのどのレベルでも作成できるため、プロジェクトに最適な方法で Git フォルダーを整理できます。 たとえば、 /Workspace/Users/<user email>/level_1/level_2/level_3/<Git folder name>に Git フォルダーを作成できます。 Repos /Workspace/Repos/<user email>/<Repo name> のようなReposユーザー フォルダのルートなど、固定ディレクトリ レベルでのみ作成できます。

    • 注: Git フォルダーには、現在 Repos でサポートされていない他のアセットを含めたり、それと併置したりできます。 DBSQL アセットや MLflow エクスペリメントなどのサポートされていないアセット タイプは、Git フォルダーに移動できます。 追加のアセットのシリアル化サポートは、時間の経過とともに追加される予定です。

  2. UI 動作の簡素化: この変更により、一般的なワークスペース インタラクション (Git との連携) が Databricks ワークスペースに直接導入され、ワークスペースとバージョン管理された Git フォルダー間の移動にかかる時間が短縮されます。

具体的には何が変わったのでしょうか?

  1. Git フォルダーは、 /Reposディレクトリの外部に作成できます。

  2. Git フォルダーは、Databricks ワークスペースで[新規作成] > [Git フォルダー]を選択して作成します。 これにより、 /Workspace/Users/<user-email>/の下に新しい Git フォルダーが作成されます。

  3. Git フォルダーは、 /Workspace/Users/<user-email>の下にある限り、ワークスペース ファイル ツリーのさまざまな深さに作成できます。 たとえば、 /Workspace/Users/<user-email>/level_1/level_2/level_3/<git-folder-name>に Git フォルダーを作成できます。 /Workspace/Users/<user-email>下に複数の Git フォルダーを置くことができます。

  4. サポートされていないアセットはGit フォルダー内で許可されます。 他のアセットタイプのシリアル化サポートは、時間の経過とともに追加される予定です。

  5. Repos とは異なり、リモート リポジトリ URL がないと Databricks に新しい Git フォルダーを作成できません。

現在のReposはどうなりますか?

Databricks ワークスペースに Repos が定義されている場合、それらはなくなる ことはなく 、それらの既存の Repos を Git フォルダーに移行する必要はありません。 代わりに、 Repos ワークスペース ユーザー インターフェイス Databricks 統合され、最上位の リポジトリ ノードの下に整理された個別のフォルダー セットとして表示されなくなりました。 これらは現在、/Workspaceルートフォルダの下に次のように配置されています/Workspace/Repos

  • 既存の /Repos 参照は引き続き機能します。 /Repos または /Workspace/Repos で始まるパスは同じフォルダーを参照し、jobsdbutils.notebook.run、および %run 参照で宣言されたパスは変更されません。

  • まれに、このリダイレクトを機能させるために、ワークスペースで 1 回限りの変更を行う必要があります。 この変更の詳細については、 ワークスペース オブジェクトへの参照を参照してください。

Databricks では、Databricks ワークスペースから Git ソース管理に接続する必要がある場合、Repos ではなく新しい Git フォルダーを作成することをお勧めします。 Git リポジトリと他のワークスペース アセットを同じ場所に配置すると、Git フォルダーがReposよりも見つけやすくなり、管理が容易になります。

Git フォルダーの権限Git フォルダーには、他のワークスペース フォルダーと同じワークスペース フォルダー権限があります。 ほとんどの Git 操作を実行するには、ユーザーはCAN_MANAGE権限を持っている必要があります。

Git フォルダー内のコードを実行するにはどの DBR を使用する必要がありますか?

Git フォルダーと従来の Repos 間で一貫したコード実行を行うために、Databricks では、DBR 15 以降の Git フォルダー内でのみコードを実行することをユーザーに推奨しています。

現在の作業ディレクトリ (CWD) の動作

Databricks Runtime (DBR) バージョン 14 以降では、相対パスの使用が許可され、すべての に対して同じ現在の作業ディレクトリ (CWD) エクスペリエンスが提供され、現在の作業ディレクトリから データ型を実行できます。 現在の作業ディレクトリ (CWD) の動作は、Git フォルダー内のノートブックと、古いバージョンの Databricks Runtime (DBR) の非 Git フォルダー間で一貫性がない可能性があります。

Python sys.path の動作

Databricks Runtime (DBR) バージョン 14.3 以降では、従来の Repos と同じsys.path動作が Git フォルダーで提供されます。 以前の DBR バージョンでは、ルート リポジトリ ディレクトリが Git フォルダーのsys.pathに自動的に追加されないため、Git フォルダーの動作は従来の Repos と異なります。 Python の場合、 sys.pathには、モジュールをインポートするときにインタープリターが検索するディレクトリのリストが含まれます。 DBR 15 以降を使用できない場合は、回避策としてフォルダー パスを sys.path に手動で追加できます。

相対パスを使用してディレクトリをsys.pathに追加する方法の例については、 「Python および R モジュールのインポート」を参照してください。

Python ライブラリの優先順位

Databricks Runtime (DBR) バージョン 14.3 以降では、従来の Repos と同じ Python ライブラリの優先順位 が Git フォルダーで提供されます。