Databricks Git フォルダー (Repos) を設定する
バージョン管理のために Databricks Git フォルダー (旧称 Repos) を設定する方法について説明します。 Databricks で Git フォルダーを設定すると、Databricks UI から、クローン、チェックアウト、コミット、プッシュ、プル、ブランチ管理などの一般的な Git 操作を実行できます。 また、Databricks でノートブックやファイルを使用して開発するときに、変更の差分を確認することもできます。
ユーザー設定の構成
Databricks Git フォルダーは、個人用アクセス トークン (PAT) または同等の資格情報を使用して、Git プロバイダーで認証し、クローン、プッシュ、プルなどの操作を実行します。 Git フォルダーを使用するには、まず Git PAT と Git プロバイダーのユーザー名を Databricks に追加する必要があります。 「Git 資格情報の構成とリモート リポジトリの Databricks への接続」を参照してください。
公開リモートリポジトリは、Git 認証情報 (個人用アクセストークンとユーザー名) なしでクローンできます。 パブリックリモートリポジトリを変更したり、プライベートリモートリポジトリをクローンまたは変更したりするには、Git プロバイダのユーザ名と、リモートリポジトリに対する 書き込み (またはそれ以上) の権限を持つ PAT が必要です。
Git フォルダーはデフォルトで有効になっています。 Git フォルダーのサポートを有効または無効にする方法の詳細については、「 Databricks Git フォルダー機能の有効化または無効化」を参照してください。
Databricks で Git 資格情報を追加または編集する
Databricks Git フォルダーは、ユーザーごと、ワークスペースごとに 1 つの Git 認証情報のみをサポートします。
-
画面の右上にあるアカウント名の横にある下矢印を選択し、[ 設定 ] を選択します。
-
[リンクされたアカウント] タブを選択します。
-
初めて認証情報を追加する場合は、画面の指示に従ってください。
以前に資格情報を入力した場合は、[ Config] > [Edit ] をクリックして次の手順に進みます。
-
[Git プロバイダー] ドロップダウンで、プロバイダー名を選択します。
-
Gitユーザー名またはEメールを入力します。
-
[トークン ] フィールドに、Git プロバイダーからの個人用アクセス トークン (PAT) またはその他の資格情報を追加します。詳細については、「Git 資格情報の構成とリモート リポジトリの Databricks への接続」を参照してください。
Databricks では、すべての個人用アクセス トークンに有効期限を設定することをお勧めします。
Azure DevOps の場合、Git 統合は Microsoft Entra ID トークンをサポートしていません。 Azure DevOps 個人用アクセス トークンを使用する必要があります。 「DevOps トークンを使用して Azure DevOps プロジェクトに接続する」を参照してください。
Organization で GitHub で SAML SSO が有効になっている場合は、 SSO の個人用アクセス トークンを承認します。 7. [Git プロバイダーのユーザー名 ] フィールドにユーザー名を入力します。
- [ 保存 ]をクリックします。
Databricks Repos API を使用して、Git PAT トークンとユーザー名を Databricks に保存することもできます。
Databricks Git フォルダーと Git プロバイダー間のネットワーク接続
Git フォルダーが機能するには、Git プロバイダーへのネットワーク接続が必要です。 通常、これはインターネット経由で行われ、箱から出してすぐに機能します。 ただし、アクセスを制御するために Git プロバイダーに追加の制限を設定している場合があります。 たとえば、IP 許可リストを設定している場合や、GitHub Enterprise (GHE)、Bitbucket Server (BBS)、Gitlab Self-managed などのサービスを使用して独自のオンプレミス Git サーバーをホストしている場合があります。 ネットワークのホスティングと構成によっては、インターネット経由でGitサーバーにアクセスできない場合があります。
- Git サーバーがインターネットにアクセスできるが、 GitHub 許可リストなどの IP 許可リストがある場合は、Databricks コントロール プレーン NAT IP を Git サーバーの IP 許可リストに追加する必要があります。 リージョン別のコントロール プレーン NAT IP アドレスの一覧については、「 Databricks クラウドとリージョン 」を参照してください。 Databricks ワークスペースがあるリージョンの IP を使用します。
- Git サーバーをプライベートにホストしている場合は、「 Databricks Git フォルダー (Repos) のプライベート Git 接続を設定する 」を読むか、アクセスのオンボード手順について、Databricks アカウント チームにお問い合わせください。
Git フォルダーのセキュリティ機能
Databricks Git フォルダーには多くのセキュリティ機能があります。 次のセクションでは、その設定と使用方法について説明します。
- 暗号化された Git 資格情報の使用
- 許可リスト
- ワークスペースのアクセス制御
- シークレット検出
使用を許可リスト内のURLに制限する
ワークスペース管理者は、ユーザーがクローン作成してコミットおよびプッシュできるリモートリポジトリを制限できます。 これにより、コードの流出を防ぐことができます。たとえば、許可リストの制限がオンになっている場合、ユーザーは任意のリポジトリにコードをプッシュできません。 また、クローン操作を許可されたリポジトリのリストに制限することで、ユーザーがライセンスのないコードを使用するのを防ぐこともできます。
許可リストを設定するには:
-
設定ページに移動します。
-
[ワークスペース管理 ]タブをクリックします(デフォルトでは開いています)。
-
[開発 ] セクションで、 Git URL 許可リストのアクセス許可 からオプションを選択します。
- 無効 (制限なし): 許可リストに対するチェックはありません。
- Restrict Clone, commit, and Push to Allowed Git Repositories : クローン、コミット、およびプッシュ操作は、許可リスト内のリポジトリ URL に対してのみ許可されます。
- Only Restrict commit & Push to Allowed Git Repositories : コミット操作とプッシュ操作は、許可リスト内のリポジトリ URL に対してのみ許可されます。 クローン作成とプルの操作は制限されません。
-
「Git URL許可リスト:空のリスト 」の横にある 「編集 」ボタンをクリックし、URLプレフィックスのカンマ区切りリストを入力します。
-
[ 保存 ]をクリックします。
- 保存したリストは、保存された URL プレフィックスの既存のセットを上書きします。
- 変更が反映されるまでに最大15分かかることがあります。
すべてのリポジトリへのアクセスを許可する
既存の許可リストを無効にして、すべてのリポジトリへのアクセスを許可するには:
- 設定ページに移動します。
- 「ワークスペース管理 」タブをクリックします。
- [開発 ] セクションの [Git URL 許可リストのアクセス許可 ] で、[ 無効にする (制限なし)] を選択します。
ワークスペース内のリポジトリへのアクセスを制御する
アクセス制御は 、プレミアムプランでのみ使用できます。
リポジトリのアクセス許可を設定してアクセスを制御します。 リポジトリの権限は、そのリポジトリ内のすべてのコンテンツに適用されます。 ファイルには、NO PERMISSIONS、CAN READ、CAN RUN、CAN EDIT、CAN MANAGEの 5 つの権限レベルを割り当てることができます。
Git フォルダーのアクセス許可の詳細については、「 Git フォルダーの ACL」を参照してください。
(オプション)エンタープライズ Git サーバーのプロキシを設定する
会社で GitHub Enterprise や Azure DevOps Server などのオンプレミスのエンタープライズ Git サービスを使用している場合は、 Databricks Git Server プロキシ を使用して、Databricks ワークスペースをサービスを提供するリポジトリに接続できます。
監査ログ
監査ログが有効になっている場合、Git フォルダーを操作するときに監査イベントがログに記録されます。たとえば、Git フォルダーを作成、更新、または削除したとき、ワークスペースに関連付けられているすべての Git フォルダーを一覧表示したとき、Git フォルダーとリモート Git リポジトリ間で変更を同期したとき、監査イベントがログに記録されます。
シークレット検出
Git フォルダーは、プレフィックス AKIA
で始まるアクセス キー ID のコードをスキャンし、コミットする前にユーザーに警告します。
リポジトリ設定ファイルを使用する
各ノートブックの設定は、手動で作成した .databricks/commit_outputs
ファイルの リポジトリに追加できます。
出力を含めるノートブックを 、gitignore パターンに似たパターンを使用して指定します。
リポジトリ設定ファイルのパターン
ファイルには、正と負のファイルパスパターンが含まれています。 ファイルパスパターンには、 .ipynb
などのノートブックファイル拡張子が含まれます。
- 正のパターンにより、一致するノートブックに出力を含めることができます。
- 負のパターンは、一致するノートブックの出力インクルードを無効にします。
パターンは、すべてのノートブックに対して順番に評価されます。 無効なパスや .ipynb
ノートブックに解決されないパスは無視されます。
ノートブックのパスfolder/innerfolder/notebook.ipynb
からの出力を含めるには 、次のパターンを使用します。
**/*
folder/**
folder/innerfolder/note*
ノートブックの出力を除外するには、 正のパターンが一致しないことを確認するか、構成ファイルの正しい場所に負のパターンを追加します。 ネガティブ(除外)パターンは !
で始まります。
!folder/innerfolder/*.ipynb
!folder/**/*.ipynb
!**/notebook.ipynb
Gitフォルダをゴミ箱に移動(削除)
ワークスペースから Git フォルダーを削除するには:
-
Git フォルダーを右クリックし、[ ごみ箱に移動 ] を選択します。
-
ダイアログボックスで、削除するGitフォルダの名前を入力します。 次に、「 確認してゴミ箱に移動 」をクリックします。