メインコンテンツまでスキップ

Databricks Git フォルダーの Git 統合

Databricks Git フォルダーは、Databricks のビジュアル Git クライアントおよび API です。 リポジトリのクローン作成、コミットとプッシュ、プル、ブランチ管理、コミット時の差分の視覚的な比較など、一般的な Git 操作をサポートしています。

Gitフォルダ内では、ノートブックやその他のファイルでコードを開発し、バージョン管理、コラボレーション、およびGit CI/CDのための を使用して、データサイエンスとエンジニアリングのコード開発のベストプラクティスに従うことができます。

注記

Git フォルダー (Repos) は、主にオーサリングとコラボレーション ワークフロー用に設計されています。

Databricks Git フォルダーで何ができますか?

Databricks Git フォルダーは、Git プロバイダーと統合することで、データと AI プロジェクトのソース管理を提供します。

Databricks Git フォルダーでは、Git 機能を使用して次のことができます。

  • リモートGitリポジトリのクローン作成、プッシュ、プルを行います。
  • マージ、リベース、競合の解決などの開発作業のためのブランチの作成と管理を行います。
  • ノートブック ( ipynb ノートブックを含む) を作成し、それらと他のファイルを編集します。
  • コミット時に差分を視覚的に比較し、マージの競合を解決します。

詳細な手順については、「 Databricks Git フォルダー (Repos) で Git 操作を実行する」を参照してください。

注記

Databricks Git フォルダーには、CI/CD パイプラインと統合できる API もあります。 たとえば、Databricks リポジトリをプログラムで更新して、常に最新バージョンのコードを持つようにすることができます。 フォルダーを使用したコード開発のベスト プラクティスについては、「DatabricksGit フォルダーとフォルダーを使用したCI/CD 手法Git DatabricksGitRepos() を参照してください。

Databricksでサポートされているノートブックの種類については、「Databricks ノートブックのエクスポートとインポート」を参照してください。

サポートされている Git プロバイダー

Databricks Git フォルダーは、統合された Git リポジトリによってサポートされます。 リポジトリは、次のセクションに記載されているクラウドおよびエンタープライズ Git プロバイダーのいずれかでホストできます。

注記

「Gitプロバイダー」とは何ですか?

「Git プロバイダー」は、Git に基づくソース管理モデルをホストする特定の (名前付き) サービスです。 Git ベースのソース管理プラットフォームは、開発会社がホストするクラウド サービスとして、または自社のハードウェアにインストールして管理するオンプレミス サービスとして、2 つの方法でホストされます。 GitHub、Microsoft、GitLab、Atlassian などの多くの Git プロバイダーは、クラウドベースの SaaS とオンプレミス (「セルフマネージド」と呼ばれることもあります) の両方の Git サービスを提供しています。

構成時に Git プロバイダーを選択するときは、クラウド (SaaS) とオンプレミスの Git プロバイダーの違いに注意する必要があります。 オンプレミス ソリューションは通常、会社の VPN の背後でホストされ、インターネットからアクセスできない場合があります。 通常、オンプレミスの Git プロバイダーの名前は "Server" または "Self-Managed" で終わりますが、不明な場合は、会社の管理者に問い合わせるか、Git プロバイダーのドキュメントを確認してください。

Git プロバイダーがクラウドベースで、サポートされているプロバイダーとしてリストされていない場合、プロバイダーとして "GitHub" を選択することは機能する可能性がありますが、保証されるわけではありません。

注記

プロバイダーとして "GitHub" を使用していて、クラウド バージョンとオンプレミス バージョンのどちらを使用しているかがまだわからない場合は、GitHub ドキュメントのGitHub Enterprise Server について を参照してください。

Databricks がサポートする Cloud Git プロバイダー

  • GitHub、GitHub AE、および GitHub Enterprise Cloud

  • アトラシアン Bitbucket クラウド

  • GitLabおよびGitLab EE

  • Microsoft Azure DevOps (Azure Repos)

  • AWS CodeCommit

Databricks がサポートするオンプレミスの Git プロバイダー

  • GitHubエンタープライズサーバー
  • Atlassian Bitbucket Server および Data Center
  • GitLabセルフマネージド
  • Microsoft Azure DevOps Server: ワークスペース管理者は、URL が dev.azure.com/* または visualstudio.com/*と一致しない場合、Microsoft Azure DevOps Server の URL ドメイン プレフィックスを明示的に許可リストに登録する必要があります。 詳細については、「許可リスト内の URL に使用を制限する」を参照してください

インターネットからアクセスできないオンプレミスの Git リポジトリを統合する場合は、Git 認証要求のプロキシも会社の VPN 内にインストールする必要があります。 詳細については、「 Databricks Git フォルダー (Repos) のプライベート Git 接続を設定する」を参照してください。

Git プロバイダーでアクセス トークンを使用する方法については、「 Git 資格情報の構成とリモート リポジトリの Databricks への接続」を参照してください。

Git 統合のリソース

Databricks CLI 2.0 を使用して、Git と Databricks の統合を行います。

次のリファレンス ドキュメントをお読みください。

次のステップ