メインコンテンツまでスキップ

Databricks での開発

Databricks 開発者ユーザーには、 データサイエンティスト、データエンジニア、データアナリスト、機械学習エンジニア、 DevOps および MLOps エンジニアが含まれ、全員が特定のニーズに合わせて Databricks を拡張およびカスタマイズするためのソリューションと統合を構築しています。 ワークスペースで利用できる多くのDatabricks APIおよびデータエンジニアリング機能に加えて、Databricksの開発者ユーザーをサポートするDatabricksに接続してローカルで開発するための多くのツールもあります。

この記事では、Databricks開発者ユーザーが利用できるAPIとツールの概要について説明します。

ワークスペースでコーディングを開始する

ワークスペースでの開発は、 Databricks APIにすばやく慣れるための優れた方法です。 Databricks は、Python、SQL、Scala、R、および便利なツールやユーティリティなど、開発者向けのワークスペース機能をサポートしています。

ここでは、いくつかの方法をご紹介します。

カスタムアプリとソリューションの構築

Databricks には、ワークスペース開発とローカル開発の両方のためのツールが用意されています。 ワークスペースでは、UI を使用してアプリを作成でき、Unity Catalog ボリュームとワークスペース ファイルでデータに簡単にアクセスでき、デバッグ用の Databricks Assistant などのワークスペースのみの機能が利用可能で、ノートブックなどの他の機能はすべて利用可能で、Git フォルダーでソース管理を利用できます。

または、ローカル コンピューター上の IDE を使用してカスタム ソリューションを開発し、豊富な開発環境のすべての機能を利用できます。 ローカル開発はより 広範な言語をサポートしているため、デバッグやテストフレームワークなどの言語依存の機能を使用して、大規模なプロジェクトをサポートし、ソース管理に直接アクセスできます。

ツールの使用に関する推奨事項については、 「ローカル開発ツール」を参照してください。

機能

説明

認証と承認

ツール、スクリプト、アプリが Databricks と連携するように認証と承認を構成します。

DatabricksのVisual Studio Code拡張機能

Databricksリソースを管理するためにDatabricksワークスペースやUIに簡単な設定で接続し、Visual Studio CodeからリモートのDatabricksワークスペースに接続します。

PyCharm Databricksプラグイン

Databricksリモート ワークスペースへの接続を構成し、Databricks から クラスターでファイルを実行します。PyCharmこのプラグインは、JetBrains が Databricks と提携して開発および提供しています。

Databricks SDK

DatabricksSDKを直接呼び出すのではなく、 を使用してRESTAPI との対話を自動化します。SDK はワークスペースでも使用できます。

Databricks に接続する

Databricks への接続は、多くの統合とソリューションに必要なコンポーネントであり、Databricks にはさまざまな接続ツールが用意されています。 次の表に、開発環境とプロセスを Databricks ワークスペースとリソースに接続するためのツールを示します。

機能

説明

Databricks Connect

PyCharm、IntelliJ IDEA、Eclipse、RStudio、JupyterLabなどの一般的な統合開発環境(IDE)を使用してDatabricksに接続します。

DatabricksのVisual Studio Code拡張機能

Databricks ワークスペースへの接続の簡単な構成と、Databricks リソースを管理するための UI。

Databricks SSHトンネル

SSH トンネル経由で IDE をDatabricksコンピュートに接続します。

SQL ドライバーとツール

Databricks に接続して、SQL コマンドやスクリプトを実行したり、Databricks とプログラムで対話したり、Python、Go、JavaScript、TypeScript などの一般的な言語で記述されたアプリケーションに Databricks SQL 機能を統合したりできます。

ヒント

また、多くの一般的なサードパーティ ツールをクラスターや SQLウェアハウスに接続して、 Databricksのデータにアクセスすることもできます。 技術パートナーを参照してください。

インフラストラクチャとリソースの管理

開発者とデータ エンジニアは、次のツールから選択して、インフラストラクチャとリソースのプロビジョニングと管理を自動化できます。 これらのツールは、単純な CI/CD パイプライン シナリオと複雑な CI/CD パイプライン シナリオの両方をサポートします。

ツールの使用に関する推奨事項については、 「ローカル開発ツール」を参照してください。

機能

説明

Databricks CLI

Databricks コマンドライン インターフェイス (CLI) を使用して、Databricks 機能にアクセスします。 CLI は Databricks REST API をラップするため、curl または Postman を使用して REST API 呼び出しを直接送信する代わりに、Databricks CLI を使用して Databricks と対話できます。 ローカルターミナルから CLI を使用するか、ワークスペース Webターミナルから使用します。

Databricksアセットバンドル

Databricks CLI の機能である Databricks Asset Bundle を使用して、データと AI プロジェクトの業界標準の開発、テスト、デプロイのベストプラクティスを使用して、Databricks リソースと CI/CD パイプラインを定義および管理します。

Databricks Terraform プロバイダーDatabricks の Terraform CDKTF

Databricks のインフラストラクチャとリソースを Terraform を使用してプロビジョニングします。

CI/CD ツール

GitHub ActionsJenkinsApache Airflow などの一般的な CI/CD システムとフレームワークを統合します。

共同作業とコードの共有

ワークスペースの他の多くのコラボレーション機能の中でも、Databricks は、ワークスペースでコラボレーションしてコードを共有したい開発者ユーザーを特にサポートします。

機能

説明

UDF

UDF(ユーザー定義関数)を開発して、コードを再利用および共有します。

Gitフォルダ

Git フォルダーを、Databricks プロジェクト ファイルへのバージョン管理とソース管理のコントリビューションに構成します。

Databricks 開発者コミュニティに参加する

Databricks には活発な開発者コミュニティがあり、次のプログラムとリソースによってサポートされています。