メインコンテンツまでスキップ

Databricks での開発

Databricks 開発者ユーザーには、 データサイエンティスト、データエンジニア、データアナリスト、機械学習エンジニア、 DevOps および MLOps エンジニアが含まれ、全員が特定のニーズに合わせて Databricks を拡張およびカスタマイズするためのソリューションと統合を構築しています。 ワークスペースで利用できる多くのDatabricks APIおよびデータエンジニアリング機能に加えて、Databricksの開発者ユーザーをサポートするDatabricksに接続してローカルで開発するための多くのツールもあります。

この記事では、Databricks開発者ユーザーが利用できるAPIとツールの概要について説明します。

ワークスペースでコーディングを開始する

ワークスペースでの開発は、 Databricks APIsにすばやく慣れるための優れた方法です。 Databricks は、Python、SQL、Scala、R、および便利なツールやユーティリティなど、開発者向けのワークスペース機能をサポートしています。

ここでは、いくつかの方法をご紹介します。

カスタムアプリとソリューションの構築

Databricks には、ワークスペース開発とローカル開発の両方のためのツールが用意されています。 ワークスペースでは、UI を使用してアプリを作成でき、Unity Catalog ボリュームとワークスペース ファイルでデータに簡単にアクセスでき、デバッグ用の Databricks Assistant などのワークスペースのみの機能が利用可能で、ノートブックなどの他の機能はすべて利用可能で、Git フォルダーでソース管理を利用できます。

または、ローカル コンピューター上の IDE を使用してカスタム ソリューションを開発し、豊富な開発環境のすべての機能を利用できます。 ローカル開発はより 広範な言語をサポートしているため、デバッグやテストフレームワークなどの言語依存の機能を使用して、大規模なプロジェクトをサポートし、ソース管理に直接アクセスできます。

ツールの使用に関する推奨事項については、どの開発者ツールを使用すべきかを参照してください。

機能

説明

認証と承認

ツール、スクリプト、アプリが Databricks と連携するように認証と承認を構成します。

Databricks Apps

Databricksプラットフォーム上で安全なデータとAIカスタムアプリケーションを作成し、他のユーザーと共有することができます。

DatabricksのVisual Studio Code拡張機能

Databricksリソースを管理するためにDatabricksワークスペースやUIに簡単な設定で接続し、Visual Studio CodeからリモートのDatabricksワークスペースに接続します。

PyCharm Databricksプラグイン

Databricksリモート ワークスペースへの接続を構成し、Databricks から クラスターでファイルを実行します。PyCharmこのプラグインは、JetBrains が Databricks と提携して開発および提供しています。

Databricks SDK

DatabricksSDKを直接呼び出すのではなく、 を使用してRESTAPIs との対話を自動化します。SDK はワークスペースでも使用できます。

Databricks に接続する

Databricks への接続は、多くの統合とソリューションに必要なコンポーネントであり、Databricks にはさまざまな接続ツールが用意されています。 次の表に、開発環境とプロセスを Databricks ワークスペースとリソースに接続するためのツールを示します。

機能

説明

Databricks Connect

PyCharm、IntelliJ IDEA、Eclipse、RStudio、JupyterLabなどの一般的な統合開発環境(IDE)を使用してDatabricksに接続します。

DatabricksのVisual Studio Code拡張機能

Databricks ワークスペースへの接続の簡単な構成と、Databricks リソースを管理するための UI。

SQL ドライバーとツール

Databricks に接続して、SQL コマンドやスクリプトを実行したり、Databricks とプログラムで対話したり、Python、Go、JavaScript、TypeScript などの一般的な言語で記述されたアプリケーションに Databricks SQL 機能を統合したりできます。

ヒント

また、多くの一般的なサードパーティ ツールをクラスターや SQLウェアハウスに接続して、 Databricksのデータにアクセスすることもできます。 技術パートナーを参照してください。

インフラストラクチャとリソースの管理

インフラストラクチャとリソースのプロビジョニングと管理を自動化するために CI/CD パイプラインを構築する開発者とデータ エンジニアは、単純なパイプライン シナリオとより複雑なパイプライン シナリオをサポートする次のツールから選択できます。

ツールの使用に関する推奨事項については、どの開発者ツールを使用すべきかを参照してください。

機能

説明

Databricks CLI

Databricks コマンドライン インターフェイス (CLI) を使用して、Databricks 機能にアクセスします。 CLI は Databricks REST API をラップするため、curl または Postman を使用して REST API 呼び出しを直接送信する代わりに、Databricks CLI を使用して Databricks と対話できます。 ローカルターミナルから CLI を使用するか、ワークスペース Webターミナルから使用します。

Databricksアセットバンドル

Databricks CLI の機能である Databricks Asset Bundle を使用して、データと AI プロジェクトの業界標準の開発、テスト、デプロイのベストプラクティスを使用して、Databricks リソースと CI/CD パイプラインを定義および管理します。

Databricks Terraform プロバイダーDatabricks の Terraform CDKTF

Databricks のインフラストラクチャとリソースを Terraform を使用してプロビジョニングします。

CI/CD ツール

GitHub ActionsJenkinsApache Airflow などの一般的な CI/CD システムとフレームワークを統合します。

共同作業とコードの共有

ワークスペースの他の多くのコラボレーション機能の中でも、Databricks は、ワークスペースでコラボレーションしてコードを共有したい開発者ユーザーを特にサポートします。

機能

説明

UDF

UDF(ユーザー定義関数)を開発して、コードを再利用および共有します。

Gitフォルダ

Git フォルダーを、Databricks プロジェクト ファイルへのバージョン管理とソース管理のコントリビューションに構成します。

Databricks 開発者コミュニティに参加する

Databricks には活発な開発者コミュニティがあり、次のプログラムとリソースによってサポートされています。