Python 開発者向けの Databricks

このセクションでは、 PYthon言語を使用してDatabricksでノートブックとジョブを開発するためのガイド、一般的なワークフローとタスクのチュートリアル、API、ライブラリ、ツールへのリンクを提供します。

利用を開始するには以下の手順を踏みます。

コードのインポート: ファイルまたは Git リポジトリから独自のコードをインポートするか、以下のチュートリアルを試してください。 Databricks では、対話型の Databricks ノートブックを使用して学習することをお勧めします。
クラスターでコードを実行する: 独自のクラスターを作成するか、共有クラスターを使用するアクセス許可があることを確認します。ノートブックをクラスターにアタッチし、ノートブックを実行します。
その後、次の操作を実行できます。
- Apache Spark を使用した大規模なデータセットの操作
- 可視化を追加する
- ジョブとしてワークロードを自動化
- 機械学習を使用してデータを分析します
- IDEで開発

チュートリアル

以下のチュートリアルでは、一般的なワークフローについて学習するためのサンプルコードとノートブックを提供します。ノートブックの例をワークスペースにインポートする手順については、「ノートブックのインポート」を参照してください。

データエンジニアリング

チュートリアル: Apache Spark データフレームを使用したデータの読み込みと変換では、データの準備と分析のApache Spark データフレームについて学習するのに役立つチュートリアルを提供します。
チュートリアル: Delta Lake。
チュートリアル: チェンジデータキャプチャを使用してETLパイプラインを構築します。

データサイエンスと機械学習

データ準備と分析のためにApache Sparkデータフレームを使い始める: チュートリアル: Apache Sparkデータフレームを用いたデータのロードと変換
チュートリアル: Databricks 上のエンドツーエンドのクラシック ML モデル。その他の例については、 AI と機械学習のチュートリアルを参照してください。
AutoML を使用すると、独自のデータセットで機械学習モデルの開発をすぐに開始できます。そのグラスボックス型アプローチでは、完全な機械学習ワークフローを備えたノートブックが生成され、クローン作成、変更、再実行が可能です。
Unity Catalogでモデルのライフサイクルを管理する

Python ノートブックでのデバッグ

サンプルノートブックは、 DatabricksノートブックでPython デバッガー (pdb) を使用する方法を示しています。Python デバッガーを使用するには、Databricks Runtime 11.3 LTS 以降を実行している必要があります。

Databricks Runtime 12.2 LTS 以降では、変数エクスプローラーを使用して、ノートブック UI で Python 変数の現在の値を追跡できます。変数エクスプローラーを使用して、ブレークポイントをステップスルーするときにPython変数の値を観察できます。

Python デバッガーのサンプルノートブック

Open notebook in new tab

注記

breakpoint() は IPython ではサポートされていないため、Databricks ノートブックでは機能しません。breakpoint()の代わりに import pdb; pdb.set_trace() を使用できます。

Python API

Pythonの外部で実行されるコードは、通常、Databricks 内で実行でき、その逆も同様です。Databricks既存のコードがある場合は、それを Databricks にインポートするだけで開始できます。詳細については、以下の「ノートブックと Databricks Git フォルダーを使用してコードを管理する」を参照してください。

Databricks は、単一マシンと分散 Python ワークロードの両方を実行できます。単一マシンコンピューティングの場合、 Python APIとライブラリを通常どおり使用できます。たとえば、 PandasとScikit-Learn 「そのまま動作」します。分散 Python ワークロード向けに、Databricks は PySpark と PandasAPI on Spark という 2 つの一般的な API をすぐに使用できるように提供しています。

PySpark API

PySpark は、Apache Spark の公式 Python API であり、Python と Apache Spark のパワーを組み合わせています。PySpark Spark上のPandas APIよりも柔軟で、 Spark SQL 、構造化ストリーミング、 MLlib 、 GraphXなどのデータサイエンスおよびエンジニアリング機能の広範なサポートと機能を提供します。

Pandas API on Spark

注記

Koalas オープンソースプロジェクトでは、Pandas API on Spark に切り替えることを推奨しています。Pandas API on Sparkは、Databricks Runtime 10.0 (EoS) 以降が実行されるクラスターで利用できます。Databricks Runtime9.1LTS 以下を実行するクラスターでは、代わりにKoalas を使用します。

Pandas はデータサイエンティストがデータ分析と操作のために一般的に使用するPythonパッケージです。ただし、 Pandas は大規模にスケールアウトしません。 Pandas API on Spark は、Apache Sparkで動作するPandas同等のAPIを提供することで、このギャップを埋めます。このオープンソースAPI は、Pandasには詳しいがPandas Apache Sparkには詳しくないデータサイエンティストにとって理想的な選択肢です。

ノートブックと Databricks Git フォルダーでコードを管理する

Databricks ノートブックは Python をサポートしています。これらのノートブックは、Jupyter と同様の機能を提供しますが、ビッグデータを使用した組み込みビジュアライゼーション、デバッグとパフォーマンスモニタリングのための Apache Spark インテグレーション、機械学習エクスペリメントを追跡するための MLflow インテグレーションなどが追加されています。ノートブックをインポートして開始します。クラスターにアクセスできるようになったら、ノートブックをクラスターにアタッチしてノートブックを実行できます。

ヒント

ノートブックの状態をリセットするには、iPython カーネルを再起動します。Jupyter ユーザーの場合、Jupyter の "カーネルの再起動" オプションは、Databricks で新しいセッションを開始することに対応します。Pythonノートブックでカーネルを再起動するには、ノートブックツールバーのコンピュートセレクターをクリックし、リスト内のアタッチされたクラスタリングまたはSQLウェアハウスにカーソルを合わせると、サイドメニューが表示されます。[ 新しいセッション ] を選択します。これにより、新しいセッションが開始され、Python プロセスが再起動されます。

Databricks Git フォルダーを使用すると、ユーザーはノートブックやその他のファイルを Git リポジトリと同期できます。 Databricks Git フォルダーは、コードのバージョン管理とコラボレーションに役立ち、Databricks へのコードの完全なリポジトリのインポート、過去のノートブックバージョンの表示、IDE 開発との統合を簡略化できます。まず、リモート Git リポジトリをクローンします。その後、リポジトリクローンを使用してノートブックを開くか作成し、ノートブックをクラスターにアタッチして、ノートブックを実行できます。

クラスターとライブラリ

Databricks コンピュートは、単一ノードのクラスターから大規模なクラスターまで、あらゆる規模のクラスターのためのコンピュート管理を提供します。クラスターハードウェアとライブラリは、必要に応じてカスタマイズできます。データサイエンティストは通常、クラスターを作成するか、既存の共有クラスターを使用して作業を開始します。クラスターにアクセスできるようになったら、ノートブックをクラスターにアタッチしたり、クラスターでジョブを実行したりできます。

1 つのノードのみを必要とする小規模なワークロードの場合、データサイエンティストはシングルノードコンピュートを使用してコストを節約できます。
詳細なヒントについては、「コンピュート構成の推奨事項」を参照してください
管理者は、クラスターポリシーを設定して、クラスターの作成を簡素化し、ガイドすることができます。

DatabricksクラスターはDatabricks Runtimeを使用します。Databricks Runtimeは、Apache Spark、Delta Lake、pandasなど、すぐに使える多くの人気ライブラリを提供しています。追加のサードパーティまたはカスタムPythonライブラリをインストールして、ノートブックやジョブで使用することもできます。

Databricks Runtime リリースノートのバージョンと互換性のデフォルトライブラリから始めます。機械学習ワークロードには、Databricks機械学習ランタイムを使用します。プリインストールされているライブラリの完全なリストについては、Databricks Runtimeリリースノートのバージョンと互換性を参照してください。
ノートブックスコープの Python ライブラリを使用して環境をカスタマイズすると、PyPI や他のリポジトリのライブラリを使用してノートブックまたはジョブ環境を変更できます。%pip install my_library マジックコマンドは、現在アタッチされているクラスター内のすべてのノードにmy_libraryをインストールしますが、標準アクセスモードのコンピュート上の他のワークロードに干渉することはありません。
必要に応じて、非Python ライブラリをコンピュートスコープのライブラリとしてインストールします。
詳細については、「ライブラリのインストール」を参照してください。

可視化

Databricks Python ノートブックには、さまざまな種類の可視化の組み込みサポートがあります。従来のビジュアライゼーションを使用することもできます。

サードパーティのライブラリを使用してデータを視覚化することもできます。一部はDatabricks Runtimeにプリインストールされていますが、カスタムライブラリをインストールすることもできます。人気のあるライブラリは以下のとおりです。

ジョブ

Python ワークロードは、Databricks でスケジュールされたジョブまたはトリガーされたジョブとして自動化できます。ジョブは、ノートブック、 Python スクリプト、および Python wheel ファイルを実行できます。

Databricks UI または Databricks REST API を使用してジョブを作成および更新します。
Databricks Python SDK を使用すると、プログラムでジョブを作成、編集、削除できます。
Databricks CLI は、ジョブを自動化するための便利なコマンドラインインターフェイスを提供します。

ヒント

ノートブックの代わりにPythonスクリプトをスケジュールするには、ジョブ作成リクエストの本文のtasksの下にあるspark_python_taskフィールドを使用します。

機械学習

Databricks は、表形式データに対する従来のML、コンピュータビジョンと自然言語処理のためのディープラーニング、レコメンデーションシステム、グラフアナリティクスなど、さまざまな機械学習 (ML) ワークロードをサポートしています。Databricks での機械学習に関する一般的な情報については、「 Databricks での AI と機械学習」を参照してください。

ML アルゴリズムについては、scikit-learn、TensorFlow、Keras、PyTorch、Apache Spark MLlib、XGBoost などの一般的な Python ツールを含む Databricks Runtime for Machine Learning にプレインストールされているライブラリを使用できます。カスタムライブラリをインストールすることもできます。

機械学習の操作 (MLOps) のために、 Databricks はオープンソースライブラリのマネージドサービスを提供しています MLflow. MLflow Tracking を使用すると、モデルの開発を記録し、モデルを再利用可能な形式で保存できます。MLflow Model Registryを使用して、本番運用に向けたモデルのプロモーションを管理および自動化できます。ジョブを使用すると、モデルをバッチジョブおよびストリーミングジョブとしてホスティングできます。詳細情報と例については、MLflow MLモデルライフサイクルのまたはMLflowPythonAPI ドキュメントを参照してください。

一般的な機械学習ワークロードの入門については、以下のページを参照してください。

MLflow を使用した scikit-learn のトレーニングと追跡: 10 分間のチュートリアル: scikit-learn を使用した Databricks での機械学習
ディープラーニングモデルのトレーニング: ディープラーニング
ハイパーパラメーターチューニング: Hyperopt ハイパーパラメーターチューニングの並列化
グラフ分析:DatabricksでGraphFramesを使用する方法

IDE、開発者ツール、SDK

Databricksノートブック内でPythonコードを開発するだけでなく、PyCharm、Jupyter、Visual Studio Codeなどの統合開発環境（IDE）を使用して外部で開発することもできます。外部開発環境とDatabricksの間で作業を同期するには、いくつかのオプションがあります。

コード : Git を使用してコードを同期できます。Databricks Git フォルダーを参照してください。
ライブラリとジョブ : ライブラリ ( Python wheel ファイルなど) を外部で作成し、 Databricksにアップロードできます。これらのライブラリは、Databricks ノートブック内にインポートすることも、ジョブの作成に使用することもできます。「ライブラリのインストール」および「ジョブLakeflow」を参照してください。
リモートマシン実行 : ローカルIDEからコードを実行して、インタラクティブな開発とテストを行うことができます。 IDEはDatabricksと通信を行い、Databricks クラスターでApache Sparkを用いた大規模な計算を実行できます。Databricks Connectを参照してください。

Databricks には、 Python SDK を含む一連の SDK が用意されており、自動化と外部ツールとの統合をサポートしています。 Databricks SDK を使用して、クラスターとライブラリ、コードとその他のワークスペースオブジェクト、ワークロードとジョブなどのリソースを管理できます。Databricks SDK を参照してください。

IDEs、開発者ツール、SDK の詳細については、「ローカル開発ツール」を参照してください。

追加のリソース

Databricks Academyでは、多くのトピックについて、自分のペースで進められるインストラクター主導のコースを提供しています。
Databricks Labs には、 pytest プラグインや pylint プラグインなど、Databricks での Python 開発用のツールが用意されています。
PySpark と Pandas の間の相互運用性をサポートする機能には、次のものがあります。
Python と SQL のデータベース接続ツールには、次のものがあります。
- Databricks SQL Connector for Python を使用すると、Python コードを使用して Databricks リソースで SQL コマンドを実行できます。
- pyodbc を使用すると、ローカルの Python コードから ODBC を介して Databricks レイクハウスに格納されているデータに接続できます。
Python ワークロードを Databricks に移行するための FAQ とヒントについては、Databricks ナレッジベースを参照してください

チュートリアル​

データエンジニアリング​

データサイエンスと機械学習​

Python ノートブックでのデバッグ​

Python デバッガーのサンプル ノートブック

Python API​

PySpark API​

Pandas API on Spark​

ノートブックと Databricks Git フォルダーでコードを管理する​

クラスター と ライブラリ​

可視化​

ジョブ​

機械学習​

IDE、開発者ツール、SDK​

追加のリソース​