Databricks ノートブックでの Databricks Connect for Python のサポート
注:
この記事では、Databricks Runtime13.3LTLTS以降のDatabricks Connectについて説明します。
Databricks Connect では、ローカルの開発環境から Databricks コンピュートに接続できます。 その後、コードを IDE から直接開発、デバッグ、テストしてから、Databricks ノートブックまたはジョブの一部として実行できます。 「Databricks Connect とは」を参照してください。
Jupyter ノートブックでの Databricks Connect の使用に関する情報については、「Databricks Connect for の Pythonでクラシック Jupyter ノートブックを使用する」を参照してください。
制限事項
ローカル開発からデプロイ、Databricks へのシームレスな移行を実現するために、すべてのDatabricks Connect APIsDatabricksノートブックで利用できます。これにより、コードを変更せずに Databricks ノートブックでコードを実行できます。 ただし、ローカル開発環境での Databricks Connect for Python の使用と、Databricks ノートブックやジョブでの使用にはいくつかの違いがあります。
IDE 内でローカルに開発する場合、
spark = DatabricksSession.builder.getOrCreate()
は、指定された構成の既存の Spark セッション (存在する場合) を取得するか、新しいセッションが存在しない場合は新しいセッションを作成します。host
、token
、cluster_id
などの接続パラメーターは、ソース コード、環境変数、または.databrickscfg
構成プロファイル・ファイルから取り込まれます。Databricksノートブック内で開発する場合、
spark = DatabricksSession.builder.getOrCreate()
は、追加の設定を行わずに使用すると、デフォルト Spark セッション (spark
変数からもアクセス可能) を返します。追加の接続パラメーターが設定されている場合 (たとえば、DatabricksSession.builder.clusterId(...).getOrCreate()
やDatabricksSession.builder.serverless().getOrCreate()
を使用して)、新しいセッションが作成されます。