メインコンテンツまでスキップ

宣言型パイプラインの Python 依存関係 Lakeflow 管理

Lakeflow 宣言型パイプラインは、パイプライン内の外部依存関係をサポートします。 Databricks では、Python パッケージをインストールするために、次の 2 つのパターンのいずれかを使用することをお勧めします。

  1. 環境 設定を使用して、パイプライン内のすべてのソース ファイルのパッケージをパイプライン環境に追加します。
  2. ワークスペース ファイルに格納されているソース コードからモジュールまたはライブラリをインポートします。 Git フォルダーまたはワークスペース ファイルからの Python モジュールのインポートを参照してください。

Lakeflow 宣言型パイプラインは、グローバルおよびクラスタースコープの initスクリプトの使用もサポートしています。 ただし、これらの外部依存関係、特にinitスクリプトは、ランタイムアップグレードで問題が発生するリスクを高めます。 これらのリスクを軽減するには、パイプラインでのinitスクリプトの使用を最小限に抑えます。 処理にinitスクリプトが必要な場合は、パイプラインのテストを自動化して問題を早期に検出します。 initスクリプトを使用する場合は、テストの頻度を増やすことを Databricksでは お勧めします。

important

JVM ライブラリは Lakeflow 宣言型パイプラインではサポートされていないため、initスクリプトを使用してライブラリをインストールしJVMないでください。ただし、 Python ライブラリなどの他の種類のライブラリは、initスクリプトを使用してインストールできます。

Pythonライブラリ

外部 Python ライブラリを指定するには、パイプラインの環境を編集します。

  1. パイプライン エディターから、 [設定] をクリックします。
  2. パイプライン環境 で、鉛筆アイコン。 編集環境
  3. クリックプラスアイコン。 依存関係を追加します
  4. 依存関係の名前を入力します。Databricks では、ライブラリのバージョンを固定することをお勧めします。たとえば、 simplejsonバージョン 3.19 への依存関係を追加するには、「 simplejson==3.19.*と入力します。

/Volumes/my_catalog/my_schema/my_ldp_volume/ldpfns-1.0-py3-none-any.whlなどのパスを指定して、 Unity CatalogボリュームからPython wheelパッケージをインストールすることもできます。

Scala ライブラリや Java ライブラリを Lakeflow 宣言型パイプラインで使用できますか?

いいえ、 Lakeflow 宣言型パイプラインは SQL と Pythonのみをサポートします。 パイプラインで JVM ライブラリを使用することはできません。JVM ライブラリをインストールすると、予期しない動作が発生し、将来の Lakeflow 宣言型パイプラインのリリースで中断する可能性があります。パイプラインでinitスクリプトを使用する場合は、 JVM ライブラリがスクリプトによってインストールされていないことも確認する必要があります。