宣言型パイプラインの Python 依存関係 Lakeflow 管理
Lakeflow 宣言型パイプラインは、パイプライン内の外部依存関係をサポートします。 Databricks では、Python パッケージをインストールするために、次の 2 つのパターンのいずれかを使用することをお勧めします。
- 環境 設定を使用して、パイプライン内のすべてのソース ファイルのパッケージをパイプライン環境に追加します。
- ワークスペース ファイルに格納されているソース コードからモジュールまたはライブラリをインポートします。 Git フォルダーまたはワークスペース ファイルからの Python モジュールのインポートを参照してください。
Lakeflow 宣言型パイプラインは、グローバルおよびクラスタースコープの initスクリプトの使用もサポートしています。 ただし、これらの外部依存関係、特にinitスクリプトは、ランタイムアップグレードで問題が発生するリスクを高めます。 これらのリスクを軽減するには、パイプラインでのinitスクリプトの使用を最小限に抑えます。 処理にinitスクリプトが必要な場合は、パイプラインのテストを自動化して問題を早期に検出します。 initスクリプトを使用する場合は、テストの頻度を増やすことを Databricksでは お勧めします。
JVM ライブラリは Lakeflow 宣言型パイプラインではサポートされていないため、initスクリプトを使用してライブラリをインストールしJVMないでください。ただし、 Python ライブラリなどの他の種類のライブラリは、initスクリプトを使用してインストールできます。
Pythonライブラリ
外部 Python ライブラリを指定するには、パイプラインの環境を編集します。
- パイプライン エディターから、 [設定] をクリックします。
- パイプライン環境 で、
編集環境 。
- クリック
依存関係を追加します 。
- 依存関係の名前を入力します。Databricks では、ライブラリのバージョンを固定することをお勧めします。たとえば、
simplejson
バージョン 3.19 への依存関係を追加するには、「simplejson==3.19.*
と入力します。
/Volumes/my_catalog/my_schema/my_ldp_volume/ldpfns-1.0-py3-none-any.whl
などのパスを指定して、 Unity CatalogボリュームからPython wheelパッケージをインストールすることもできます。
Scala ライブラリや Java ライブラリを Lakeflow 宣言型パイプラインで使用できますか?
いいえ、 Lakeflow 宣言型パイプラインは SQL と Pythonのみをサポートします。 パイプラインで JVM ライブラリを使用することはできません。JVM ライブラリをインストールすると、予期しない動作が発生し、将来の Lakeflow 宣言型パイプラインのリリースで中断する可能性があります。パイプラインでinitスクリプトを使用する場合は、 JVM ライブラリがスクリプトによってインストールされていないことも確認する必要があります。