DLT Python 言語リファレンス
このセクションでは、DLT Python プログラミングインターフェースについて詳しく説明します。
- Python for DLTの概念情報と使用の概要については、「Pythonを使用したパイプライン コードの開発」を参照してください。
- SQL リファレンスについては、 DLT SQL 言語リファレンスを参照してください。
- Auto Loaderの構成の詳細については、「Auto Loaderとは」を参照してください。
dlt
モジュールの概要
DLT Python 関数は dlt
モジュールで定義されています。Python API で実装されたパイプラインでは、次のモジュールをインポートする必要があります。
Python
import dlt
データセット定義の関数
DLTPythonマテリアライズドビューやストリーミングテーブルなどのデータセットを定義するためにデコレータを使用します。データセットを定義する関数を参照してください。
API リファレンス
- append_flow
- apply_changes
- apply_changes_from_snapshot
- create_sink
- create_streaming_table
- エクスペクテーション
- テーブル
- ビュー
Python DLT に関する考慮事項
DLT Python インターフェイスを使用してパイプラインを実装する場合の重要な考慮事項を次に示します。
- DLT は、計画中およびパイプラインの実行中に、パイプラインを定義するコードを複数回評価します。データセットを定義する Python 関数には、テーブルまたはビューの定義に必要なコードのみを含める必要があります。データセット定義に任意の Python ロジックが含まれていると、予期しない動作が発生する可能性があります。
- データセット定義にカスタム・モニタリング・ロジックを実装しようとしないでください。 「イベント フックを使用した DLT パイプラインのカスタム モニタリングの定義」を参照してください。
- データセットの定義に使用される関数は、Spark DataFrame を返す必要があります。返された DataFrame に関連しないロジックをデータセット定義に含めないでください。
- DLT データセット コードの一部としてファイルやテーブルを保存または書き込むメソッドは絶対に使用しないでください。
DLT コードで使用すべきでない Apache Spark 操作の例:
collect()
count()
toPandas()
save()
saveAsTable()
start()
toTable()