メインコンテンツまでスキップ

パイプラインの制限事項

以下は、パイプラインを開発する際に知っておくことが重要な、 Lakeflow Spark宣言型パイプラインの制限事項です。

  • Databricksワークスペースの 1 つのライン パイプラインの更新は 1000 件に制限されています。 1 つのパイプラインに含めることができるデータセットの数は、パイプラインの構成とワークロードの複雑さによって決まります。

  • パイプラインの構成には、ソース ファイルとフォルダーへの参照が含まれます。

    • 構成が個々のノートブックまたはファイル のみ を参照する場合、パイプラインあたりの制限は 100 個のソース ファイルです。

    • 構成にフォルダーが含まれている場合は、ファイルまたはフォルダーで構成されるソース エントリを最大 50 個含めることができます。

      フォルダーを参照すると、そのフォルダー内のファイルが間接的に参照されます。この場合、参照されるファイル数(直接または間接的に)の制限は 1000 です。

    ソースファイルが100個以上必要な場合は、フォルダに整理してください。フォルダーを使用してソース ファイルを含める方法については、 LakeFlow Pipelinesエディターのパイプライン アセット ブラウザーを参照してください。

  • パイプライン データセットは一度だけ定義できます。このため、すべてのパイプラインで 1 つの操作のターゲットにしかなれません。例外は、追加フロー処理を使用するストリーミングテーブルで、複数のストリーミングソースからストリーミングテーブルに書き込むことができます。デフォルトフローと追加フローをご覧ください。

  • ID 列には次の制限があります。DeltaテーブルのID列の詳細については、ID列を参照してください。

    • AUTO CDC処理の対象となるテーブルでは、ID 列はサポートされません。
    • ID 列は、マテリアライズドビューの更新中に再計算される場合があります。 このため、 Databricksパイプラインの ID 列をストリーミング テーブルでのみ使用することをお勧めします。
  • デフォルトで、マテリアライズドビューとストリーミングテーブルには、Databricksクライアントとアプリケーションのみがアクセスできます。外部システムからアクセスできるようにするには、外部システムを使用したマテリアライズドビューとストリーミングテーブルへのアクセスを参照してください。

  • Unity Catalogパイプラインの実行とクエリに必要な Databricksコンピュートには制限があります。Unity Catalog に発行するパイプラインの 要件 を参照してください。

  • Delta Lake のタイムトラベルクエリは、ストリーミングテーブルでのみサポートされており、マテリアライズドビューではサポートされてい ませんテーブル履歴の操作を参照してください。

  • マテリアライズドビューおよびストリーミングテーブルではIceberg読み取りを有効にすることはできません。

  • pivot()関数はサポートされていません。Sparkのpivot操作では、出力スキーマをコンピュートするために入力データを積極的にロードする必要があります。 この機能はパイプラインではサポートされていません。

LakeFlow Spark宣言型パイプラインのリソース クォータについては、 「リソース制限」を参照してください。