メインコンテンツまでスキップ

ストリーミングテーブルの作成

create_streaming_table()関数を使用して、 create_auto_cdc_flow()create_auto_cdc_from_snapshot_flow()append_flow出力レコードなどのストリーミング操作によって出力されるレコードのターゲット テーブルを作成します。

注記

create_target_table()関数とcreate_streaming_live_table()関数は非推奨です。Databricksでは、create_streaming_table()関数を使用するように既存のコードを更新することをお勧めします。

構文

Python
from pyspark import pipelines as dp

dp.create_streaming_table(
name = "<table-name>",
comment = "<comment>",
spark_conf={"<key>" : "<value", "<key" : "<value>"},
table_properties={"<key>" : "<value>", "<key>" : "<value>"},
path="<storage-location-path>",
partition_cols=["<partition-column>", "<partition-column>"],
cluster_by_auto = True,
cluster_by = ["<clustering-column>", "<clustering-column>"],
schema="schema-definition",
expect_all = {"<key>" : "<value", "<key" : "<value>"},
expect_all_or_drop = {"<key>" : "<value", "<key" : "<value>"},
expect_all_or_fail = {"<key>" : "<value", "<key" : "<value>"},
row_filter = "row-filter-clause"
)

問題

パラメーター

Type

説明

name

str

必須。テーブル名。

comment

str

テーブルの説明。

spark_conf

dict

このクエリを実行するためのSpark構成のリスト

table_properties

dict

テーブルのテーブル プロパティdict

path

str

テーブル データの保存場所。設定されていない場合は、テーブルを含むスキーマの管理されたストレージの場所を使用します。

partition_cols

list

テーブルのパーティション分割に使用する 1 つ以上の列のリスト。

cluster_by_auto

bool

テーブル上で自動液体クラスタリングを有効にします。 これをcluster_byと組み合わせて、初期クラスタリング キーとして使用する列を定義し、その後、ワークロードに基づいてモニタリングと自動キー選択の更新を行うことができます。 「自動リキッドクラスタリング」を参照してください。

cluster_by

list

テーブルでリキッドクラスタリングを有効にし、クラスタリングキーとして使用する列を定義します。テーブルにリキッドクラスタリングを使用するを参照してください。

schema

str または StructType

テーブルのスキーマ定義。スキーマは、SQL DDL 文字列または Python StructTypeを使用して定義できます。

expect_allexpect_all_or_dropexpect_all_or_fail

dict

テーブルのデータ品質制約。期待値デコレーター関数と同じ動作を提供し、同じ構文を使用しますが、パラメーターとして実装されます。 エクスペクテーションを参照してください。

row_filter

str

(パブリック プレビュー) テーブルの行フィルター句。「行フィルターと列マスクを使用してテーブルを公開する」を参照してください。