ストリーミングテーブルの作成

パイプラインでcreate_streaming_table()関数を使用して、 create_auto_cdc_flow() 、 create_auto_cdc_from_snapshot_flow() 、 append_flow出力レコードなどのストリーミング操作によって出力されるレコードのターゲットテーブルを作成します。

注記

create_target_table()関数とcreate_streaming_live_table()関数は非推奨です。Databricksでは、create_streaming_table()関数を使用するように既存のコードを更新することをお勧めします。

構文

Python
from pyspark import pipelines as dp

dp.create_streaming_table(
  name = "<table-name>",
  comment = "<comment>",
  spark_conf={"<key>" : "<value", "<key" : "<value>"},
  table_properties={"<key>" : "<value>", "<key>" : "<value>"},
  path="<storage-location-path>",
  partition_cols=["<partition-column>", "<partition-column>"],
  cluster_by_auto = <bool>,
  cluster_by = ["<clustering-column>", "<clustering-column>"],
  schema="schema-definition",
  expect_all = {"<key>" : "<value", "<key" : "<value>"},
  expect_all_or_drop = {"<key>" : "<value", "<key" : "<value>"},
  expect_all_or_fail = {"<key>" : "<value", "<key" : "<value>"},
  row_filter = "row-filter-clause"
)

パラメーター

パラメーター	Type	説明
`name`	`str`	必須。テーブル名。
`comment`	`str`	テーブルの説明。
`spark_conf`	`dict`	このクエリを実行するためのSpark構成のリスト
`table_properties`	`dict`	テーブルのテーブルプロパティの`dict` 。
`path`	`str`	テーブルデータの保存場所。設定されていない場合は、テーブルを含むスキーマの管理されたストレージの場所を使用します。
`partition_cols`	`list`	テーブルのパーティション分割に使用する 1 つ以上の列のリスト。
`cluster_by_auto`	`bool`	テーブル上で自動液体クラスタリングを有効にします。これを`cluster_by`と組み合わせて、初期クラスタリングキーとして使用する列を定義し、その後、ワークロードに基づいてモニタリングと自動キー選択の更新を行うことができます。「自動リキッドクラスタリング」を参照してください。
`cluster_by`	`list`	テーブルでリキッドクラスタリングを有効にし、クラスタリングキーとして使用する列を定義します。テーブルにリキッドクラスタリングを使用するを参照してください。
`schema`	`str` または `StructType`	テーブルのスキーマ定義。スキーマは、SQL DDL 文字列または Python `StructType`を使用して定義できます。
`expect_all`、`expect_all_or_drop`、 `expect_all_or_fail`	`dict`	テーブルのデータ品質制約。期待値デコレーター関数と同じ動作を提供し、同じ構文を使用しますが、パラメーターとして実装されます。エクスペクテーションを参照してください。
`row_filter`	`str`	(パブリックプレビュー) テーブルの行フィルター句。「行フィルターと列マスクを使用してテーブルを公開する」を参照してください。

構文​

パラメーター​

構文

パラメーター