CREATE STREAMING TABLE (pipeline)

Uma tabela "diálogo" é uma tabela com suporte para "diálogo" ou processamento incremental de dados. As tabelas de transmissão são suportadas por pipeline. Cada vez que uma tabela de transmissão é atualizada, os dados adicionados às tabelas de origem são anexados à tabela de transmissão. Você pode refresh as tabelas de transmissão manualmente ou por meio de um programa.

Para saber mais sobre como executar uma atualização programada, consulte a execução de uma atualização pipeline.

Sintaxe

CREATE [OR REFRESH] [PRIVATE] STREAMING TABLE
  table_name
  [ table_specification ]
  [ table_clauses ]
  [ {flow_clause | AS query} ]

table_specification
  ( { column_identifier column_type [column_properties] } [, ...]
    [ column_constraint ] [, ...]
    [ , table_constraint ] [...] )

   column_properties
      { NOT NULL | GENERATED ALWAYS AS ( expr ) | GENERATED { ALWAYS | BY DEFAULT } AS IDENTITY [ ( [ START WITH start | INCREMENT BY step ] [ ...] ) ] | DEFAULT default_expression | COMMENT column_comment | column_constraint | MASK clause } [ ... ]

table_clauses
  { USING DELTA
    PARTITIONED BY (col [, ...]) |
    CLUSTER BY clause |
    LOCATION path |
    COMMENT view_comment |
    TBLPROPERTIES clause |
    WITH { ROW FILTER clause } } [ ... ]
   } [ ... ]

flow_clause
  FLOW { { INSERT [ONCE] BY NAME query } |
  { AUTO CDC auto_cdc_flow_spec } |
  { REPLACE WHERE predicate BY NAME query } }

Parâmetros

REFRESH

Se especificado, cria a tabela, ou atualiza uma tabela existente e seu conteúdo.
PRIVADO

Cria uma tabela de transmissão privada.
- Eles não são adicionados ao catálogo e só são acessíveis dentro do pipeline de definição
- Eles podem ter o mesmo nome que um objeto já existente no catálogo. No pipeline, se uma tabela de transmissão privada e um objeto no catálogo tiverem o mesmo nome, as referências ao nome se resolvem para a tabela de transmissão privada.
- As tabelas de transmissão privadas são persistidas apenas durante a vida útil do pipeline, não apenas durante uma única atualização.
Tabelas de transmissão privadas foram criadas anteriormente com o parâmetro TEMPORARY .
nome_da_tabela

O nome da tabela recém-criada. O nome da tabela totalmente qualificado deve ser exclusivo.
especificação_de_tabela

Esta cláusula opcional define a lista de colunas, seus tipos, propriedades, descrições e restrições de coluna.
- identificador_de_coluna
  
  Os nomes das colunas devem ser exclusivos e mapeados para as colunas de saída da consulta.
- tipo_de_coluna
  
  Especifica o tipo de dados da coluna. Nem todos os tipos de dados suportados pelo Databricks são suportados pelas tabelas de transmissão.
- comentário_de_coluna
  
  Um literal STRING opcional que descreve a coluna. Esta opção deve ser especificada junto com column_type. Se o tipo de coluna não for especificado, o comentário da coluna será ignorado.
- GENERATED ALWAYS AS ( expr )
  
  Quando esta cláusula é especificada, o valor desta coluna é determinado pelo expr especificado.
  
  O DEFAULT COLLATION da tabela deve ser UTF8_BINARY.
  
  expr pode ser composto de literais, identificadores de coluna dentro da tabela e funções ou operadores SQL integrados e determinísticos, exceto:
  - Funções de agregação
  - Funções analíticas de janela
  - Funções de janela de classificação
  - Funções geradoras com valor de tabela
  - Colunas com uma ordenação diferente de UTF8_BINARY
  Além disso, expr não deve conter nenhuma subconsulta.
- GERADO { SEMPRE | Por default } AS IDENTIDADE [ ( [ começar COM começar ] [ INCREMENT BY passo ] ) ]
  
  Aplica-se a: Databricks SQL Databricks Runtime 10.4 LTS e acima
  
  Define uma coluna de identidade. Quando você grava na tabela e não fornece valores para a coluna de identidade, ela receberá automaticamente um valor exclusivo e estatisticamente crescente (ou decrescente, se step for negativo). Esta cláusula é compatível apenas com tabelas Delta. Esta cláusula só pode ser usada para colunas com tipo de dados BIGINT.
  
  Os valores atribuídos automaticamente começam com start e incrementam em step. Os valores atribuídos são exclusivos, mas não têm garantia de serem contíguos. Ambos os parâmetros são opcionais, e o valor default é 1. step não pode ser 0.
  
  Se os valores atribuídos automaticamente estiverem além do intervalo do tipo de coluna de identidade, a consulta falhará.
  
  Quando ALWAYS é usado, não é possível fornecer valores próprios para a coluna de identidade.
  
  As seguintes operações não são suportadas:
  - PARTITIONED BY uma coluna de identidade
  - UPDATE uma coluna de identidade

nota

Declarar uma coluna de identidade em uma tabela desabilita transações concorrentes. Use colunas de identidade apenas em casos de uso em que gravações concorrentes na tabela de destino não são necessárias.

DEFAULT default_expression

Aplica-se a: Databricks SQL Databricks Runtime 11.3 LTS e acima

Define um valor DEFAULT para a coluna que é usado em INSERT, UPDATE e MERGE ... INSERT quando a coluna não é especificada.

Se nenhum default for especificado, DEFAULT NULL será aplicado para colunas anuláveis.

default_expression pode ser composto de literais e funções ou operadores SQL integrados, exceto:
- Funções de agregação
- Funções analíticas de janela
- Funções de janela de classificação
- Funções geradoras com valor de tabela
Além disso, default_expression não deve conter nenhuma subconsulta.

DEFAULT é compatível com as fontes CSV, JSON, PARQUET e ORC.
restrição_de_coluna

Adiciona uma restrição de key primária ou key estrangeira informativa à coluna em uma tabela de transmissão.
Cláusula MASK

Adiciona uma função de máscara de coluna para tornar dados confidenciais anônimos.

Veja Filtros de linha e máscaras de coluna.
CONSTRAINT expectation_name EXPECT (expectation_expr) [ EM CASO DE VIOLAÇÃO { FAIL UPDATE | DESCARTAR LINHA } ]

Adiciona expectativas de qualidade de dados à tabela de transmissão. Essas expectativas de qualidade de dados podem ser rastreadas ao longo do tempo e acessadas por meio do log de eventos da tabela de transmissão. Uma expectativa FAIL UPDATE faz com que o processamento falhe tanto na criação quanto na atualização da tabela. Uma expectativa DROP ROW faz com que a linha inteira seja descartada se a expectativa não for cumprida. Consulte Gerenciar a qualidade dos dados com expectativas de pipeline.

expectation_expr pode ser composto de literais, identificadores de coluna dentro da tabela e funções ou operadores SQL integrados e determinísticos, exceto:
- Funções de agregação
  - Funções analíticas de janela
  - Funções de janela de classificação
  - Funções geradoras com valor de tabela
Além disso, expr não deve conter nenhuma subconsulta.
restrição_de_tabela

Ao especificar um esquema, você pode definir uma chave primária e uma chave estrangeira. As restrições são informativas e não são impostas. Veja a cláusula CONSTRAINT na referência da linguagem SQL.

nota

Para definir restrições de tabela, seu pipeline deve ser um pipeline habilitado para o Unity Catalog.

cláusulas_de_tabela

Opcionalmente, especifique particionamento, comentários e propriedades definidas pelo usuário para a tabela. Cada subcláusula só pode ser especificada uma vez.
- USANDO DELTA
  
  Especifica o formato dos dados. A única opção é DELTA.
  
  Esta cláusula é opcional e o padrão é DELTA.
- PARTICIONADO POR
  
  Uma lista opcional de uma ou mais colunas a serem usadas para particionamento na tabela. Mutuamente exclusivo com CLUSTER BY.
  
  clustering líquido oferece uma solução flexível e otimizada para clustering. Considere usar CLUSTER BY em vez de PARTITIONED BY para pipeline.
- cluster POR
  
  Habilite clustering líquido na tabela e defina as colunas a serem usadas como chave clustering . Use clustering líquido automático com CLUSTER BY AUTO e Databricks escolhe de forma inteligente a chave clustering para otimizar o desempenho da consulta. Mutuamente exclusivo com PARTITIONED BY.
  
  Consulte Usar clustering líquido para tabelas.
- Localização
  
  Um local de armazenamento opcional para dados da tabela. Se não estiver definido, o sistema adotará como padrão o local de armazenamento do pipeline.
- comentário
  
  Um literal STRING opcional para descrever a tabela.
- PROPRIEDADES TBL
  
  Uma lista opcional de propriedades de tabela para a tabela.
- COM FILTRO DE LINHA
Adiciona uma função de filtro de linha à tabela. Consultas futuras para essa tabela recebem um subconjunto das linhas para as quais a função é avaliada como VERDADEIRO. Isso é útil para controle de acesso refinado, porque permite que a função inspecione a identidade e as associações de grupo do usuário que faz a chamada para decidir se deve filtrar determinadas linhas.

Veja a cláusulaROW FILTER.
- FLUXO
  
  Opcionalmente, define um fluxo em conjunto com a criação da tabela. Um fluxo é uma consulta com estado que atualiza o conteúdo da tabela. Se FLOW não for especificado, você pode usar AS query em vez disso ou definir fluxos separadamente com CREATE FLOW. Você pode especificar um dos seguintes tipos de fluxo:
  - INSERIR POR NOME
  Insere dados na tabela pelo nome da coluna. Se a opção ONCE não for fornecida, a consulta deverá ser uma consulta de transmissão. Use a palavra-chave STREAM para usar a semântica de transmissão para ler da fonte. Se a leitura encontrar uma alteração ou exclusão em um registro existente, um erro será gerado. A forma mais segura de ler dados é a partir de fontes estáticas ou de fontes que permitem apenas a inserção de dados.

nota

FLOW INSERT BY NAME é equivalente a usar AS query. As duas afirmações a seguir têm comportamento idêntico:

SQL
CREATE OR REFRESH STREAMING TABLE raw_data
AS SELECT * FROM STREAM read_files('abfss://my_path');

CREATE OR REFRESH STREAMING TABLE raw_data
FLOW INSERT BY NAME SELECT * FROM STREAM read_files('abfss://my_path');

UMA VEZ

Opcionalmente, define o fluxo como um fluxo único, como um aterro. Quando ONCE é fornecido, a consulta não é uma consulta de transmissão e a execução do fluxo é uma vez por default. Se a tabela for atualizada com uma refresh completa, o fluxo ONCE será executado novamente para recriar os dados. ONCE só se aplica a fluxos INSERT BY NAME .

AUTO CDC

info

Beta

Disponível no Databricks Runtime 17.3 e versões superiores e no canal de pipeline PREVIEW .

Define um fluxo AUTO CDC que processa registros de captura de dados de alterações (CDC) (CDC) de uma origem para a tabela. Use AUTO CDC quando os dados de origem incluírem semântica CDC. Consulte APIs do AUTO CDC : Simplifique a captura de dados de alterações (CDC) com pipeline.

Substituir onde predicado por consulta de nome

info

Beta

FLOW REPLACE WHERE está em Beta. Requer o uso do canal de pré-visualização do Pipelines — defina a propriedade da tabela pipelines.channel como "PREVIEW".

Define um fluxo REPLACE WHERE que recalcula e sobrescreve apenas as linhas que correspondem a predicate, deixando todas as outras linhas intocadas. Use REPLACE WHERE para processamento em lote incremental de joins e agregações, dados com chegada tardia, evolução do esquema e reposições de dados. BY NAME é necessário. Veja Processamento em lote com fluxos REPLACE WHERE.

Consulta AS

Esta cláusula preenche a tabela usando os dados de query. Esta consulta deve ser uma consulta de transmissão . Use a palavra-chave transmissão para usar a semântica de transmissão para ler da fonte. Se a leitura encontrar uma alteração ou exclusão em um registro existente, um erro será gerado. A forma mais segura de ler dados é a partir de fontes estáticas ou de fontes que permitem apenas a inserção de dados. Para ingerir dados que sofreram commit de alteração, você pode adicionar a opção de leitura skipChangeCommits para lidar com erros.

Quando você especifica um query e um table_specification juntos, o esquema da tabela especificado em table_specification deve conter todas as colunas retornadas pelo query, caso contrário, você receberá um erro. Todas as colunas especificadas em table_specification , mas não retornadas por query , retornam valores null quando consultadas.

Para mais informações sobre transmissão de dados, veja transformação de dados com pipeline.
- Opções de leitura
  
  Você pode especificar opções de leitura na consulta para configurar como os dados são lidos da fonte. Por exemplo, você pode especificar skipChangeCommits para ignorar qualquer commit de alteração nos dados de origem. As opções de leitura são especificadas como um mapa na cláusula WITH da consulta. Por exemplo:
  SQL
```
SELECT * FROM STREAM source_table WITH (SKIPCHANGECOMMITS=TRUE, STARTINGVERSION=X)
```
  O =TRUE é opcional, portanto você também pode especificar uma opção booleana assim:
  SQL
```
SELECT * FROM STREAM source_table WITH (SKIPCHANGECOMMITS)
```

nota

As opções de leitura são suportadas apenas para Databricks Runtime 17.3 e versões superiores.

As opções de leitura abaixo têm suporte para o Delta; para obter detalhes sobre cada opção, consulte Tabela de leituras e gravações de transmissão do Delta Lake.

maxFilesPerTrigger
maxBytesPerTrigger
startingVersion
startingTimestamp
readChangeFeed
withEventTimeOrder
skipChangeCommits

Permissões necessárias

O usuário execução-as para um pipeline deve ter as seguintes permissões:

SELECT privilégio sobre as tabelas base referenciadas pela tabela de transmissão.
USE CATALOG privilégio no catálogo pai e o privilégio USE SCHEMA no esquema pai.
CREATE MATERIALIZED VIEW privilégio no esquema da tabela de transmissão.

Para que um usuário possa atualizar o pipeline no qual a tabela de transmissão está definida, ele precisa:

USE CATALOG privilégio no catálogo pai e o privilégio USE SCHEMA no esquema pai.
Propriedade da tabela transmissão ou privilégio REFRESH na tabela transmissão.
O proprietário da tabela de transmissão deve ter o privilégio SELECT sobre as tabelas base referenciadas pela tabela de transmissão.

Para que um usuário possa consultar a tabela de transmissão resultante, ele precisa:

USE CATALOG privilégio no catálogo pai e o privilégio USE SCHEMA no esquema pai.
SELECT privilégio sobre a tabela de transmissão.

Limitações

Somente os proprietários das tabelas podem refresh as tabelas de transmissão para obter os dados mais recentes.
ALTER TABLE comando não são permitidos em tabelas de transmissão. A definição e as propriedades da tabela devem ser alteradas por meio da instrução CREATE OR REFRESH ou ALTER STREAMING TABLE .
A evolução do esquema da tabela por meio de comandos DML como INSERT INTO e MERGE não é suportada.
Os seguintes comandos não são suportados em tabelas de transmissão:
- CREATE TABLE ... CLONE <streaming_table>
- COPY INTO
- ANALYZE TABLE
- RESTORE
- TRUNCATE
- GENERATE MANIFEST
- [CREATE OR] REPLACE TABLE
Não há suporte para renomear a tabela ou alterar o proprietário.

Exemplos

SQL
-- Define a streaming table from a volume of files:
CREATE OR REFRESH STREAMING TABLE customers_bronze
AS SELECT * FROM STREAM read_files("/databricks-datasets/retail-org/customers/*", format => "csv")

-- Define a streaming table from a streaming source table:
CREATE OR REFRESH STREAMING TABLE customers_silver
AS SELECT * FROM STREAM(customers_bronze)

-- Use automatic liquid clustering to let Databricks choose the clustering columns:
CREATE OR REFRESH STREAMING TABLE customers_bronze_auto
CLUSTER BY AUTO
AS SELECT * FROM STREAM read_files("/databricks-datasets/retail-org/customers/*", format => "csv")

-- Define a table with a row filter and column mask:
CREATE OR REFRESH STREAMING TABLE customers_silver (
  id int COMMENT 'This is the customer ID',
  name string,
  region string,
  ssn string MASK catalog.schema.ssn_mask_fn COMMENT 'SSN masked for privacy'
)
WITH ROW FILTER catalog.schema.us_filter_fn ON (region)
AS SELECT * FROM STREAM(customers_bronze)

-- Define a streaming table with an identity column:
CREATE OR REFRESH STREAMING TABLE customers_with_id (
  customer_id BIGINT GENERATED ALWAYS AS IDENTITY,
  name string,
  region string
)
AS SELECT name, region FROM STREAM(customers_bronze)

-- Define a streaming table that you can add flows into:
CREATE OR REFRESH STREAMING TABLE orders;

-- Define a streaming table with an inline append flow:
CREATE OR REFRESH STREAMING TABLE raw_data
FLOW INSERT BY NAME SELECT * FROM STREAM read_files('abfss://my_path');

-- Define a streaming table with an inline AUTO CDC flow:
CREATE OR REFRESH STREAMING TABLE target
FLOW AUTO CDC
FROM stream(cdc_data.users)
KEYS (userId)
SEQUENCE BY sequenceNum
STORED AS SCD TYPE 1;

Sintaxe​

Parâmetros​

Permissões necessárias​

Limitações​

Exemplos​

Sintaxe

Parâmetros

Permissões necessárias

Limitações

Exemplos