CREATE MATERIALIZED VIEW (pipeline)

Uma viewmaterializada é uma view onde resultados pré-computados estão disponíveis para consulta e podem ser atualizados para refletir mudanças na entrada. As visões materializadas são suportadas por um pipeline. Cada vez que uma view materializada é atualizada, os resultados da consulta são recalculados para refletir as alterações no conjunto de dados original. Você pode atualizar a visão materializada manualmente ou por meio de um programa.

Para saber mais sobre como executar atualizações programáticas, consulte a seção sobre a execução de uma atualização pipeline.

Sintaxe

CREATE [OR REFRESH] [PRIVATE] MATERIALIZED VIEW
  view_name
  [ column_list ]
  [ view_clauses ]
  AS query

column_list
   ( { column_name column_type column_properties } [, ...]
    [ CONSTRAINT expectation_name EXPECT (expectation_expr)
      [ ON VIOLATION { FAIL UPDATE | DROP ROW } ] ] [, ...]
    [ , table_constraint ] [...] )

   column_properties
      { NOT NULL | COMMENT column_comment | column_constraint | MASK clause } [ ... ]

view_clauses
  { USING { DELTA | ICEBERG } |
    PARTITIONED BY (col [, ...]) |
    CLUSTER BY clause |
    LOCATION path |
    COMMENT view_comment |
    TBLPROPERTIES clause |
    REFRESH POLICY refresh_clause |
    WITH { ROW FILTER clause } } [...]

Parâmetros

REFRESH

Se especificado, cria a view ou atualiza uma view existente e seu conteúdo.
PRIVADO

Cria uma view materializada privada. Uma view materializada privada pode ser útil como uma tabela intermediária dentro de um pipeline que você não deseja publicar no catálogo.
- Eles não são adicionados ao catálogo e só são acessíveis dentro do pipeline de definição
- Eles podem ter o mesmo nome que um objeto já existente no catálogo. Dentro do pipeline, se uma view materializada privada e um objeto no catálogo tiverem o mesmo nome, as referências ao nome são resolvidas para a view materializada privada.
- As visualizações materializadas privadas são persistidas somente durante toda a vida útil do pipeline, não apenas durante uma única atualização.
As visualizações materializadas privadas foram criadas anteriormente com o parâmetro TEMPORARY .
nome_da_visualização

O nome da view recém-criada. O nome view totalmente qualificado deve ser exclusivo.

A visualização materializada privada pode ter o mesmo nome de um objeto publicado no catálogo.
lista_de_colunas

Opcionalmente, rotule as colunas no resultado da consulta da view. Se você fornecer uma lista de colunas, o número de aliases de coluna deverá corresponder ao número de expressões na consulta. Se nenhuma lista de colunas for especificada, os aliases serão derivados do corpo da view.
- nome_da_coluna
  
  Os nomes das colunas devem ser exclusivos e mapeados para as colunas de saída da consulta.
- tipo_de_coluna
  
  Especifica o tipo de dados da coluna. Nem todos os tipos de dados suportados pelo Databricks são suportados pela visualização materializada.
- comentário_de_coluna
  
  Um literal STRING opcional que descreve a coluna. Esta opção deve ser especificada junto com column_type. Se o tipo de coluna não for especificado, o comentário da coluna será ignorado.
- restrição_de_coluna
  
  Adiciona uma restrição de chave primária informacional ou de chave estrangeira informacional à coluna em uma view materializada.
- Cláusula MASK
  
  Adiciona uma função de máscara de coluna para tornar dados confidenciais anônimos. Veja Filtros de linha e máscaras de coluna.
- CONSTRAINT expectation_name EXPECT (expectation_expr) [ ON VIOLATION { FAIL UPDATE | DROP ROW } ]
  
  Adiciona expectativas de qualidade de dados à visualização materializada. Essas expectativas de qualidade de dados podem ser rastreadas ao longo do tempo e acessadas por meio do log de eventos da visualização materializada. Uma expectativa FAIL UPDATE causa a falha do processamento tanto ao criar a visualização materializada quanto ao atualizá-la. Uma expectativa DROP ROW faz com que a linha inteira seja descartada se a expectativa não for atendida. Consulte Gerenciar a qualidade dos dados com expectativas de pipeline.
  
  expectation_expr Pode ser composto por literais, identificadores de coluna dentro da visualização materializada e funções ou operadores SQL determinísticos e integrados, exceto:
  - Funções de agregação
    - Funções de janela analíticas
    - Funções de janela de ranqueamento
    - Funções geradoras com valor de tabela
  Além disso, expr não deve conter nenhuma subconsulta.
  
  Uma view materializada cuja definição inclui expectativas é completamente atualizada a cada refresh e não suporta refresh incremental. Para usar a atualização incremental, remova as expectativas ou aplique-as fora da definição da visualização materializada.
restrição_de_tabela

Ao especificar um esquema, você pode definir uma chave primária e uma chave estrangeira. As restrições são informativas e não são impostas. Veja a cláusula CONSTRAINT na referência da linguagem SQL.

nota

Para definir restrições de tabela, seu pipeline deve ser um pipeline habilitado para o Unity Catalog.

cláusulas de exibição

Opcionalmente, especifique particionamento, comentários e propriedades definidas pelo usuário para a view materializada. Cada subcláusula só pode ser especificada uma vez.
- USANDO DELTA
  
  Especifica o formato dos dados. O default é DELTA.
  
  Esta cláusula é opcional.
- USANDO ICEBERG
  
  Cria uma view materializada que é compatível com leitores externos do Iceberg. Depois de criar a view materializada, execute REPAIR TABLE <mv_name> SYNC METADATA. A view materializada é somente leitura para leitores externos do Iceberg. Consulte Crie uma view materializada compatível com leitores externos do Iceberg.

info

Visualização

As visualizações materializadas de Iceberg gerenciadas estão em Pré-visualização Pública. Para habilitar este recurso, entre em contato com a equipe da sua account Databricks.

PARTICIONADO POR

Uma lista opcional de uma ou mais colunas a serem usadas para particionamento na tabela. Mutuamente exclusivo com CLUSTER BY.

clustering líquido oferece uma solução flexível e otimizada para clustering. Considere usar CLUSTER BY em vez de PARTITIONED BY para pipeline.
cluster POR

Habilite clustering líquido na tabela e defina as colunas a serem usadas como chave clustering . Use clustering líquido automático com CLUSTER BY AUTO e Databricks escolhe de forma inteligente a chave clustering para otimizar o desempenho da consulta. Mutuamente exclusivo com PARTITIONED BY.

Consulte Usar clustering líquido para tabelas.
Localização

Um local de armazenamento opcional para dados da tabela. Se não estiver definido, o sistema adotará como padrão o local de armazenamento do pipeline.

Esta opção só está disponível ao publicar no Hive metastore. No Unity Catalog, a localização é gerenciada automaticamente.
comentário

Uma descrição opcional para a tabela.
PROPRIEDADES TBL

Uma lista opcional de propriedades de tabela para a tabela.
POLÍTICA REFRESH

(Beta) Opcionalmente, define uma política refresh para a view materializada.

Consulte a cláusulaREFRESH POLICY (pipeline).
COM FILTRO DE LINHA

Adiciona uma função de filtro de linha à tabela. Consultas futuras para essa tabela recebem um subconjunto das linhas para as quais a função é avaliada como VERDADEIRO. Isso é útil para controle de acesso refinado, porque permite que a função inspecione a identidade e as associações de grupo do usuário que faz a chamada para decidir se deve filtrar determinadas linhas.

Veja a cláusulaROW FILTER.
query

Uma consulta que define o dataset para a tabela.

Permissões necessárias

O usuário execução-as para um pipeline deve ter as seguintes permissões:

SELECT privilégio sobre as tabelas base referenciadas pela view materializada.
USE CATALOG privilégio no catálogo pai e o privilégio USE SCHEMA no esquema pai.
CREATE TABLE e privilégios CREATE MATERIALIZED VIEW no esquema que contém a view materializada.

Para que um usuário possa atualizar o pipeline no qual a view materializada está definida, ele precisa:

USE CATALOG privilégio no catálogo pai e o privilégio USE SCHEMA no esquema pai.
Propriedade da view materializada ou privilégio REFRESH na view materializada.
O proprietário da view materializada deve ter o privilégio SELECT sobre as tabelas base referenciadas pela view materializada.

Para que um usuário possa consultar a view materializada resultante, ele precisa:

USE CATALOG privilégio no catálogo pai e o privilégio USE SCHEMA no esquema pai.
SELECT privilégio sobre a view materializada.

Limitações

Quando uma view materializada com um agregado sum sobre uma coluna NULL-able tem o último valor não NULL removido daquela coluna - e, portanto, somente valores NULL permanecem naquela coluna - o valor agregado resultante da view materializada retorna zero em vez de NULL.
A referência de coluna não requer um alias. Expressões de referência que não sejam de coluna requerem um alias, como no exemplo a seguir:
- Permitido: SELECT col1, SUM(col2) AS sum_col2 FROM t GROUP BY col1
- Não permitido: SELECT col1, SUM(col2) FROM t GROUP BY col1
NOT NULL deve ser especificado manualmente junto com PRIMARY KEY para ser uma declaração válida.
A visualização materializada não suporta colunas de identidade ou chaves substitutas.
A visualização materializada não suporta os comandos OPTIMIZE e VACUUM . A manutenção acontece automaticamente.
Não há suporte para renomear a tabela ou alterar o proprietário.
Colunas geradas, colunas de identidade e colunas default não são suportadas.

Exemplos

SQL
-- Create a materialized view by reading from an external data source, using the default schema:
CREATE OR REFRESH MATERIALIZED VIEW taxi_raw
AS SELECT * FROM read_files("/databricks-datasets/nyctaxi/sample/json/")

-- Create a materialized view by reading from a dataset defined in a pipeline:
CREATE OR REFRESH MATERIALIZED VIEW filtered_data
AS SELECT
  ...
FROM taxi_raw

-- Specify a schema and clustering columns for a table:
CREATE OR REFRESH MATERIALIZED VIEW sales
(customer_id STRING,
  customer_name STRING,
  number_of_line_items STRING,
  order_datetime STRING,
  order_number LONG,
  order_day_of_week STRING GENERATED ALWAYS AS (dayofweek(order_datetime))
) CLUSTER BY (order_day_of_week, customer_id)
COMMENT "Raw data on sales"
AS SELECT * FROM ...

-- Use automatic liquid clustering to let Databricks choose the clustering columns:
CREATE OR REFRESH MATERIALIZED VIEW sample_trips
CLUSTER BY AUTO
AS SELECT pickup_zip, fare_amount FROM samples.nyctaxi.trips

-- Specify partition columns for a table:
CREATE OR REFRESH MATERIALIZED VIEW sales
(customer_id STRING,
  customer_name STRING,
  number_of_line_items STRING,
  order_datetime STRING,
  order_number LONG,
  order_day_of_week STRING GENERATED ALWAYS AS (dayofweek(order_datetime))
) PARTITIONED BY (order_day_of_week)
COMMENT "Raw data on sales"
AS SELECT * FROM ...

-- Specify a primary and foreign key constraint for a table:
CREATE OR REFRESH MATERIALIZED VIEW sales
(customer_id STRING NOT NULL PRIMARY KEY,
  customer_name STRING,
  number_of_line_items STRING,
  order_datetime STRING,
  order_number LONG,
  order_day_of_week STRING GENERATED ALWAYS AS (dayofweek(order_datetime)),
  CONSTRAINT fk_customer_id FOREIGN KEY (customer_id) REFERENCES main.default.customers(customer_id)
)
COMMENT "Raw data on sales"
AS SELECT * FROM ...

-- Specify a row filter and mask clause for a table:
CREATE OR REFRESH MATERIALIZED VIEW sales (
  customer_id STRING MASK catalog.schema.customer_id_mask_fn,
  customer_name STRING,
  number_of_line_items STRING COMMENT 'Number of items in the order',
  order_datetime STRING,
  order_number LONG,
  order_day_of_week STRING GENERATED ALWAYS AS (dayofweek(order_datetime))
)
COMMENT "Raw data on sales"
WITH ROW FILTER catalog.schema.order_number_filter_fn ON (order_number)
AS SELECT * FROM sales_bronze

Sintaxe​

Parâmetros​

Permissões necessárias​

Limitações​

Exemplos​

Sintaxe

Parâmetros

Permissões necessárias

Limitações

Exemplos