Pular para o conteúdo principal

Defina o catálogo de destino e o esquema

A localização padrão para a seção de dados ativos da interface de configuração pipeline define o catálogo e o esquema default para um pipeline. Este catálogo e esquema default são usados para todas as definições dataset e leituras de tabelas, a menos que sejam substituídos na consulta.

nota

O modo de publicação legado usa o esquema virtual LIVE para obter um comportamento semelhante. No modo de publicação default (usado por todos os novos pipelines), a palavra-chave LIVE é ignorada. Veja o esquema LIVE (legado).

Segmente um dataset em um catálogo ou esquema diferente

O pipeline declarativo LakeFlow Spark suporta semântica de resolução de identificadores em três níveis. Databricks recomenda o uso de identificadores totalmente qualificados para consultas e instruções que tenham como alvo conjuntos de dados diferentes do padrão configurado para seu pipeline. Consulte a resolução de identificadoresUnity Catalog. Por exemplo, para criar uma view materializada chamada regional_sales no catálogo main e no esquema stores , que não são os padrões do seu pipeline , qualifique totalmente o nome, como main.stores.regional_sales:

Python
from pyspark import pipelines as dp

@dp.materialized_view(name="main.stores.regional_sales")
def func():
return spark.read.table("partners");

Pipelimes suporta os comandos SQL USE CATALOG catalog_name e USE SCHEMA schema_name. A execução desses comandos define o catálogo e o esquema atuais, restringindo-os ao arquivo ou Notebook que os contém. As operações que seguem esses comandos no arquivo de código-fonte e usam identificadores não qualificados ou parcialmente qualificados são resolvidas para o catálogo e esquema atuais, em vez dos valores default definidos na configuração pipeline . Consulte Qual é o catálogo e o esquema atuais?

O que acontece se um dataset não existir?

A tabela a seguir descreve o comportamento quando o código-fonte pipeline faz referência a conjuntos de dados que não existem:

Operação

Resultado

Ler

Se uma tabela, view materializada, tabela de transmissão ou view não existir para o identificador especificado, a atualização falhará.

Gravar

Se uma view materializada, tabela de transmissão, view ou coletor não existir para o identificador especificado, a atualização tentará criar o dataset. Se necessário, a atualização também cria o esquema especificado.

importante

Você poderá receber uma mensagem de erro informando que um dataset não existe se você não tiver privilégios suficientes para view dataset.

Você precisa ter privilégios suficientes para ler, gravar e criar conjuntos de dados com o pipeline declarativo LakeFlow Spark . Consulte os Requisitos.