Defina o catálogo de destino e o esquema
A localização padrão para a seção de dados ativos da interface de configuração pipeline define o catálogo e o esquema default para um pipeline. Este catálogo e esquema default são usados para todas as definições dataset e leituras de tabelas, a menos que sejam substituídos na consulta.
O modo de publicação legado usa o esquema virtual LIVE para obter um comportamento semelhante. No modo de publicação default (usado por todos os novos pipelines), a palavra-chave LIVE é ignorada. Veja o esquema LIVE (legado).
Segmente um dataset em um catálogo ou esquema diferente
O pipeline declarativo LakeFlow Spark suporta semântica de resolução de identificadores em três níveis. Databricks recomenda o uso de identificadores totalmente qualificados para consultas e instruções que tenham como alvo conjuntos de dados diferentes do padrão configurado para seu pipeline. Consulte a resolução de identificadoresUnity Catalog. Por exemplo, para criar uma view materializada chamada regional_sales no catálogo main e no esquema stores , que não são os padrões do seu pipeline , qualifique totalmente o nome, como main.stores.regional_sales:
- Python
- SQL
from pyspark import pipelines as dp
@dp.materialized_view(name="main.stores.regional_sales")
def func():
return spark.read.table("partners");
CREATE OR REPLACE MATERIALIZED VIEW main.stores.regional_sales
AS SELECT *
FROM partners;
Pipelimes suporta os comandos SQL USE CATALOG catalog_name e USE SCHEMA schema_name. A execução desses comandos define o catálogo e o esquema atuais, restringindo-os ao arquivo ou Notebook que os contém. As operações que seguem esses comandos no arquivo de código-fonte e usam identificadores não qualificados ou parcialmente qualificados são resolvidas para o catálogo e esquema atuais, em vez dos valores default definidos na configuração pipeline . Consulte Qual é o catálogo e o esquema atuais?
O que acontece se um dataset não existir?
A tabela a seguir descreve o comportamento quando o código-fonte pipeline faz referência a conjuntos de dados que não existem:
Operação | Resultado |
|---|---|
Ler | Se uma tabela, view materializada, tabela de transmissão ou view não existir para o identificador especificado, a atualização falhará. |
Gravar | Se uma view materializada, tabela de transmissão, view ou coletor não existir para o identificador especificado, a atualização tentará criar o dataset. Se necessário, a atualização também cria o esquema especificado. |
Você poderá receber uma mensagem de erro informando que um dataset não existe se você não tiver privilégios suficientes para view dataset.
Você precisa ter privilégios suficientes para ler, gravar e criar conjuntos de dados com o pipeline declarativo LakeFlow Spark . Consulte os Requisitos.