Configurar um pipeline do Delta Live Tables

Este artigo descreve a configuração básica do pipeline Delta Live Tables usando a UI workspace.

Databricks recomenda o desenvolvimento de um novo pipeline usando o site serverless. Para obter instruções de serverless configuração para serverless Delta Live Tables pipeline o pipeline, consulte Configurar um pipeline .

As instruções de configuração neste artigo usam o endereço Unity Catalog. Para obter instruções sobre como configurar o pipeline com o legado Hive metastore, consulte Usar o pipeline Delta Live Tables com o legado Hive metastore.

Observação

A interface do usuário tem uma opção para exibir e editar configurações em JSON. O senhor pode definir a maioria das configurações com a interface do usuário ou com uma especificação JSON. Algumas opções avançadas só estão disponíveis usando a configuração JSON.

JSON Os arquivos de configuração também são úteis ao implantar o pipeline em novos ambientes ou ao usar o CLI ou o REST API.

Para obter uma referência completa sobre as definições de configuração JSON do Delta Live Tables, consulte Configurações de pipeline do Delta Live Tables.

Configurar um novo pipeline do Delta Live Tables

Para configurar um novo pipeline do Delta Live Tables, faça o seguinte:

  1. Clique em Delta Live Tables na barra lateral.

  2. Clique em Create pipeline (Criar pipeline).

  3. Forneça um nome exclusivo para o pipeline.

  4. Use o seletor de arquivos Ícone do seletor de arquivos para configurar os arquivos do Notebook e workspace como código-fonte.

    • O senhor deve adicionar pelo menos um ativo de código-fonte.

    • Use o botão Add source code (Adicionar código-fonte ) para adicionar código-fonte ativo adicional.

  5. Selecione um catálogo para publicar dados.

  6. Selecione um esquema no catálogo. Todas as tabelas de transmissão e visualizações materializadas definidas no site pipeline são criadas nesse esquema.

  7. Na seção de computação, marq ue a caixa ao lado de Use Photon Acceleration (Usar aceleração). Para considerações adicionais sobre a configuração do site compute, consulte opções de configuração de computação.

  8. Clique em Criar.

Essas configurações recomendadas criam um novo pipeline configurado para execução no modo Triggered e usam o canal Current. Essa configuração é recomendada para muitos casos de uso, incluindo desenvolvimento e teste, e é adequada para cargas de trabalho de produção que devem ser executadas em um programador. Para obter detalhes sobre o pipeline de programação, consulte Delta Live Tables pipeline tarefa for Job.

Opções de configuração de computação

Databricks recomenda sempre usar a escala automática aprimorada. Os valores padrão para outras configurações do compute funcionam bem para muitos pipelines.

O pipeline sem servidor remove as opções de configuração do compute. Para obter instruções de serverless configuração do serverless Delta Live Tables pipeline pipeline, consulte Configurar um pipeline .

Use as seguintes configurações para personalizar as configurações do site compute:

  • Use o Cluster Tag para ajudar a monitorar os custos associados ao pipeline Delta Live Tables. Consulte Configurar tag de cluster.

  • Configure Instance types para especificar o tipo de máquinas virtuais usadas para executar seu pipeline. Consulte Selecionar tipos de instância para executar a pipeline.

    • Selecione um tipo de trabalhador otimizado para as cargas de trabalho configuradas em seu site pipeline.

    • Opcionalmente, o senhor pode selecionar um tipo de driver diferente do seu tipo worker. Isso pode ser útil para reduzir os custos no pipeline com grandes tipos de worker e baixa utilização do driver compute ou para escolher um tipo de driver maior para evitar problemas de falta de memória em cargas de trabalho com muitos trabalhadores pequenos.

Outras considerações de configuração

As seguintes opções de configuração também estão disponíveis para o pipeline:

Escolha uma edição do produto

Selecione a edição do produto Delta Live Tables com o melhor recurso para suas necessidades pipeline. As seguintes edições do produto estão disponíveis:

  • Core para execução, transmissão e ingestão de cargas de trabalho. Selecione a edição Core se o site pipeline não exigir recursos avançados, como captura de dados de alterações (CDC) (CDC) ou Delta Live Tables expectations.

  • Pro para execução, transmissão, ingestão e CDC cargas de trabalho. A edição Pro produto oferece suporte a todos os recursos Core, além de suporte a cargas de trabalho que exigem a atualização de tabelas com base em alterações nos dados de origem.

  • Advanced para execução transmissão ingest cargas de trabalho, CDC cargas de trabalho e cargas de trabalho que exigem expectativas. A edição do produto Advanced suporta o recurso das edições Core e Pro e inclui restrições de qualidade de dados com as expectativas do site Delta Live Tables.

O senhor pode selecionar a edição do produto ao criar ou editar um pipeline. O senhor pode escolher uma edição diferente para cada pipeline. Veja a página do produto Delta Live Tables.

Observação: se o site pipeline incluir recursos não compatíveis com a edição do produto selecionada, como expectativas, o senhor receberá uma mensagem de erro explicando o motivo do erro. O senhor pode então editar o pipeline para selecionar a edição apropriada.

Configurar o código-fonte

O senhor pode usar o seletor de arquivos na UI do Delta Live Tables para configurar o código-fonte que define seu pipeline. O código-fonte do pipeline é definido no Databricks Notebook ou nos scripts SQL ou Python armazenados nos arquivos workspace. Ao criar ou editar o site pipeline, o senhor pode adicionar um ou mais arquivos Notebook ou workspace ou uma combinação de arquivos Notebook e workspace.

Como o Delta Live Tables analisa automaticamente as dependências do dataset para construir o gráfico de processamento do seu pipeline, o senhor pode adicionar o código-fonte ativo em qualquer ordem.

O senhor pode modificar o arquivo JSON para incluir o código-fonte Delta Live Tables definido em SQL e os scripts Python armazenados nos arquivos workspace. O exemplo a seguir inclui os arquivos Notebook e workspace:

{
  "name": "Example pipeline 3",
  "storage": "dbfs:/pipeline-examples/storage-location/example3",
  "libraries": [
    { "notebook": { "path": "/example-notebook_1" } },
    { "notebook": { "path": "/example-notebook_2" } },
    { "file": { "path": "/Workspace/Users/<user-name>@databricks.com/Apply_Changes_Into/apply_changes_into.sql" } },
    { "file": { "path": "/Workspace/Users/<user-name>@databricks.com/Apply_Changes_Into/apply_changes_into.py" } }
  ]
}

gerenciar dependências externas para pipelines que usam Python

Delta Live Tables suporta o uso de dependências externas em seu pipeline, como Python pacote e biblioteca. Para saber mais sobre as opções e recomendações para o uso de dependências, consulte gerenciar Python dependencies for Delta Live Tables pipeline.

Use os módulos Python armazenados em seu espaço de trabalho do Databricks

Além de implementar seu código Python no Databricks Notebook, o senhor pode usar Databricks Git Folders ou workspace files para armazenar seu código como módulos Python. Armazenar seu código como módulos do Python é especialmente útil quando o senhor tem uma funcionalidade comum que deseja usar em vários pipelines ou Notebooks no mesmo pipeline. Para saber como usar os módulos Python com o seu pipeline, consulte Importar módulos Python de pastas Git ou arquivos workspace .