Pular para o conteúdo principal

Configurar o site clássico compute para o pipeline declarativo LakeFlow

Esta página contém instruções para configurar o site clássico compute para o pipeline declarativo LakeFlow. Para obter uma referência do esquema JSON, consulte a definição clusters na referência do pipeline API.

Para criar um pipeline que seja executado no compute clássico, os usuários devem primeiro ter permissão para implantar o compute clássico, seja permissão de criação irrestrita ou acesso a uma política compute. O pipeline sem servidor não exige permissões de criação de compute. Por meio do default, todos os usuários do workspace podem usar o pipeline serverless.

nota

Como o LakeFlow Declarative pipeline runtime gerencia o ciclo de vida do pipeline compute e executa uma versão personalizada do Databricks Runtime, não é possível definir manualmente algumas configurações do compute em uma configuração do pipeline, como a versão do Spark ou os nomes de clustering. Consulte atributos de clustering que não podem ser definidos pelo usuário.

Selecione uma política compute

Os administradores do espaço de trabalho podem configurar políticas compute para fornecer aos usuários acesso ao recurso clássico compute para o pipeline declarativo LakeFlow. As políticas de computação são opcionais. compute Verifique com o administrador do workspace se o senhor não tem os privilégios necessários para o LakeFlow Declarative pipeline.Consulte Definir limites no LakeFlow Declarative pipeline compute.

Ao usar o pipeline API, para garantir que os valores da política compute default sejam aplicados corretamente, defina "apply_policy_default_values": true na definição clusters:

JSON
{
"clusters": [
{
"label": "default",
"policy_id": "<policy-id>",
"apply_policy_default_values": true
}
]
}

Configurar as tags compute

O senhor pode adicionar tags personalizadas ao seu pipeline's clássico compute recurso. As tags permitem que o senhor monitore o custo do recurso compute usado por vários grupos em sua organização. Databricks aplica essas tags ao recurso de nuvem e ao uso logs registrado nas tabelas do sistema de uso. O senhor pode adicionar tags usando a configuração da UI do Cluster Tag ou editando a configuração JSON do seu pipeline.

Selecione os tipos de instância para executar a pipeline

Por meio do default, o pipeline declarativo do LakeFlow seleciona os tipos de instância para o driver do pipeline e os nós do worker. Opcionalmente, você pode configurar os tipos de instância. Por exemplo, selecione tipos de instância para melhorar o desempenho do pipeline ou resolver problemas de memória ao executar o pipeline.

Para configurar os tipos de instância quando o senhor cria ou edita um pipeline na UI do pipeline declarativo LakeFlow:

  1. Clique no botão Configurações .
  2. Na seção Advanced das configurações do site pipeline, nos menus suspensos worker type e Driver type , selecione os tipos de instância para o site pipeline.

Configurar definições separadas para o clustering de atualização e manutenção

Cada pipeline declarativo tem dois compute recursos associados: um cluster de atualização que processa as atualizações do pipeline e um cluster de manutenção que executa a tarefa de manutenção diária (inclusive a otimização preditiva). Em default, suas configurações de compute se aplicam a ambos os clusters. O uso das mesmas configurações para ambos clusters aumenta a confiabilidade da execução da manutenção, garantindo que as configurações necessárias, como as credenciais de acesso aos dados de um local de armazenamento, sejam aplicadas à manutenção cluster.

Para aplicar as configurações a apenas um dos dois clusters, adicione o campo label ao objeto de configuração JSON. Há três valores possíveis para o campo label:

  • maintenance: Aplica a configuração somente ao clustering de manutenção.
  • updates: Aplica a configuração somente ao clustering de atualização.
  • default: Aplica a configuração ao clustering de atualização e manutenção. Esse é o valor default se o campo label for omitido.

Se houver uma configuração conflitante, a configuração com o rótulo updates ou maintenance substituirá a configuração definida com o rótulo default.

nota

O cluster de manutenção diária é usado somente em determinados casos:

  • pipeline armazenado em Hive metastore.
  • pipeline no espaço de trabalho que não aceitaram os termos de serviço do serverless compute . Se precisar de ajuda para aceitar os termos, entre em contato com o representante da Databricks.

Exemplo: Definir uma configuração para o clustering de atualização

O exemplo a seguir define um parâmetro de configuração Spark que é adicionado somente à configuração do clustering updates:

JSON
{
"clusters": [
{
"label": "default",
"autoscale": {
"min_workers": 1,
"max_workers": 5,
"mode": "ENHANCED"
}
},
{
"label": "updates",
"spark_conf": {
"key": "value"
}
}
]
}

Exemplo: Configurar tipos de instância para o clustering de atualização

Para evitar a atribuição de recursos desnecessários ao agrupamento maintenance, este exemplo usa o rótulo updates para definir os tipos de instância somente para o agrupamento updates.

JSON
{
"clusters": [
{
"label": "updates",
"node_type_id": "r6i.xlarge",
"driver_node_type_id": "i3.large",
"...": "..."
}
]
}

Atraso compute desligamento

Para controlar o comportamento de desligamento do clustering, o senhor pode usar o modo de desenvolvimento ou produção ou usar a configuração pipelines.clusterShutdown.delay na configuração pipeline. O exemplo a seguir define o valor pipelines.clusterShutdown.delay como 60 segundos:

JSON
{
"configuration": {
"pipelines.clusterShutdown.delay": "60s"
}
}

Quando o modo production está ativado, o valor default para pipelines.clusterShutdown.delay é 0 seconds. Quando o modo development está ativado, o valor default é 2 hours.

nota

Como o LakeFlow Declarative pipeline compute recurso é desligado automaticamente quando não está em uso, o senhor não pode usar uma política compute que defina autotermination_minutes. Isso resulta em um erro.

Criar um único nó compute

Um único nó compute tem um nó de driver que atua como mestre e worker. Isso se destina a cargas de trabalho que usam pequenas quantidades de dados ou não são distribuídas.

Para criar um nó único compute, defina num_workers como 0. Por exemplo:

JSON
{
"clusters": [
{
"num_workers": 0
}
]
}