Pular para o conteúdo principal

Configurar compute clássica para o pipeline declarativo LakeFlow

Esta página contém instruções para configurar compute clássica para o pipeline declarativo LakeFlow . Para obter uma referência do esquema JSON , consulte a definição clusters na referência da API do pipeline.

Para criar um pipeline que seja executado no Classic compute, os usuários devem primeiro ter permissão para usar o Classic compute, seja permissão de criação irrestrita ou acesso a uma política compute . O pipeline sem servidor não requer permissões de criação compute . Por default, todos os usuários workspace podem usar o pipeline serverless .

nota

Como o tempo de execução do pipeline declarativo LakeFlow gerencia o ciclo de vida da compute pipeline e executa uma versão personalizada do Databricks Runtime, não é possível definir manualmente algumas configurações compute em uma configuração pipeline , como a versão Spark ou nomes de cluster . Consulte Atributos de cluster que não podem ser definidos pelo usuário.

Selecione compute para seu pipeline

Para configurar compute clássica para seu pipeline no Editor LakeFlow Pipelines :

  1. Clique em Configurações .
  2. Na seção de computação das configurações pipeline , clique em Ícone de lápis..
  3. Se estiver marcado, desmarque serverless .
  4. Faça outras alterações nas configurações compute e clique em Salvar .

Isso configura seu pipeline para usar compute clássica e permite que você edite as configurações compute , conforme descrito abaixo.

Para obter mais informações sobre o LakeFlow Pipelines Editor, consulte Desenvolver e depurar pipeline ETL com o LakeFlow Pipelines Editor.

Selecione uma política compute

Os administradores do espaço de trabalho podem configurar políticas compute para fornecer aos usuários acesso ao recurso compute clássico para o pipeline declarativo LakeFlow . políticas de computação são opcionais. Verifique com o administrador do seu workspace se você não tem os privilégios compute necessários para o pipeline declarativo LakeFlow Consulte Definir limites na computedo pipeline declarativo LakeFlow.

Ao usar a API do pipeline, para garantir que os valores default da política compute sejam aplicados corretamente, defina "apply_policy_default_values": true na definição clusters :

JSON
{
"clusters": [
{
"label": "default",
"policy_id": "<policy-id>",
"apply_policy_default_values": true
}
]
}

Configurar tags compute

Você pode adicionar tags personalizadas ao recurso compute clássico do seu pipeline. As tags permitem que você monitore o custo do recurso compute usado por vários grupos na sua organização. Databricks aplica essas tags ao recurso cloud e aos logs de uso registrados nas tabelas do sistema de uso. Você pode adicionar tags usando a configuração da interface do usuário Cluster Tag ou editando a configuração JSON do seu pipeline.

Selecione os tipos de instância para executar um pipeline

Por default, o pipeline declarativo LakeFlow seleciona os tipos de instância para os nós de driver e worker do seu pipeline. Opcionalmente, você pode configurar os tipos de instância. Por exemplo, selecione tipos de instância para melhorar o desempenho do pipeline ou resolver problemas de memória ao executar seu pipeline.

Para configurar tipos de instância ao criar ou editar um pipeline no Editor LakeFlow Pipelines :

  1. Clique no botão Configurações .
  2. Na seção de computação das configurações pipeline , clique em Ícone de lápis..
  3. Na seção Configurações avançadas , selecione os tipos de instância Tipo de trabalhador e Tipo de driver para o pipeline.

Configurar configurações separadas para os clusters de atualização e manutenção

Cada pipeline declarativo tem dois recursos compute associados: um cluster de atualização que processa atualizações pipeline e um cluster de manutenção que executa tarefas de manutenção diária (incluindo otimização preditiva). Por default, suas configurações compute se aplicam a ambos os clusters. Usar as mesmas configurações para ambos clusters melhora a confiabilidade da execução de manutenção, garantindo que as configurações necessárias, como credenciais de acesso a dados para um local de armazenamento, sejam aplicadas ao cluster de manutenção.

Para aplicar configurações a apenas um dos dois clusters, adicione o campo label ao objeto JSON de configuração. Há três valores possíveis para o campo label :

  • maintenance: Aplica a configuração somente ao cluster de manutenção.
  • updates: Aplica a configuração somente ao cluster de atualização.
  • default: Aplica a configuração aos clusters de atualização e manutenção. Este é o valor default se o campo label for omitido.

Se houver uma configuração conflitante, a configuração com o rótulo updates ou maintenance substituirá a configuração definida com o rótulo default .

nota

O cluster de manutenção diária é usado apenas em certos casos:

  • pipeline armazenado no Hive metastore.
  • pipeline no espaço de trabalho que não aceitou os termos compute serverless do serviço. Se precisar de ajuda para aceitar os termos, entre em contato com seu representante da Databricks.

Exemplo: definir uma configuração para o cluster de atualização

O exemplo a seguir define um parâmetro de configuração do Spark que é adicionado somente à configuração do cluster updates :

JSON
{
"clusters": [
{
"label": "default",
"autoscale": {
"min_workers": 1,
"max_workers": 5,
"mode": "ENHANCED"
}
},
{
"label": "updates",
"spark_conf": {
"key": "value"
}
}
]
}

Exemplo: Configurar tipos de instância para o cluster de atualização

Para evitar atribuir recursos desnecessários ao cluster maintenance , este exemplo usa o rótulo updates para definir os tipos de instância somente para o cluster updates .

JSON
{
"clusters": [
{
"label": "updates",
"node_type_id": "n1-highmem-16",
"driver_node_type_id": "n1-standard-4",
"...": "..."
}
]
}

Atrasar o desligamento compute

Para controlar o comportamento de desligamento do cluster, você pode usar o modo de desenvolvimento ou produção ou usar a configuração pipelines.clusterShutdown.delay na configuração do pipeline. O exemplo a seguir define o valor pipelines.clusterShutdown.delay como 60 segundos:

JSON
{
"configuration": {
"pipelines.clusterShutdown.delay": "60s"
}
}

Quando o modo production está ativado, o valor default para pipelines.clusterShutdown.delay é 0 seconds. Quando o modo development está ativado, o valor default é 2 hours.

nota

Como o recurso compute do pipeline declarativo LakeFlow é desligado automaticamente quando não está em uso, você não pode usar uma política compute que define autotermination_minutes. Isso resulta em um erro.

Crie um nó único compute

Um nó de computeúnico tem um nó driver que atua como mestre e worker. Isso se destina a cargas de trabalho que usam pequenas quantidades de dados ou não são distribuídas.

Para criar um compute de nó único, defina num_workers como 0. Por exemplo:

JSON
{
"clusters": [
{
"num_workers": 0
}
]
}