Configure compute clássico para o pipeline.

Esta página contém instruções para configurar compute clássico para o pipeline declarativo LakeFlow Spark . Para uma referência do esquema JSON , consulte a definição clusters na referência API do pipeline.

Para criar um pipeline que seja executado no Classic compute, os usuários devem primeiro ter permissão para usar o Classic compute, seja permissão de criação irrestrita ou acesso a uma política compute . O pipeline sem servidor não requer permissões de criação compute . Por default, todos os usuários workspace podem usar o pipeline serverless .

nota

Como o ambiente de execução de pipeline declarativo LakeFlow Spark gerencia o ciclo de vida da compute e execução pipeline usando uma versão personalizada do Databricks Runtime, você não pode definir manualmente algumas configurações compute em uma configuração pipeline , como a versão Spark ou os nomes cluster . Consulte Atributos de cluster que não podem ser definidos pelo usuário.

Selecione compute para seu pipeline

Para configurar compute clássica para seu pipeline no Editor LakeFlow Pipelines :

Clique em Configurações .
Na seção de computação das configurações pipeline , clique em editar.
Se estiver marcado, desmarque serverless .
Faça outras alterações nas configurações compute e clique em Salvar .

Isso configura seu pipeline para usar compute clássica e permite que você edite as configurações compute , conforme descrito abaixo.

Para obter mais informações sobre o LakeFlow Pipelines Editor, consulte Desenvolver e depurar pipeline ETL com o LakeFlow Pipelines Editor.

Selecione uma política compute

Os administradores do espaço de trabalho podem configurar políticas compute para fornecer aos usuários acesso a recursos compute clássicos para pipelines. As políticas de computação são opcionais. Verifique com o administrador do seu workspace se você não possui os privilégios compute necessários. Consulte Definir limites no pipeline de computedeclarativa LakeFlow Spark.

Ao usar a API do pipeline, para garantir que os valores default da política compute sejam aplicados corretamente, defina "apply_policy_default_values": true na definição clusters :

JSON
{
  "clusters": [
    {
      "label": "default",
      "policy_id": "<policy-id>",
      "apply_policy_default_values": true
    }
  ]
}

Configurar tags compute

Você pode adicionar tags personalizadas ao recurso compute clássico do seu pipeline. As tags permitem que você monitore o custo do recurso compute usado por vários grupos na sua organização. Databricks aplica essas tags ao recurso cloud e aos logs de uso registrados nas tabelas do sistema de uso. Você pode adicionar tags usando a configuração da interface do usuário Cluster Tag ou editando a configuração JSON do seu pipeline.

Selecione os tipos de instância para executar um pipeline

Por default, o pipeline declarativo LakeFlow Spark seleciona os tipos de instância para os nós de driver e worker do seu pipeline. Opcionalmente, você pode configurar os tipos de instância. Por exemplo, selecione tipos de instância para melhorar o desempenho do pipeline ou resolver problemas de memória ao executar o pipeline.

Para configurar tipos de instância ao criar ou editar um pipeline no Editor LakeFlow Pipelines :

Clique no botão Configurações .
Na seção de computação das configurações pipeline , clique em .
Na seção Configurações avançadas , selecione os tipos de instância Tipo de trabalhador e Tipo de driver para o pipeline.

Configurar configurações separadas para os clusters de atualização e manutenção

Cada pipeline declarativo tem dois recursos compute associados: um cluster de atualização que processa atualizações pipeline e um cluster de manutenção que executa tarefas de manutenção diária (incluindo otimização preditiva). Por default, suas configurações compute se aplicam a ambos os clusters. Usar as mesmas configurações para ambos clusters melhora a confiabilidade da execução de manutenção, garantindo que as configurações necessárias, como credenciais de acesso a dados para um local de armazenamento, sejam aplicadas ao cluster de manutenção.

Para aplicar configurações a apenas um dos dois clusters, adicione o campo label ao objeto JSON de configuração. Há três valores possíveis para o campo label :

maintenance: Aplica a configuração somente ao cluster de manutenção.
updates: Aplica a configuração somente ao cluster de atualização.
default: Aplica a configuração aos clusters de atualização e manutenção. Este é o valor default se o campo label for omitido.

Se houver uma configuração conflitante, a configuração com o rótulo updates ou maintenance substituirá a configuração definida com o rótulo default .

nota

O cluster de manutenção diária é usado apenas em certos casos:

pipeline armazenado no Hive metastore.
pipeline no espaço de trabalho que não aceitou os termos compute serverless do serviço. Se precisar de ajuda para aceitar os termos, entre em contato com seu representante da Databricks.

Exemplo: definir uma configuração para o cluster de atualização

O exemplo a seguir define um parâmetro de configuração do Spark que é adicionado somente à configuração do cluster updates :

JSON
{
  "clusters": [
    {
      "label": "default",
      "autoscale": {
        "min_workers": 1,
        "max_workers": 5,
        "mode": "ENHANCED"
      }
    },
    {
      "label": "updates",
      "spark_conf": {
        "key": "value"
      }
    }
  ]
}

Exemplo: Configurar tipos de instância para o cluster de atualização

Para evitar atribuir recursos desnecessários ao cluster maintenance , este exemplo usa o rótulo updates para definir os tipos de instância somente para o cluster updates .

JSON
{
  "clusters": [
    {
      "label": "updates",
      "node_type_id": "r6i.xlarge",
      "driver_node_type_id": "i3.large",
      "...": "..."
    }
  ]
}

Atrasar o desligamento compute

Para controlar o comportamento de desligamento do cluster, você pode usar o modo de desenvolvimento ou produção ou usar a configuração pipelines.clusterShutdown.delay na configuração do pipeline. O exemplo a seguir define o valor pipelines.clusterShutdown.delay como 60 segundos:

JSON
{
  "configuration": {
    "pipelines.clusterShutdown.delay": "60s"
  }
}

Quando o modo production está ativado, o valor default para pipelines.clusterShutdown.delay é 0 seconds. Quando o modo development está ativado, o valor default é 2 hours.

nota

Como o recurso compute do pipeline declarativo LakeFlow Spark é desligado automaticamente quando não está em uso, você não pode usar uma política compute que defina autotermination_minutes. Isso resulta em um erro.

Crie um nó único compute

Um nó de computeúnico tem um nó driver que atua como mestre e worker. Isso se destina a cargas de trabalho que usam pequenas quantidades de dados ou não são distribuídas.

Para criar um compute de nó único, defina num_workers como 0. Por exemplo:

JSON
{
  "clusters": [
    {
      "num_workers": 0
    }
  ]
}

Selecione compute para seu pipeline​

Selecione uma política compute​

Configurar tags compute​

Selecione os tipos de instância para executar um pipeline​

Configurar configurações separadas para os clusters de atualização e manutenção​

Exemplo: definir uma configuração para o cluster de atualização​

Exemplo: Configurar tipos de instância para o cluster de atualização​

Atrasar o desligamento compute​

Crie um nó único compute​

Selecione compute para seu pipeline

Selecione uma política compute

Configurar tags compute

Selecione os tipos de instância para executar um pipeline

Configurar configurações separadas para os clusters de atualização e manutenção

Exemplo: definir uma configuração para o cluster de atualização

Exemplo: Configurar tipos de instância para o cluster de atualização

Atrasar o desligamento compute

Crie um nó único compute