Pular para o conteúdo principal

Configurar compute para uma DLT pipeline

Este artigo contém instruções e considerações ao definir as configurações personalizadas do compute para o pipeline DLT.

Selecionar uma política de cluster

Os usuários devem ter permissão para implantar o site compute para configurar e atualizar o pipeline DLT. Os administradores de workspace podem configurar a política de cluster para fornecer aos usuários acesso a compute recurso para DLT. Consulte Definir limites no DLT pipeline compute .

nota
  • política de cluster são opcionais. Consulte o administrador do site workspace se o senhor não tiver os privilégios de compute necessários para a DLT.

  • Para garantir que os valores da política de cluster default sejam aplicados corretamente, defina apply_policy_default_values como true nas configurações de clustering em sua configuração pipeline:

    JSON
    {
    "clusters": [
    {
    "label": "default",
    "policy_id": "<policy-id>",
    "apply_policy_default_values": true
    }
    ]
    }

Configurar a tag do cluster

O senhor pode usar o Cluster Tag para monitorar o uso do clustering pipeline. Adicione a tag de cluster na interface do usuário do DLT ao criar ou editar um pipeline ou ao editar as configurações do JSON para o seu cluster pipeline.

Selecione os tipos de instância para executar a pipeline

Em default, a DLT seleciona os tipos de instância para o driver pipelinee os nós worker. Opcionalmente, você pode configurar os tipos de instância.

Por exemplo, selecione tipos de instância para melhorar o desempenho do pipeline ou resolver problemas de memória ao executar o pipeline. O senhor pode configurar os tipos de instância ao criar ou editar um pipeline com a API REST ou na interface do usuário DLT.

Para configurar os tipos de instância quando o senhor cria ou edita um pipeline na interface do usuário DLT:

  1. Clique no botão Configurações .
  2. Na seção Advanced das configurações do site pipeline, nos menus suspensos worker type e Driver type , selecione os tipos de instância para o site pipeline.

Configurações avançadas do site compute

Cada DLT pipeline tem dois agrupamentos associados:

  • O clustering updates processa pipeline atualizações.
  • O maintenance clustering executa a tarefa de manutenção diária.

As configurações de computação especificadas usando a interface de configuração workspace pipeline aplicam-se ao clustering de atualização e manutenção. O senhor deve editar a configuração JSON para modificar essas configurações de forma independente.

A configuração que esses clusters usam é determinada pelo atributo clusters especificado em suas configurações de pipeline.

Usando o rótulo de clustering, o senhor pode adicionar compute configurações que se aplicam somente a um tipo específico de clustering. Há três rótulos que o senhor pode usar ao configurar o pipeline clustering:

nota

A configuração do rótulo de clustering pode ser omitida se o senhor definir apenas uma configuração de clustering. O rótulo default é aplicado às configurações de clustering se nenhuma configuração para o rótulo for fornecida. A configuração do rótulo de clustering é necessária somente se o senhor precisar personalizar as configurações para diferentes tipos de clustering.

  • O rótulo default define compute configurações para os agrupamentos updates e maintenance. A aplicação das mesmas configurações a ambos os clusters aumenta a confiabilidade da execução da manutenção, garantindo que as configurações necessárias, como as credenciais de acesso aos dados de um local de armazenamento, sejam aplicadas ao cluster de manutenção.
  • O rótulo maintenance define as configurações do compute que se aplicam somente ao clustering maintenance. O senhor também pode usar o rótulo maintenance para substituir as configurações definidas pelo rótulo default.
  • O rótulo updates define configurações que se aplicam apenas ao agrupamento updates. Use-a para definir configurações que não devem ser aplicadas ao clustering maintenance.

As configurações definidas usando os rótulos default e updates são mescladas para criar a configuração final para o agrupamento updates. Se a mesma configuração for definida usando os rótulos default e updates, a configuração definida com o rótulo updates substituirá a configuração definida com o rótulo default.

O exemplo a seguir define um parâmetro de configuração Spark que é adicionado somente à configuração do clustering updates:

JSON
{
"clusters": [
{
"label": "default",
"autoscale": {
"min_workers": 1,
"max_workers": 5,
"mode": "ENHANCED"
}
},
{
"label": "updates",
"spark_conf": {
"key": "value"
}
}
]
}

O DLT tem opções semelhantes para configurações de clustering como outros compute em Databricks. Como outras configurações do pipeline, o senhor pode modificar a configuração do JSON para clustering a fim de especificar opções não presentes na interface do usuário. Veja computar.

nota

Como o tempo de execução do DLT gerencia o ciclo de vida do pipeline clustering e executa uma versão personalizada do Databricks Runtime, o senhor não pode definir manualmente algumas definições de clustering em uma configuração do pipeline, como a versão do Spark ou os nomes de clustering. Consulte atributos de clustering que não podem ser definidos pelo usuário.

Configurar tipos de instância para clustering de atualização e manutenção

Para configurar os tipos de instância nas configurações do pipeline JSON , clique no botão JSON e insira as configurações de tipo de instância na configuração de clustering:

nota

Para evitar a atribuição de recurso desnecessário ao agrupamento maintenance, este exemplo usa o rótulo updates para definir os tipos de instância somente para o agrupamento updates. Para atribuir os tipos de instância aos agrupamentos updates e maintenance, use o rótulo default ou omita a configuração do rótulo. O rótulo default é aplicado às configurações de clustering do pipeline se nenhuma configuração para o rótulo for fornecida. Consulte Configurações avançadas do site compute.

JSON
{
"clusters": [
{
"label": "updates",
"node_type_id": "n1-highmem-16",
"driver_node_type_id": "n1-standard-4",
"...": "..."
}
]
}

Atraso compute desligamento

Para controlar o comportamento de desligamento do clustering, o senhor pode usar o modo de desenvolvimento ou produção ou usar a configuração pipelines.clusterShutdown.delay na configuração pipeline. O exemplo a seguir define o valor pipelines.clusterShutdown.delay como 60 segundos:

JSON
{
"configuration": {
"pipelines.clusterShutdown.delay": "60s"
}
}

Quando o modo production está ativado, o valor default para pipelines.clusterShutdown.delay é 0 seconds. Quando o modo development está ativado, o valor default é 2 hours.

nota

Como um cluster DLT é desligado automaticamente quando não está em uso, a referência a uma política de cluster que define autotermination_minutes em sua configuração de cluster resulta em erro.

Criar um cluster de nó único

Se o senhor definir num_workers como 0 nas configurações de clustering, o clustering será criado como um clustering de nó único. A configuração de um cluster de autoescala e a definição de min_workers como 0 e max_workers como 0 criam um cluster de nó único.

Se o senhor configurar um clustering de autoescala e definir apenas min_workers como 0, o clustering não será criado como um clustering de nó único. O clustering tem pelo menos um worker ativo em todos os momentos até ser encerrado.

Um exemplo de configuração de clustering para criar um clustering de nó único em DLT:

JSON
{
"clusters": [
{
"num_workers": 0
}
]
}