Configurar compute para uma DLT pipeline
Este artigo contém instruções e considerações ao definir as configurações personalizadas do compute para o pipeline DLT.
Selecionar uma política de cluster
Os usuários devem ter permissão para implantar o site compute para configurar e atualizar o pipeline DLT. Os administradores de workspace podem configurar a política de cluster para fornecer aos usuários acesso a compute recurso para DLT. Consulte Definir limites no DLT pipeline compute .
-
política de cluster são opcionais. Consulte o administrador do site workspace se o senhor não tiver os privilégios de compute necessários para a DLT.
-
Para garantir que os valores da política de cluster default sejam aplicados corretamente, defina
apply_policy_default_values
comotrue
nas configurações de clustering em sua configuração pipeline:JSON{
"clusters": [
{
"label": "default",
"policy_id": "<policy-id>",
"apply_policy_default_values": true
}
]
}
Configurar a tag do cluster
O senhor pode usar o Cluster Tag para monitorar o uso do clustering pipeline. Adicione a tag de cluster na interface do usuário do DLT ao criar ou editar um pipeline ou ao editar as configurações do JSON para o seu cluster pipeline.
Selecione os tipos de instância para executar a pipeline
Em default, a DLT seleciona os tipos de instância para o driver pipelinee os nós worker. Opcionalmente, você pode configurar os tipos de instância.
Por exemplo, selecione tipos de instância para melhorar o desempenho do pipeline ou resolver problemas de memória ao executar o pipeline. O senhor pode configurar os tipos de instância ao criar ou editar um pipeline com a API REST ou na interface do usuário DLT.
Para configurar os tipos de instância quando o senhor cria ou edita um pipeline na interface do usuário DLT:
- Clique no botão Configurações .
- Na seção Advanced das configurações do site pipeline, nos menus suspensos worker type e Driver type , selecione os tipos de instância para o site pipeline.
Configurações avançadas do site compute
Cada DLT pipeline tem dois agrupamentos associados:
- O clustering
updates
processa pipeline atualizações. - O
maintenance
clustering executa a tarefa de manutenção diária.
As configurações de computação especificadas usando a interface de configuração workspace pipeline aplicam-se ao clustering de atualização e manutenção. O senhor deve editar a configuração JSON para modificar essas configurações de forma independente.
A configuração que esses clusters usam é determinada pelo atributo clusters
especificado em suas configurações de pipeline.
Usando o rótulo de clustering, o senhor pode adicionar compute configurações que se aplicam somente a um tipo específico de clustering. Há três rótulos que o senhor pode usar ao configurar o pipeline clustering:
A configuração do rótulo de clustering pode ser omitida se o senhor definir apenas uma configuração de clustering. O rótulo default
é aplicado às configurações de clustering se nenhuma configuração para o rótulo for fornecida. A configuração do rótulo de clustering é necessária somente se o senhor precisar personalizar as configurações para diferentes tipos de clustering.
- O rótulo
default
define compute configurações para os agrupamentosupdates
emaintenance
. A aplicação das mesmas configurações a ambos os clusters aumenta a confiabilidade da execução da manutenção, garantindo que as configurações necessárias, como as credenciais de acesso aos dados de um local de armazenamento, sejam aplicadas ao cluster de manutenção. - O rótulo
maintenance
define as configurações do compute que se aplicam somente ao clusteringmaintenance
. O senhor também pode usar o rótulomaintenance
para substituir as configurações definidas pelo rótulodefault
. - O rótulo
updates
define configurações que se aplicam apenas ao agrupamentoupdates
. Use-a para definir configurações que não devem ser aplicadas ao clusteringmaintenance
.
As configurações definidas usando os rótulos default
e updates
são mescladas para criar a configuração final para o agrupamento updates
. Se a mesma configuração for definida usando os rótulos default
e updates
, a configuração definida com o rótulo updates
substituirá a configuração definida com o rótulo default
.
O exemplo a seguir define um parâmetro de configuração Spark que é adicionado somente à configuração do clustering updates
:
{
"clusters": [
{
"label": "default",
"autoscale": {
"min_workers": 1,
"max_workers": 5,
"mode": "ENHANCED"
}
},
{
"label": "updates",
"spark_conf": {
"key": "value"
}
}
]
}
O DLT tem opções semelhantes para configurações de clustering como outros compute em Databricks. Como outras configurações do pipeline, o senhor pode modificar a configuração do JSON para clustering a fim de especificar opções não presentes na interface do usuário. Veja computar.
Como o tempo de execução do DLT gerencia o ciclo de vida do pipeline clustering e executa uma versão personalizada do Databricks Runtime, o senhor não pode definir manualmente algumas definições de clustering em uma configuração do pipeline, como a versão do Spark ou os nomes de clustering. Consulte atributos de clustering que não podem ser definidos pelo usuário.
Configurar tipos de instância para clustering de atualização e manutenção
Para configurar os tipos de instância nas configurações do pipeline JSON , clique no botão JSON e insira as configurações de tipo de instância na configuração de clustering:
Para evitar a atribuição de recurso desnecessário ao agrupamento maintenance
, este exemplo usa o rótulo updates
para definir os tipos de instância somente para o agrupamento updates
. Para atribuir os tipos de instância aos agrupamentos updates
e maintenance
, use o rótulo default
ou omita a configuração do rótulo. O rótulo default
é aplicado às configurações de clustering do pipeline se nenhuma configuração para o rótulo for fornecida. Consulte Configurações avançadas do site compute.
{
"clusters": [
{
"label": "updates",
"node_type_id": "n1-highmem-16",
"driver_node_type_id": "n1-standard-4",
"...": "..."
}
]
}
Atraso compute desligamento
Para controlar o comportamento de desligamento do clustering, o senhor pode usar o modo de desenvolvimento ou produção ou usar a configuração pipelines.clusterShutdown.delay
na configuração pipeline. O exemplo a seguir define o valor pipelines.clusterShutdown.delay
como 60 segundos:
{
"configuration": {
"pipelines.clusterShutdown.delay": "60s"
}
}
Quando o modo production
está ativado, o valor default para pipelines.clusterShutdown.delay
é 0 seconds
. Quando o modo development
está ativado, o valor default é 2 hours
.
Como um cluster DLT é desligado automaticamente quando não está em uso, a referência a uma política de cluster que define autotermination_minutes
em sua configuração de cluster resulta em erro.
Criar um cluster de nó único
Se o senhor definir num_workers
como 0 nas configurações de clustering, o clustering será criado como um clustering de nó único. A configuração de um cluster de autoescala e a definição de min_workers
como 0 e max_workers
como 0 criam um cluster de nó único.
Se o senhor configurar um clustering de autoescala e definir apenas min_workers
como 0, o clustering não será criado como um clustering de nó único. O clustering tem pelo menos um worker ativo em todos os momentos até ser encerrado.
Um exemplo de configuração de clustering para criar um clustering de nó único em DLT:
{
"clusters": [
{
"num_workers": 0
}
]
}