Configurar compute para o pipeline declarativo LakeFlow
Este artigo contém instruções e considerações ao definir as configurações personalizadas do compute para o pipeline LakeFlow Declarative.
O pipeline sem servidor não fornece as opções de configuração do compute. Consulte Configurar um serverless pipeline .
Selecionar uma política de cluster
Os usuários devem ter permissão para implantar o site compute para configurar e atualizar o pipeline declarativo LakeFlow. Os administradores do workspace podem configurar a política de cluster para fornecer aos usuários acesso a compute recurso para LakeFlow Declarative pipeline. Consulte Definir limites em LakeFlow Pipeline declarativo compute.
-
política de cluster são opcionais. Consulte o workspace administrador do se o senhor não tiver os compute privilégios necessários para o LakeFlow Declarative pipeline.
-
Para garantir que os valores da política de cluster default sejam aplicados corretamente, defina
apply_policy_default_values
comotrue
nas configurações de clustering em sua configuração pipeline:JSON{
"clusters": [
{
"label": "default",
"policy_id": "<policy-id>",
"apply_policy_default_values": true
}
]
}
Configurar a tag do cluster
O senhor pode usar o Cluster Tag para monitorar o uso do clustering pipeline. Adicione a tag de cluster na interface do usuário do pipeline declarativo LakeFlow ao criar ou editar um pipeline ou ao editar as configurações do JSON para o seu cluster pipeline.
Selecione os tipos de instância para executar a pipeline
Por meio do default, o pipeline declarativo do LakeFlow seleciona os tipos de instância para o driver do pipeline e os nós do worker. Opcionalmente, você pode configurar os tipos de instância.
Por exemplo, selecione tipos de instância para melhorar o desempenho do pipeline ou resolver problemas de memória ao executar o pipeline. O senhor pode configurar os tipos de instância ao criar ou editar um pipeline com o REST API, ou na UI do pipeline declarativo LakeFlow.
Para configurar os tipos de instância quando o senhor cria ou edita um pipeline na UI do pipeline declarativo LakeFlow:
- Clique no botão Configurações .
- Na seção Advanced das configurações do site pipeline, nos menus suspensos worker type e Driver type , selecione os tipos de instância para o site pipeline.
Configurações avançadas do site compute
Como compute recurso é totalmente gerenciado para serverless LakeFlow pipeline declarativo, compute configurações não estão disponíveis quando o senhor seleciona serverless para um pipeline.
Cada pipeline declarativo tem dois agrupamentos associados:
- O clustering
updates
processa pipeline atualizações. - O
maintenance
clustering executa a tarefa de manutenção diária.
As configurações de computação especificadas usando a interface de configuração workspace pipeline aplicam-se ao clustering de atualização e manutenção. O senhor deve editar a configuração JSON para modificar essas configurações de forma independente.
A configuração que esses clusters usam é determinada pelo atributo clusters
especificado em suas configurações de pipeline.
Usando o rótulo de clustering, o senhor pode adicionar compute configurações que se aplicam somente a um tipo específico de clustering. Há três rótulos que o senhor pode usar ao configurar o pipeline clustering:
A configuração do rótulo de clustering pode ser omitida se o senhor definir apenas uma configuração de clustering. O rótulo default
é aplicado às configurações de clustering se nenhuma configuração para o rótulo for fornecida. A configuração do rótulo de clustering é necessária somente se o senhor precisar personalizar as configurações para diferentes tipos de clustering.
- O rótulo
default
define compute configurações para os agrupamentosupdates
emaintenance
. A aplicação das mesmas configurações a ambos os clusters aumenta a confiabilidade da execução da manutenção, garantindo que as configurações necessárias, como as credenciais de acesso aos dados de um local de armazenamento, sejam aplicadas ao cluster de manutenção. - O rótulo
maintenance
define as configurações do compute que se aplicam somente ao clusteringmaintenance
. O senhor também pode usar o rótulomaintenance
para substituir as configurações definidas pelo rótulodefault
. - O rótulo
updates
define configurações que se aplicam apenas ao agrupamentoupdates
. Use-a para definir configurações que não devem ser aplicadas ao clusteringmaintenance
.
As configurações definidas usando os rótulos default
e updates
são mescladas para criar a configuração final para o agrupamento updates
. Se a mesma configuração for definida usando os rótulos default
e updates
, a configuração definida com o rótulo updates
substituirá a configuração definida com o rótulo default
.
O exemplo a seguir define um parâmetro de configuração Spark que é adicionado somente à configuração do clustering updates
:
{
"clusters": [
{
"label": "default",
"autoscale": {
"min_workers": 1,
"max_workers": 5,
"mode": "ENHANCED"
}
},
{
"label": "updates",
"spark_conf": {
"key": "value"
}
}
]
}
LakeFlow O pipeline declarativo tem opções semelhantes para configurações de clustering como outros compute em Databricks. Como outras configurações do pipeline, o senhor pode modificar a configuração do JSON para clustering a fim de especificar opções não presentes na interface do usuário. Veja computar.
Como o LakeFlow Declarative pipeline runtime gerencia o ciclo de vida do pipeline clustering e executa uma versão personalizada do Databricks Runtime, o senhor não pode definir manualmente algumas definições de clustering em uma configuração do pipeline, como a versão do Spark ou os nomes de clustering. Consulte atributos de clustering que não podem ser definidos pelo usuário.
Configurar tipos de instância para clustering de atualização e manutenção
Para configurar os tipos de instância nas configurações do pipeline JSON , clique no botão JSON e insira as configurações de tipo de instância na configuração de clustering:
Para evitar a atribuição de recurso desnecessário ao agrupamento maintenance
, este exemplo usa o rótulo updates
para definir os tipos de instância somente para o agrupamento updates
. Para atribuir os tipos de instância aos agrupamentos updates
e maintenance
, use o rótulo default
ou omita a configuração do rótulo. O rótulo default
é aplicado às configurações de clustering do pipeline se nenhuma configuração para o rótulo for fornecida. Consulte Configurações avançadas do site compute.
{
"clusters": [
{
"label": "updates",
"node_type_id": "r6i.xlarge",
"driver_node_type_id": "i3.large",
"...": "..."
}
]
}
Atraso compute desligamento
Para controlar o comportamento de desligamento do clustering, o senhor pode usar o modo de desenvolvimento ou produção ou usar a configuração pipelines.clusterShutdown.delay
na configuração pipeline. O exemplo a seguir define o valor pipelines.clusterShutdown.delay
como 60 segundos:
{
"configuration": {
"pipelines.clusterShutdown.delay": "60s"
}
}
Quando o modo production
está ativado, o valor default para pipelines.clusterShutdown.delay
é 0 seconds
. Quando o modo development
está ativado, o valor default é 2 hours
.
Como o clustering de pipeline declarativo LakeFlow é desligado automaticamente quando não está em uso, a referência a uma política de cluster que define autotermination_minutes
em sua configuração de clustering resulta em erro.
Criar um cluster de nó único
Se o senhor definir num_workers
como 0 nas configurações de clustering, o clustering será criado como um clustering de nó único. A configuração de um cluster de autoescala e a definição de min_workers
como 0 e max_workers
como 0 criam um cluster de nó único.
Se o senhor configurar um clustering de autoescala e definir apenas min_workers
como 0, o clustering não será criado como um clustering de nó único. O clustering tem pelo menos um worker ativo em todos os momentos até ser encerrado.
Um exemplo de configuração de clustering para criar um clustering de nó único em LakeFlow Declarative pipeline:
{
"clusters": [
{
"num_workers": 0
}
]
}