Configurar compute clássica para o pipeline declarativo LakeFlow
Esta página contém instruções para configurar compute clássica para o pipeline declarativo LakeFlow . Para obter uma referência do esquema JSON , consulte a definição clusters
na referência da API do pipeline.
Para criar um pipeline que seja executado no Classic compute, os usuários devem primeiro ter permissão para usar o Classic compute, seja permissão de criação irrestrita ou acesso a uma política compute . O pipeline sem servidor não requer permissões de criação compute . Por default, todos os usuários workspace podem usar o pipeline serverless .
Como o tempo de execução do pipeline declarativo LakeFlow gerencia o ciclo de vida da compute pipeline e executa uma versão personalizada do Databricks Runtime, não é possível definir manualmente algumas configurações compute em uma configuração pipeline , como a versão Spark ou nomes de cluster . Consulte Atributos de cluster que não podem ser definidos pelo usuário.
Selecione compute para seu pipeline
Para configurar compute clássica para seu pipeline no Editor LakeFlow Pipelines :
- Clique em Configurações .
- Na seção de computação das configurações pipeline , clique em
.
- Se estiver marcado, desmarque serverless .
- Faça outras alterações nas configurações compute e clique em Salvar .
Isso configura seu pipeline para usar compute clássica e permite que você edite as configurações compute , conforme descrito abaixo.
Para obter mais informações sobre o LakeFlow Pipelines Editor, consulte Desenvolver e depurar pipeline ETL com o LakeFlow Pipelines Editor.
Selecione uma política compute
Os administradores do espaço de trabalho podem configurar políticas compute para fornecer aos usuários acesso ao recurso compute clássico para o pipeline declarativo LakeFlow . políticas de computação são opcionais. Verifique com o administrador do seu workspace se você não tem os privilégios compute necessários para o pipeline declarativo LakeFlow Consulte Definir limites na computedo pipeline declarativo LakeFlow.
Ao usar a API do pipeline, para garantir que os valores default da política compute sejam aplicados corretamente, defina "apply_policy_default_values": true
na definição clusters
:
{
"clusters": [
{
"label": "default",
"policy_id": "<policy-id>",
"apply_policy_default_values": true
}
]
}
Configurar tags compute
Você pode adicionar tags personalizadas ao recurso compute clássico do seu pipeline. As tags permitem que você monitore o custo do recurso compute usado por vários grupos na sua organização. Databricks aplica essas tags ao recurso cloud e aos logs de uso registrados nas tabelas do sistema de uso. Você pode adicionar tags usando a configuração da interface do usuário Cluster Tag ou editando a configuração JSON do seu pipeline.
Selecione os tipos de instância para executar um pipeline
Por default, o pipeline declarativo LakeFlow seleciona os tipos de instância para os nós de driver e worker do seu pipeline. Opcionalmente, você pode configurar os tipos de instância. Por exemplo, selecione tipos de instância para melhorar o desempenho do pipeline ou resolver problemas de memória ao executar seu pipeline.
Para configurar tipos de instância ao criar ou editar um pipeline no Editor LakeFlow Pipelines :
- Clique no botão Configurações .
- Na seção de computação das configurações pipeline , clique em
.
- Na seção Configurações avançadas , selecione os tipos de instância Tipo de trabalhador e Tipo de driver para o pipeline.
Configurar configurações separadas para os clusters de atualização e manutenção
Cada pipeline declarativo tem dois recursos compute associados: um cluster de atualização que processa atualizações pipeline e um cluster de manutenção que executa tarefas de manutenção diária (incluindo otimização preditiva). Por default, suas configurações compute se aplicam a ambos os clusters. Usar as mesmas configurações para ambos clusters melhora a confiabilidade da execução de manutenção, garantindo que as configurações necessárias, como credenciais de acesso a dados para um local de armazenamento, sejam aplicadas ao cluster de manutenção.
Para aplicar configurações a apenas um dos dois clusters, adicione o campo label
ao objeto JSON de configuração. Há três valores possíveis para o campo label
:
maintenance
: Aplica a configuração somente ao cluster de manutenção.updates
: Aplica a configuração somente ao cluster de atualização.default
: Aplica a configuração aos clusters de atualização e manutenção. Este é o valor default se o campolabel
for omitido.
Se houver uma configuração conflitante, a configuração com o rótulo updates
ou maintenance
substituirá a configuração definida com o rótulo default
.
O cluster de manutenção diária é usado apenas em certos casos:
- pipeline armazenado no Hive metastore.
- pipeline no espaço de trabalho que não aceitou os termos compute serverless do serviço. Se precisar de ajuda para aceitar os termos, entre em contato com seu representante da Databricks.
Exemplo: definir uma configuração para o cluster de atualização
O exemplo a seguir define um parâmetro de configuração do Spark que é adicionado somente à configuração do cluster updates
:
{
"clusters": [
{
"label": "default",
"autoscale": {
"min_workers": 1,
"max_workers": 5,
"mode": "ENHANCED"
}
},
{
"label": "updates",
"spark_conf": {
"key": "value"
}
}
]
}
Exemplo: Configurar tipos de instância para o cluster de atualização
Para evitar atribuir recursos desnecessários ao cluster maintenance
, este exemplo usa o rótulo updates
para definir os tipos de instância somente para o cluster updates
.
{
"clusters": [
{
"label": "updates",
"node_type_id": "n1-highmem-16",
"driver_node_type_id": "n1-standard-4",
"...": "..."
}
]
}
Atrasar o desligamento compute
Para controlar o comportamento de desligamento do cluster, você pode usar o modo de desenvolvimento ou produção ou usar a configuração pipelines.clusterShutdown.delay
na configuração do pipeline. O exemplo a seguir define o valor pipelines.clusterShutdown.delay
como 60 segundos:
{
"configuration": {
"pipelines.clusterShutdown.delay": "60s"
}
}
Quando o modo production
está ativado, o valor default para pipelines.clusterShutdown.delay
é 0 seconds
. Quando o modo development
está ativado, o valor default é 2 hours
.
Como o recurso compute do pipeline declarativo LakeFlow é desligado automaticamente quando não está em uso, você não pode usar uma política compute que define autotermination_minutes
. Isso resulta em um erro.
Crie um nó único compute
Um nó de computeúnico tem um nó driver que atua como mestre e worker. Isso se destina a cargas de trabalho que usam pequenas quantidades de dados ou não são distribuídas.
Para criar um compute de nó único, defina num_workers
como 0. Por exemplo:
{
"clusters": [
{
"num_workers": 0
}
]
}