Otimize a utilização de cluster do pipeline Delta Live Tables com autoescala aprimorada
Este artigo discute como usar a escala automática aprimorada para otimizar seu pipeline Delta Live Tables em Databricks.
A autoescala aprimorada é ativada pelo site default para todos os novos pipelines.
Para o pipeline serverless, a autoescala aprimorada está sempre ativada e não pode ser desativada. Consulte Configurar um pipeline Delta Live Tables sem servidor.
O que é a escala automática aprimorada?
Databricks O autoscale aprimorado otimiza a utilização do cluster alocando automaticamente o recurso cluster com base no volume da carga de trabalho, com impacto mínimo na latência de processamento de dados do pipeline.
A autoescala aprimorada melhora a Databricks cluster funcionalidade da autoescala com o seguinte recurso:
A autoescala aprimorada implementa a otimização de cargas de trabalho de transmissão e adiciona aprimoramentos para melhorar o desempenho de cargas de trabalho de lotes. A autoescala aprimorada otimiza os custos adicionando ou removendo máquinas à medida que a carga de trabalho muda.
A autoescala aprimorada desliga proativamente os nós subutilizados, garantindo que não haja falhas na tarefa durante o desligamento. O site cluster existente autoscale recurso escala os nós para baixo somente se o nó estiver parado.
A autoescala aprimorada é o modo de autoescala do default quando o senhor cria um novo pipeline na UI do Delta Live Tables. O senhor pode ativar a escala automática aprimorada para o pipeline existente editando as configurações do pipeline na interface do usuário. O senhor também pode ativar a escala automática aprimorada ao criar ou editar o pipeline com o site Delta Live Tables API.
Quais métricas a escala automática aprimorada usa para tomar uma decisão de escala ascendente ou descendente?
A autoescala aprimorada usa duas métricas para decidir sobre o aumento ou a redução de escala:
utilização de slots de tarefa: É a proporção média entre o número de slots de tarefa ocupados e o total de slots de tarefa disponíveis no site cluster.
tamanho da fila de tarefas: Esse é o número de tarefas que aguardam execução nos slots de tarefa.
Habilite a escala automática aprimorada para Delta Live Tables pipeline
A autoescala aprimorada é o modo de autoescala do default quando o senhor cria um novo pipeline na UI do Delta Live Tables. O senhor pode ativar a escala automática aprimorada para o pipeline existente editando as configurações do pipeline na interface do usuário. O senhor também pode ativar a escala automática aprimorada ao criar ou editar um pipeline com o Delta Live Tables API.
Para usar a escala automática aprimorada, siga um destes procedimentos:
Defina o modo de cluster como Enhanced autoscale ao criar ou editar um pipeline na UI Delta Live Tables.
Adicione a configuração
autoscale
à configuração do cluster de pipeline e defina o campomode
comoENHANCED
. Consulte Configurar a computação para um pipeline do Delta Live Tables.
Use as seguintes diretrizes ao configurar a autoescala aprimorada para o pipeline de produção:
Deixe a configuração
Min workers
em default.Defina a configuração
Max workers
como um valor baseado no orçamento e na prioridade do pipeline.
O exemplo a seguir configura uma autoescala aprimorada cluster com um mínimo de 5 trabalhadores e um máximo de 10 trabalhadores. max_workers
deve ser maior ou igual a min_workers
.
Observação
A autoescala aprimorada está disponível apenas para
updates
clusters. A escala automática herdada é usada paramaintenance
clusters.A configuração
autoscale
tem dois modos:LEGACY
: Use clusters autoscale.ENHANCED
: Usar escala automática aprimorada.
{
"clusters": [
{
"autoscale": {
"min_workers": 5,
"max_workers": 10,
"mode": "ENHANCED"
}
}
]
}
Se o site pipeline estiver configurado para execução contínua, ele será reiniciado automaticamente após a alteração da configuração da autoescala. Após a reinicialização, espere um curto período de maior latência. Após esse breve período de aumento da latência, o tamanho do cluster deve ser atualizado com base em sua configuração autoscale
, e a latência do pipeline deve retornar às características de latência anteriores.
Limitar os custos do pipeline que usa a autoescala aprimorada
Observação
O senhor não pode configurar o worker para o pipeline serverless.
A configuração do parâmetro Max worker no painel de computação do pipeline define um limite superior para a escala automática. A redução do número de trabalhadores disponíveis pode aumentar a latência de algumas cargas de trabalho, mas evita que os custos do recurso compute estourem durante as operações intensivas do compute.
Databricks recomenda ajustar as configurações do Max worker para equilibrar a relação custo-latência de acordo com suas necessidades específicas.
Monitorar o pipeline clássico habilitado para autoescala aprimorada
O senhor pode usar o evento log in na interface de usuário Delta Live Tables para monitorar as métricas de autoescala aprimoradas para o pipeline clássico. Os eventos de autoescala aprimorados têm o tipo de evento autoscale
. Veja a seguir exemplos de eventos:
Evento |
Mensagem |
---|---|
pedidos de redimensionamento clusters começar |
|
solicitação de redimensionamento clusters bem-sucedida |
|
solicitação de redimensionamento clusters parcialmente bem-sucedida |
|
falha na solicitação de redimensionamento clusters |
|
O senhor também pode view eventos de autoescala aprimorados consultando diretamente o evento log:
Para query os logs de eventos em busca de métricaslogs anteriores, consulte Monitorarlogs anteriores de dados queryos logsde eventos.
Para monitorar as solicitações e respostas de redimensionamento do cluster durante as operações de autoescala aprimorada, consulte Monitorar eventos de autoescala aprimorada do evento log para pipeline sem o serverless ativado.