Práticas recomendadas de configuração de computação

Este artigo descreve as recomendações para definir as configurações opcionais do site compute. Para reduzir as decisões de configuração, o site Databricks recomenda aproveitar as políticas serverless compute e compute.

  • serverless compute não exige a configuração do site compute. serverless compute está sempre disponível e escalonado de acordo com sua carga de trabalho. Consulte Tipos de computação.

  • compute As políticas permitem que o senhor crie um compute pré-configurado, projetado para casos de uso específicos, como compute pessoal, compute compartilhado, usuários avançados e trabalho. Se o senhor não tiver acesso às políticas, entre em contato com o administrador do site workspace. Consulte default policies e policy families.

Se o senhor optar por criar o site compute com suas próprias configurações, as seções abaixo fornecem recomendações para casos de uso típicos.

Observação

Este artigo pressupõe que o senhor tenha criação irrestrita do cluster. workspace Os administradores só devem conceder esse privilégio a usuários avançados.

Considerações sobre o dimensionamento do cálculo

As pessoas geralmente pensam no tamanho do compute em termos do número de funcionários, mas há outros fatores importantes a serem considerados:

  • Total de núcleos executor (compute): O número total de núcleos em todos os executores. Isso determina o paralelismo máximo de um compute.

  • Memória total do executor: a quantidade total de RAM em todos os executores. Isso determina quantos dados podem ser armazenados na memória antes de serem transferidos para o disco.

  • Armazenamento local do executor: o tipo e a quantidade de armazenamento em disco local. O disco local é usado principalmente no caso de vazamentos durante embaralhamentos e cache.

Outras considerações incluem o tipo e o tamanho da instância worker, que também influenciam os fatores acima. Ao dimensionar seu compute, considere:

  • Quantos dados sua carga de trabalho consumirá?

  • Qual é a complexidade computacional da sua carga de trabalho?

  • De onde você está lendo os dados?

  • Como os dados são particionados no armazenamento externo?

  • Quanto paralelismo você precisa?

Responder a essas perguntas o ajudará a determinar as configurações ideais do compute com base nas cargas de trabalho.

Há um equilíbrio entre o número de trabalhadores e o tamanho dos tipos de instância do worker. A configuração do site compute com dois trabalhadores, cada um com 40 núcleos e 100 GB de RAM, tem o mesmo compute e a mesma memória que a configuração do site compute com 10 núcleos e 25 GB de RAM.

Calcular exemplos de dimensionamento

Os exemplos a seguir mostram as recomendações do site compute com base em tipos específicos de cargas de trabalho. Esses exemplos também incluem configurações a serem evitadas e por que essas configurações não são adequadas para os tipos de carga de trabalho.

Análise de dados

O analista de dados normalmente realiza o processamento que requer dados de várias partições, o que leva a muitas operações de embaralhamento. compute com um número menor de nós pode reduzir a E/S da rede e do disco necessária para realizar esses embaralhamentos.

Se o senhor estiver escrevendo apenas SQL, a melhor opção para análise de dados será um serverless SQL warehouse.

Observação

Se o seu workspace estiver habilitado para a visualização pública do serverless compute , o senhor poderá usar o serverless compute para executar a análise em Python ou SQL. Consulte serverless compute para o Notebook.

Se o senhor precisar configurar um novo compute, um compute de nó único com um tipo de VM grande provavelmente será a melhor opção, principalmente para um único analista.

As cargas de trabalho analíticas provavelmente exigirão a leitura dos mesmos dados repetidamente, portanto, os tipos de nós recomendados são otimizados para armazenamento com o cache de disco ativado.

Recursos adicionais recomendados para cargas de trabalho analíticas incluem:

  • Ative o encerramento automático para garantir que o site compute seja encerrado após um período de inatividade.

  • Considere habilitar o dimensionamento automático com base na carga de trabalho típica do analista.

  • Considere usar o pool, que permitirá restringir o compute a tipos de instância pré-aprovados e garantir configurações consistentes do compute.

ETL de lote básico

Observação

Se o seu workspace estiver habilitado para serverless compute para fluxo de trabalho (Public Preview), o senhor poderá usar serverless compute para executar seu trabalho. Consulte serverless compute para o Notebook.

Lotes simples Os ETL trabalhos que não exigem transformações amplas, como junções ou agregações, normalmente se beneficiam compute worker dos tipos otimizados para .

computeO trabalhador otimizado tem requisitos mais baixos de memória e armazenamento e pode resultar em economia de custos em relação a outros tipos de worker.

ETL de lote complexo

Observação

Se o seu workspace estiver habilitado para serverless compute para fluxo de trabalho (Public Preview), o senhor poderá usar serverless compute para executar seu trabalho. Consulte serverless compute para o Notebook.

Para um ETL Job complexo, como um que requer uniões e junções em várias tabelas, o Databricks recomenda reduzir o número de trabalhadores para diminuir a quantidade de dados embaralhados.

Transformações complexas podem ser compute-intensive. Se o senhor observar um derramamento significativo no disco ou erros de OOM, deverá adicionar mais nós.

Databricks recomenda os tipos compute- otimizados worker. computeO trabalhador otimizado tem requisitos menores de memória e armazenamento e pode resultar em economia de custos em relação a outros tipos de worker. Opcionalmente, use o pool para diminuir os tempos de inicialização do compute e reduzir o tempo total de execução ao executar o pipeline Job.

Modelos de machine learning de treinamento

Databricks recomenda um único nó compute com um tipo de nó grande para experimentação inicial com o treinamento modelo do aprendizado de máquina. Ter menos nós reduz o impacto dos embaralhamentos.

A adição de mais workers pode ajudar na estabilidade, mas o senhor deve evitar adicionar muitos workers devido à sobrecarga de embaralhamento de dados.

Os tipos recomendados de worker são otimizados para armazenamento com cache de disco habilitado para account para leituras repetidas dos mesmos dados e para habilitar o cache de dados de treinamento. Se as opções de compute e armazenamento fornecidas pelos nós otimizados para armazenamento não forem suficientes, considere os nós otimizados para GPU. Uma possível desvantagem é a falta de suporte a cache de disco com esses nós.

Os recursos adicionais recomendados para cargas de trabalho de machine learning incluem:

  • Ative o encerramento automático para garantir que o site compute seja encerrado após um período de inatividade.

  • Use o pool, que permitirá restringir o compute a tipos de instância pré-aprovados e garantir configurações consistentes do compute.