Pular para o conteúdo principal

recomendações de configuração de computação

Este artigo inclui recomendações e práticas recomendadas relacionadas à configuração do site compute.

Se a sua carga de trabalho for compatível, Databricks recomenda usar serverless compute em vez de configurar seu próprio recurso compute. O compute sem servidor é a opção mais simples e confiável do compute. Ele não requer configuração, está sempre disponível e é escalonado de acordo com sua carga de trabalho. serverless compute é uma opção compute para Notebook, Job e LakeFlow Declarative pipeline. Consulte Conectar-se a serverless compute .

Além disso, o analista de dados pode usar o warehouse serverless SQL para consultar e explorar dados em Databricks. Consulte O que são armazéns sem servidor SQL?.

Selecione um modo de acesso apropriado

Os recursos clássicos para todos os fins e o Job compute têm uma configuração de modo de acesso que determina quem pode anexar e usar o recurso compute. Em Unity Catalog, o compute deve usar o modo de acesso padrão ou dedicado.

O site compute padrão pode ser compartilhado por vários usuários e grupos e, ao mesmo tempo, reforça o isolamento do usuário e todas as permissões de acesso a dados no nível do usuário e do grupo. Isso o torna uma opção econômica e fácil de gerenciar para a maioria das cargas de trabalho, especialmente aquelas que impõem controle de acesso refinado.

O site dedicado compute é recomendado se o senhor precisar de acesso a recursos não disponíveis no site padrão compute, como RDD APIs, instâncias de GPU, R ou Databricks Serviço de contêiner. Para obter mais informações, consulte o padrão compute requirements and limitations.

Use as políticas do site compute

Se o senhor estiver criando um novo compute do zero, a Databricks recomenda o uso de políticas compute. As políticas de computação permitem que o senhor crie um recurso compute pré-configurado, projetado para fins específicos, como compute pessoal, compute compartilhado, usuários avançados e trabalho. As políticas limitam as decisões que o senhor precisa tomar ao configurar o site compute.

Se o senhor não tiver acesso às políticas, entre em contato com o administrador do site workspace. Consulte políticas padrão e famílias de políticas.

Avalie se o senhor se beneficiaria com o Photon

Muitas cargas de trabalho se beneficiam do Photon, mas ele é mais benéfico para cargas de trabalho SQL e operações DataFrame que envolvem transformações complexas, como junções, agregações e varreduras de dados em tabelas grandes. As cargas de trabalho com acesso frequente ao disco, tabelas amplas ou processamento repetido de dados também apresentam melhor desempenho.

Lotes simples ETL Os trabalhos que não envolvem grandes transformações ou grandes volumes de dados podem sofrer um impacto mínimo com a ativação do Photon, especialmente se as consultas forem concluídas em menos de dois segundos.

computar considerações sobre o dimensionamento

nota

As recomendações a seguir pressupõem que o senhor tenha criação de cluster sem restrições. Os administradores do workspace só devem conceder esse privilégio a usuários avançados.

As pessoas geralmente pensam no tamanho do compute em termos do número de workers, mas há outros fatores importantes a considerar:

  • Núcleos totais do executor (computação): o número total de núcleos em todos os executores. Isso determina o paralelismo máximo de uma computação.
  • Memória total do executor: a quantidade total de RAM em todos os executores. Isso determina quantos dados podem ser armazenados na memória antes de serem vazados para o disco.
  • Armazenamento local do executor: o tipo e a quantidade de armazenamento em disco local. O disco local é usado principalmente no caso de vazamentos durante embaralhamentos e armazenamento em cache.

Considerações adicionais incluem tipo e tamanho da instância do worker, que também influenciam os fatores acima. Ao dimensionar sua computação, considere:

  • Quantos dados sua carga de trabalho consumirá?
  • Qual é a complexidade computacional da sua carga de trabalho?
  • De onde você está lendo os dados?
  • Como os dados são particionados no armazenamento externo?
  • De quanto paralelismo você precisa?

Responder a essas perguntas ajudará a determinar as configurações ideais de compute com base nas cargas de trabalho.

Há um equilíbrio entre o número de trabalhadores e o tamanho dos tipos de instância do worker. A configuração do site compute com dois workers, cada um com 16 núcleos e 128 GB de RAM, tem o mesmo compute e a mesma memória que a configuração do site compute com 8 workers, cada um com 4 núcleos e 32 GB de RAM.

exemplos de configuração de computação

Os exemplos a seguir mostram recomendações de computação com base em tipos específicos de cargas de trabalho. Esses exemplos também incluem configurações a serem evitadas e por que essas configurações não são adequadas para os tipos de carga de trabalho.

Análise de dados

O analista de dados normalmente realiza o processamento que requer dados de várias partições, o que leva a muitas operações de embaralhamento. Um recurso compute com um número menor de nós maiores pode reduzir a E/S da rede e do disco necessária para realizar esses embaralhamentos.

Um nó único compute com um tipo de VM grande é provavelmente a melhor opção, especialmente para um único analista.

As cargas de trabalho analíticas provavelmente exigirão a leitura repetida dos mesmos dados, portanto, os tipos de nós recomendados são armazenamento otimizado com cache de disco ativado ou instâncias com armazenamento local.

Recursos adicionais recomendados para cargas de trabalho analíticas incluem:

  • Habilite o encerramento automático para garantir que a computação seja encerrada após um período de inatividade.
  • Considere a possibilidade de ativar a autoescala com base na carga de trabalho típica do analista.

Lotes básicos ETL

Para lotes simples ETL Job que não exigem transformações amplas, como junções ou agregações, use instâncias com requisitos mais baixos de memória e armazenamento. Isso pode resultar em economia de custos em relação a outros tipos de worker.

Lotes do complexo ETL

Para um trabalho complexo no site ETL, como um que requer uniões e junções em várias tabelas, o site Databricks recomenda o uso de menos trabalhadores para reduzir a quantidade de dados embaralhados. Para compensar o fato de ter menos trabalhadores, aumente o tamanho de suas instâncias.

Transformações complexas podem ser compute-intensive. Se você observar erros significativos de vazamento no disco ou de OOM, aumente a quantidade de memória disponível em suas instâncias.

Opcionalmente, use pools para diminuir o tempo de lançamento do compute e reduzir o tempo total de execução ao executar pipelines de jobs.

treinamento modelo do machine learning

Para treinar o modelo de aprendizado de máquina, o site Databricks recomenda a criação de um recurso compute usando a política Personal compute .

O senhor deve usar um único nó compute com um tipo de nó grande para a experimentação inicial com o treinamento modelo do aprendizado de máquina. Ter menos nós reduz o impacto dos embaralhamentos.

Adicionar mais workers pode ajudar na estabilidade, mas deve-se evitar adicionar muitos workers devido ao overhead de shuffles de dados.

Os tipos recomendados de worker são armazenamento otimizado com cache de disco ativado ou uma instância com armazenamento local para account para leituras repetidas dos mesmos dados e para ativar o cache de dados de treinamento.

Recursos adicionais recomendados para cargas de trabalho do machine learning incluem:

  • Habilite o encerramento automático para garantir que a computação seja encerrada após um período de inatividade.
  • Use o pool, que permitirá restringir o compute ao tipo de instância pré-aprovado.
  • Garanta configurações consistentes do compute usando políticas.