melhores práticas para piscinas
Este artigo explica o que são os pools e como o senhor pode configurá-los melhor. Para obter informações sobre como criar um pool, consulte a referência de configuração do pool.
considerações sobre a piscina
Considere o seguinte ao criar um pool:
- Crie um pool usando tipos de instância e tempos de execução Databricks com base nas cargas de trabalho de destino.
- Quando possível, preencha o pool com instâncias de VM preemptivas para reduzir os custos. Use apenas o pool de VMs preemptivas como nós do worker. Seu nó de driver deve usar instâncias sob demanda.
- Preencher o pool com instâncias sob demanda para trabalhos com tempos de execução curtos e requisitos rigorosos de tempo de execução.
- Use as tags pool e a Cluster Tag para gerenciar o faturamento.
- Preencher previamente o pool para garantir que as instâncias estejam disponíveis quando o clustering precisar delas.
Criar pool com base nas cargas de trabalho
O senhor pode minimizar o tempo de aquisição de instâncias criando um pool para cada tipo de instância e tempo de execução do Databricks que sua organização costuma usar. Por exemplo, se a maior parte do clustering de engenharia de dados usar o tipo de instância A, o clustering de ciência de dados usar o tipo de instância B e o clustering analítico usar o tipo de instância C, crie um pool com cada tipo de instância.
Uso de pool de instâncias de VM preemptivas
Se o nó do driver e os nós do worker tiverem requisitos diferentes, use um pool diferente para cada um.
A Databricks recomenda não usar instâncias de VM preemptivas para seu nó de driver. Se o senhor usar uma VM pool preemptiva para o nó worker, selecione um pool sob demanda como o tipo de driver .
Configure o pool para usar instâncias sob demanda para trabalhos com tempos de execução curtos e requisitos rigorosos de tempo de execução. Isso ocorre porque as instâncias preemptivas de VM podem ser interrompidas a qualquer momento devido a eventos do sistema.
Configure o pool para usar instâncias de VM preemptivas para clustering que suportam desenvolvimento interativo ou trabalho que prioriza a economia de custos em relação à confiabilidade.
Tag pool para gerenciar custos e faturamento
A marcação do pool no centro de custo correto permite que o senhor gerencie o custo e o estorno de uso. O senhor pode usar várias tags personalizadas para associar vários centros de custo a um pool. No entanto, é importante entender como as tags são propagadas quando um clustering é criado a partir do pool. As tags do pool se propagam para as instâncias do provedor de nuvem subjacente, mas as tags do clustering não. Aplique todas as tags personalizadas necessárias para gerenciar o estorno do custo do provedor de nuvem compute para o pool.
As tags de pool e a tag de cluster se propagam para Databricks billing. O senhor pode usar a combinação de clustering e tags pool para gerenciar o chargeback das unidades Databricks.
Para saber mais, consulte Uso de atributos usando tags.
Configurar o pool para controlar o custo
Para ajudar a controlar o custo do pool, defina Min parado instances como 0 para evitar pagar por instâncias em execução que não estão funcionando. A compensação é um possível aumento no tempo quando um clustering precisa adquirir uma nova instância.
Preencher previamente o pool
Para se beneficiar totalmente do pool, o senhor pode preencher previamente o pool recém-criado. Defina as instâncias de Min parado como maiores que zero na configuração pool. Como alternativa, se o senhor estiver seguindo a recomendação de definir esse valor como zero, use um trabalho inicial para garantir que o pool recém-criado tenha instâncias disponíveis para o clustering acessar.
Com a abordagem de trabalho inicial, é possível programar um trabalho com requisitos flexíveis de tempo de execução para ser executado antes de um trabalho com requisitos de desempenho mais rigorosos ou antes que os usuários comecem a usar o clustering interativo. Após a conclusão do trabalho, as instâncias usadas para o trabalho são liberadas de volta para o site pool.
O uso de um Job inicial permite que as instâncias do pool sejam ativadas, preencham o pool e permaneçam disponíveis para o Job downstream ou para o clustering interativo.