Referência de configuração de pool

Este artigo descreve as configurações disponíveis ao criar um pool usando a UI. Para saber como usar a CLI do Databricks para criar um pool, consulte Instance Pools CLI (legacy). Para saber como usar a API REST para criar um pool, consulte a API Instance Pools.

Tamanho do pool e terminação automática

Ao criar um pool, para controlar seu tamanho, você pode definir três parâmetros: mínimo de instâncias do Parado, capacidade máxima e encerramento automático da instância do Parado.

Instâncias mínimas de paradoxo

O número mínimo de instâncias que o pool mantém parado. Essas instâncias não são encerradas, independentemente das configurações de encerramento automático. Se um clusters consumir instâncias paradas do pool, o Databricks provisionará instâncias adicionais para manter o mínimo.

Capacidade máxima

O número máximo de instâncias que o pool pode provisionar. Se definido, esse valor restringe todas as instâncias (parado + usado). Se um clusters que usa o pool solicitar mais instâncias do que esse número durante autoscale, a solicitação falhará com um erro INSTANCE_POOL_MAX_CAPACITY_FAILURE.

Esta configuração é opcional. A Databricks recomenda definir um valor apenas nas seguintes circunstâncias:

  • Você tem uma cota de instâncias na qual deve permanecer.

  • Você deseja proteger um conjunto de trabalho contra impacto em outro conjunto de trabalho. Por exemplo, suponha que sua cota de instância seja 100 e você tenha equipes A e B que precisam executar Job. Você pode criar pool A com no máximo 50 e pool B com no máximo 50 para que as duas equipes compartilhem a cota de 100 de forma justa.

  • Você precisa limitar os custos.

parada Encerramento automático de instância

O tempo em minutos acima do valor definido em Mínimo de instâncias parado em que as instâncias podem ser paradas antes de serem encerradas pelo pool.

Tipos de instância

Um pool consiste em instâncias paradas mantidas prontas para novos clusters e instâncias em uso por clusters em execução. Todas essas instâncias são do mesmo tipo de provedor de instância, selecionado ao criar um pool.

O tipo de instância de um pool não pode ser editado. Os clusters anexados a um pool usam o mesmo tipo de instância para os nós de driver e worker . Diferentes famílias de tipos de instância se adaptam a diferentes casos de uso, como cargas de trabalho com uso intensivo de memória ou compute .

O Databricks sempre fornece um aviso de descontinuação de um ano antes de interromper o suporte para um tipo de instância.

Versão pré-carregada do Databricks Runtime

Você pode acelerar os lançamentos clusters selecionando uma versão do Databricks Runtime a ser carregada em instâncias parado no pool. Se um usuário selecionar esse tempo de execução ao criar clusters apoiados pelo pool, esses clusters serão iniciados ainda mais rapidamente do que poolapoiados clusters que não usam uma versão pré-carregada do Databricks Runtime.

Definir esta opção como Nenhum retarda os lançamentos clusters , pois faz com que a versão do Databricks Runtime downloads sob demanda para instâncias do Parado no pool. Quando os clusters liberam as instâncias no pool, a versão do Databricks Runtime permanece armazenada em cache nessas instâncias. As próximas operações de criação clusters que usam a mesma versão do Databricks Runtime podem se beneficiar desse comportamento de cache, mas isso não é garantido.

Docker Imagepré-carregada

Docker Image são suportadas com pools se você usar a API de pools de instâncias para criar o pool.

Tags de pool

As tags de pool permitem monitorar facilmente o custo dos recursos clouds usados por vários grupos em sua organização. Você pode especificar tags como valor-chave nominal ao criar um pool, e o Databricks aplica essas tags a recursos clouds , como VMs e volumes de disco, bem como relatórios de uso de DBU.

Por conveniência, o Databricks aplica três tags default a cada pool: Vendor, DatabricksInstancePoolId e DatabricksInstancePoolCreatorId. Você também pode adicionar tags personalizadas ao criar um pool. Você pode adicionar até 43 tags personalizadas.

Tags personalizadas

Para adicionar tags adicionais ao pool, navegue até tab tab na parte inferior da página Criar Pool . Clique no botão + Adicionar e insira o valor-chave nominal.

poolOs clusters respaldados herdam default e as tags personalizadas da configuração do pool. Para obter informações detalhadas sobre como as tags de pool e a tag de cluster funcionam juntas, consulte Monitorar o uso usando tags.

Configurações da AWS

Ao configurar as instâncias AWS de um pool, você pode escolher a zona de disponibilidade (AZ), se deseja usar instâncias spot e o preço spot máximo, e o tipo e tamanho do volume EBS. Todos os clusters anexados ao pool herdam essas configurações.

Zonas de disponibilidade

A escolha de uma AZ específica para um pool é útil principalmente se sua organização tiver adquirido instâncias reservadas em zonas de disponibilidade específicas. Para obter mais informações sobre AZs, consulte Zonas de disponibilidade da AWS.

Auto-AZ com pool

Se o senhor usar um tipo de instância de frota com seu pool, poderá selecionar auto como a zona de disponibilidade. Quando o senhor usa a auto-AZ, a zona de disponibilidade é selecionada automaticamente com base na capacidade disponível do provedor de nuvens. O pool será movido para a melhor AZ logo antes de cada evento de aumento de escala a partir de zero e permanecerá fixo em uma única AZ enquanto o pool não estiver vazio. Para obter mais informações, consulte Tipos de instância do AWS Fleet.

Os clusters anexados a um pool herdam a zona de disponibilidade do pool. Você não pode especificar a zona de disponibilidade para clusters individuais no pool.

Instâncias spot

Você pode especificar se deseja que o pool use instâncias spot. Um pool pode ser composto por todas as instâncias spot ou todas as instâncias sob demanda.

Você também pode definir o preço spot máximo a ser usado ao lançar instâncias spot. Isso é definido como uma porcentagem do preço sob demanda correspondente. Por default, o Databricks define o preço spot máximo em 100% do preço sob demanda. Consulte preços spot da AWS.

Volumes EBS

Volumes EBS de provisionamento do Databricks para cada instância da seguinte forma:

  • Um volume raiz de instância EBS não criptografado de 30 GB usado apenas pelo sistema operacional host e pelo serviço interno do Databricks.

  • Um volume raiz de contêiner EBS criptografado de 150 GB usado pelo worker Spark. Este hosted Spark .

  • (somente HIPAA) um volume de log worker EBS criptografado de 75 GB que armazena logs para serviço interno do Databricks.

Adicionar volumes aleatórios do EBS

Para adicionar volumes aleatórios, selecione SSD propósito geral na lista EBS Volume Type dropdown .

Por default, as saídas aleatórias do Spark vão para o disco local da instância. Para tipos de instância que não possuem um disco local ou se desejar aumentar o espaço de armazenamento aleatório do Spark, você pode especificar volumes EBS adicionais. Isso é particularmente útil para evitar erros de falta de espaço em disco ao executar o Spark Job que produz grandes saídas aleatórias.

O Databricks criptografa esses volumes EBS para instâncias sob demanda e spot. Leia mais sobre volumes AWS EBS.

Limites do AWS EBS

Certifique-se de que os limites do AWS EBS sejam altos o suficiente para satisfazer os requisitos de tempo de execução de todas as instâncias em todos os pool. Para obter informações sobre os limites default do EBS e como alterá-los, consulte Limites do Amazon Elastic Block Store (EBS).

armazenamento local autoscale

Se você não quiser alocar um número fixo de volumes do EBS no momento da criação do pool, use o armazenamento local autoscale . Com o armazenamento local autoscale , o Databricks monitora a quantidade de espaço livre em disco disponível no Spark worker do seu pool. Se um worker começar a ser executado com muito pouco espaço no disco, o Databricks anexa automaticamente um novo volume EBS ao worker antes de ele ser executado sem espaço em disco. Os volumes EBS são anexados até um limite de 5 TB de espaço total em disco por instância (incluindo o armazenamento local da instância).

Para configurar o armazenamento autoscale , selecione Habilitar armazenamento local autoscale .

Os volumes EBS anexados a uma instância são desanexados somente quando a instância é devolvida à AWS. Ou seja, os volumes do EBS nunca são desanexados de uma instância enquanto ela estiver no pool. Para reduzir o uso do EBS, a Databricks recomenda configurar o tamanho do pool e o encerramento automático.

Observação

  • Databricks usa Taxa de transferência Optimized HDD (st1) para estender o armazenamento local de uma instância. O limite de capacidadedefault da AWS para esses volumes é 20 TiB. Para evitar atingir este limite, os administradores devem solicitar um aumento deste limite com base nos seus requisitos de utilização.

  • Se você quiser usar o armazenamento local autoscale , a IAM role ou key do IAM usada para criar sua account deverá incluir as permissões ec2:AttachVolume, ec2:CreateVolume, ec2:DeleteVolume e ec2:DescribeVolumes. Para obter a lista completa de permissões e instruções sobre como atualizar sua IAM role ou key existente do IAM, consulte Criar uma IAM role para implantação workspace .