Referência de configuração de pool
Este artigo descreve as configurações disponíveis ao criar um pool usando a UI. Para saber como usar o Databricks CLI para criar um pool, consulte Databricks CLI comando. Para saber como usar o REST API para criar um pool, consulte o Instance pool API.
Se sua carga de trabalho for compatível com serverless compute, Databricks recomenda o uso de serverless compute em vez de pool para aproveitar as vantagens do compute sempre ativo e escalável. Consulte Conectar-se a serverless compute .
tamanho da piscina
Ao criar um pool, a fim de controlar seu tamanho, o senhor pode definir três parâmetros: instâncias mínimas de parada, capacidade máxima e término automático da instância de parada.
Instâncias mínimas de parada
O número mínimo de instâncias que o pool mantém parado. Essas instâncias não são encerradas, independentemente das configurações de encerramento automático. Se um clustering consumir instâncias paradas do pool, Databricks provisionamento de instâncias adicionais para manter o mínimo.
Capacidade máxima
O número máximo de instâncias que o pool pode provisionar. Se definido, esse valor restringe todas as instâncias (parado + usado). Se um clustering usando o pool solicitar mais instâncias do que esse número durante a autoescala, a solicitação falhará com um erro INSTANCE_POOL_MAX_CAPACITY_FAILURE
.
Essa configuração é opcional . A Databricks recomenda definir um valor somente nas seguintes circunstâncias:
- Você tem uma cota de instâncias abaixo da qual deve permanecer.
- Você quer proteger um conjunto de trabalho de impactar outro conjunto de trabalho. Por exemplo, suponha que a cota da instância seja 100 e que o senhor tenha equipes A e B que precisam executar o Job. O senhor pode criar pool A com um máximo de 50 e pool B com um máximo de 50 para que as duas equipes compartilhem a cota de 100 de forma justa.
- Você precisa limitar o custo.
instância parado terminação automática
O tempo em minutos acima do valor definido em Minimum parado Instances que as instâncias podem ser paradas antes de serem encerradas pelo pool.
Tipos de instância
Um pool consiste em instâncias paradas mantidas prontas para novos clusters e instâncias em uso por clusters em execução. Todas essas instâncias são do mesmo tipo de provedor de instância, selecionado ao criar um pool.
O tipo de instância de um pool não pode ser editado. clustering anexados a um pool usam o mesmo tipo de instância para o driver e os nós do worker. Diferentes famílias de tipos de instância se adaptam a diferentes casos de uso, como cargas de trabalho com uso intensivo de memória ou compute.
A Databricks sempre fornece um aviso de depreciação de um ano antes de deixar de oferecer suporte a um tipo de instância.
Versão pré-carregada do Databricks Runtime
O senhor pode acelerar o lançamento de clusters selecionando uma versão do Databricks Runtime para ser carregada em instâncias parado no pool. Se um usuário selecionar esse tempo de execução ao criar um clustering apoiado pelo pool, esse clustering será iniciado ainda mais rapidamente do que um clustering apoiado pelo poolque não usa uma versão pré-carregada do Databricks Runtime.
Definir essa opção como None torna os lançamentos de clustering mais lentos, pois faz com que a versão Databricks Runtime seja download sob demanda para parear instâncias no pool. Quando o clustering libera as instâncias no pool, a versão Databricks Runtime permanece em cache nessas instâncias. As próximas operações de criação de clustering que usarem a mesma versão do Databricks Runtime poderão se beneficiar desse comportamento de cache, mas isso não é garantido.
Imagem pré-carregada Docker
Docker A imagem é compatível com o pool se o senhor usar o pool de instâncias API para criar o pool.
etiquetas de piscina
As tags de pool permitem que o senhor monitore facilmente o custo do recurso de nuvem usado por vários grupos em sua organização. O senhor pode especificar tags como par key-value ao criar um pool, e o Databricks aplica essas tags a recursos de nuvem como VMs e volumes de disco, bem como DBU relatórios de uso.
Por conveniência, o site Databricks aplica três tags default a cada pool: Vendor
,
DatabricksInstancePoolId
e DatabricksInstancePoolCreatorId
. O senhor também pode adicionar tags personalizadas ao criar um pool. Você pode adicionar até 43 tags personalizadas.
Etiquetas personalizadas
Para adicionar outras tags ao site pool, navegue até a guia tab na parte inferior da página Criar pool . Clique no botão + Add (Adicionar ) e insira o par key-value.
O clustering apoiado em pool herda default e as tags personalizadas da configuração pool. Para obter informações detalhadas sobre como as tags pool e a Cluster Tag funcionam juntas, consulte Uso de atributos usando tags.
Configurações do AWS
Ao configurar as instâncias do AWS de um pool, o senhor pode escolher a zona de disponibilidade (AZ), se deseja usar instâncias spot e o preço spot máximo, bem como o tipo e o tamanho do volume EBS. Todos os clusters anexados ao site pool herdam essas configurações.
Zonas de disponibilidade
A escolha de uma AZ específica para um pool é útil principalmente se sua organização tiver adquirido instâncias reservadas em zonas de disponibilidade específicas. Para obter mais informações sobre AZs, consulte AWS availability zones.
Auto-AZ com piscina
Se o senhor usar um tipo de instância de frota com seu pool, poderá selecionar auto como a zona de disponibilidade. Quando você usa o Auto-AZ, a zona de disponibilidade é selecionada automaticamente com base na capacidade disponível do provedor de nuvem. O pool será movido para a melhor AZ logo antes de cada evento de aumento de escala a partir de zero e permanecerá fixo em uma única AZ enquanto o pool não estiver vazio. Para obter mais informações, consulte AWS Fleet instance types.
que o senhor anexa a um pool herdam a zona de disponibilidade do pool. O senhor não pode especificar a zona de disponibilidade para clustering individual no pool.
Instâncias pontuais
O senhor pode especificar se deseja que o pool use instâncias spot. Um pool pode ser todas as instâncias spot ou todas as instâncias on-demand.
Você também pode definir o preço spot máximo a ser usado ao iniciar instâncias spot. Isso é definido como uma porcentagem do preço sob demanda correspondente. Em default, Databricks define o preço spot máximo em 100% do preço sob demanda. Veja os preços spot da AWS.
Volumes do EBS
Databricks provisionamento de volumes EBS para cada instância da seguinte forma:
- Um volume raiz de instância do EBS não criptografado de 30 GB usado somente pelo sistema operacional do host e pelo serviço interno Databricks.
- Um volume raiz de contêiner EBS criptografado de 150 GB usado pelo worker do Spark. Isso hospeda serviços e logs do Spark.
- (somente HIPAA) um volume de log de worker do EBS criptografado de 75 GB que armazena logs para serviços internos do Databricks.
Adicionar volumes aleatórios do EBS
Para adicionar volumes aleatórios, selecione SSD de uso geral na lista suspensa Tipo de volume do EBS .
Em default, as saídas de embaralhamento de Spark vão para o disco local da instância. Para tipos de instância que não têm um disco local ou se o senhor quiser aumentar o espaço de armazenamento do Spark shuffle, pode especificar volumes EBS adicionais. Isso é particularmente útil para evitar erros de falta de espaço em disco quando o senhor executa Spark trabalhos que produzem grandes saídas de embaralhamento.
A Databricks criptografa esses volumes EBS para instâncias on-demand e spot. Leia mais sobre os volumes EBS da AWS.
Limites do AWS EBS
Certifique-se de que os limites do AWS EBS sejam altos o suficiente para atender aos requisitos de tempo de execução de todas as instâncias em todos os pools. Para obter informações sobre os limites do default EBS e como alterá-los, consulte Amazon Elastic Block Store (EBS) Limits.
armazenamento local em escala automática
Se o senhor não quiser alocar um número fixo de volumes EBS no momento da criação do site pool, use o armazenamento local de escala automática. Com o armazenamento local de escala automática, o siteDatabricks monitora a quantidade de espaço livre em disco disponível pool Spark no worker do site. Se um worker começar a ficar com pouco espaço em disco, o Databricks anexará automaticamente um novo volume EBS ao worker antes que ele fique sem espaço em disco. Os volumes do EBS são conectados até um limite de 5 TB de espaço total em disco por instância (incluindo o armazenamento local da instância).
Para configurar o armazenamento de autoscale, selecione Ativar armazenamento local de autoscale .
Os volumes EBS anexados a uma instância são desanexados somente quando a instância é devolvida ao AWS. Ou seja, os volumes EBS nunca são desconectados de uma instância enquanto ela estiver no pool. Para reduzir o uso do EBS, o site Databricks recomenda a configuração do tamanho do pool.
- A Databricks usa volumes do Amazon EBS GP3 para ampliar o armazenamento local de uma instância. O limite de capacidade dodefault AWS para esses volumes é de 50 TiB. Para evitar atingir esse limite, os administradores devem solicitar um aumento desse limite com base em seus requisitos de uso.
- Se o senhor quiser usar o armazenamento local de autoescala, o IAM role ou a chave usada para criar o account deverá incluir as permissões
ec2:AttachVolume
,ec2:CreateVolume
,ec2:DeleteVolume
eec2:DescribeVolumes
. Para obter a lista completa de permissões e instruções sobre como atualizar seu IAM role ou chave existente, consulte Criar um IAM role para implantação do workspace.