Referência de configuração de computação

Este artigo explica todas as definições de configuração disponíveis na interface de usuário do Create compute. A maioria dos usuários cria o site compute usando suas políticas atribuídas, o que limita as configurações. Se não vir uma configuração específica na interface do usuário, é porque a política selecionada não permite que você defina essa configuração.

Página de criação do AWS unrestricted compute

As configurações e as ferramentas de gerenciamento descritas neste artigo se aplicam a todos os fins e ao site Job compute. Para obter mais considerações sobre a configuração do Job compute, consulte Use Databricks compute with your Job.

Políticas

As políticas são um conjunto de regras usadas para limitar as opções de configuração disponíveis para os usuários quando eles criam compute. Se um usuário não tiver o direito de criação de clusters Unrestricted, ele só poderá criar compute usando as políticas concedidas.

Para criar o site compute de acordo com uma política, selecione uma política no menu suspenso Policy (Política ).

Em default, todos os usuários têm acesso à política Personal compute, o que lhes permite criar um recurso de máquina única compute. Se o senhor precisar de acesso ao Personal compute ou a quaisquer políticas adicionais, entre em contato com o administrador do workspace.

Computação de nó único ou de vários nós

Dependendo da política, o senhor pode escolher entre criar um nó único compute ou um nó múltiplo compute.

O nó único compute é destinado a trabalhos que usam pequenas quantidades de dados ou cargas de trabalho não distribuídas, como biblioteca de nó único e aprendizado de máquina. O compute de vários nós deve ser usado para trabalhos maiores com cargas de trabalho distribuídas.

Propriedades de um único nó

Um único nó compute tem as seguintes propriedades:

  • execução do Spark localmente.

  • O driver atua como mestre e worker, sem nós worker.

  • Gera um thread de executor por núcleo lógico no site compute, menos 1 núcleo para o driver.

  • Salva todas as saídas de logs stderr, stdout e log4j nos logs do driver.

  • Não pode ser convertido em um nó múltiplo compute.

Seleção de um ou vários nós

Considere seu caso de uso ao decidir entre um único ou vários nós compute:

  • O processamento de dados em grande escala esgotará o recurso em um único nó compute. Para essas cargas de trabalho, a Databricks recomenda o uso de um nó múltiplo compute.

  • O nó único compute não foi projetado para ser compartilhado. Para evitar conflitos de recurso, a Databricks recomenda o uso de um nó múltiplo compute quando o compute precisar ser compartilhado.

  • Um compute com vários nós não pode ser dimensionado para 0 trabalhador. Em vez disso, use um único nó compute.

  • O nó único compute não é compatível com o isolamento do processo.

  • A programação da GPU não está habilitada em um único nó compute.

  • Em um único nó compute, o Spark não pode read.parquet arquivos com uma coluna UDT. O resultado é a seguinte mensagem de erro:

    The Spark driver has stopped unexpectedly and is restarting. Your notebook will be automatically reattached.
    

    Para contornar esse problema, desative o leitor de Parquet nativo:

    spark.conf.set("spark.databricks.io.parquet.nativeReader.enabled", False)
    

Modos de acesso

O modo de acesso é um recurso de segurança que determina quem pode usar o compute e quais dados podem ser acessados por meio do compute. Cada compute no Databricks tem um modo de acesso.

A Databricks recomenda que o senhor use o modo de acesso compartilhado para todas as cargas de trabalho. Use o modo de acesso de usuário único somente se a funcionalidade necessária não for compatível com o modo de acesso compartilhado.

Modo de acesso

Visível para o usuário

Suporte UC

Idiomas suportados

Notas

Único usuário

Sempre

Sim

Python, SQL, Scala, R

Pode ser atribuído e usado por um único usuário. Referido como modo de acesso atribuído em alguns espaços de trabalho.

Compartilhado

Sempre (plano Premium ou acima obrigatório)

Sim

Python (no Databricks Runtime 11.3 LTS e acima), SQL, Scala (no Unity Catalog habilitado compute usando o Databricks Runtime 13.3 LTS e acima)

Pode ser usado por vários usuários com isolamento de dados entre os usuários.

Nenhum isolamento compartilhado

Os administradores podem ocultar esse modo de acesso impondo o isolamento do usuário na página de configurações do administrador.

Não

Python, SQL, Scala, R

Há uma configuração relacionada no nível da conta para No Isolation Shared compute (computação compartilhada sem isolamento).

Personalizado

Oculto (para todos os novos compute)

Não

Python, SQL, Scala, R

Essa opção é exibida somente se o senhor tiver um compute existente sem um modo de acesso especificado.

O senhor pode atualizar um site compute existente para atender aos requisitos do Unity Catalog, definindo seu modo de acesso como Single User (Usuário único ) ou Shared (Compartilhado).

Observação

No Databricks Runtime 13.3 LTS e acima, o script de inicialização e a biblioteca são suportados em todos os modos de acesso. Os requisitos e o suporte variam. Consulte Onde o script de inicialização pode ser instalado? e biblioteca com escopo de clusters.

Versões do Databricks Runtime

O Databricks Runtime é o conjunto de componentes principais que são executados em seu site compute. Selecione o tempo de execução usando o menu suspenso Databricks Runtime Version. Para obter detalhes sobre versões específicas do Databricks Runtime, consulte Notas sobre a versão e compatibilidade do Databricks Runtime. Todas as versões incluem o Apache Spark. A Databricks recomenda o seguinte:

  • Para todos os fins compute, use a versão mais atual para garantir que o senhor tenha as otimizações mais recentes e a compatibilidade mais atualizada entre o seu código e o pacote pré-carregado.

  • Para Job compute executando cargas de trabalho operacionais, considere o uso da versão Long Term Support (LTS) Databricks Runtime. O uso da versão LTS garantirá que o senhor não se depare com problemas de compatibilidade e poderá testar exaustivamente sua carga de trabalho antes de fazer o upgrade.

  • Para casos de uso de ciência de dados e machine learning , considere a versão Databricks Runtime ML.

Use o site Photon acceleration

O Photon é ativado por default em compute executando o Databricks Runtime 9.1 LTS e acima.

Para ativar ou desativar a aceleração do Photon, marque a caixa de seleção Use Photon Acceleration (Usar aceleração do ). Para saber mais sobre o Photon, consulte O que é o Photon?

Tipos de nós de trabalho e de driver

compute consiste em um nó driver e zero ou mais nós worker. O senhor pode escolher tipos de instância de provedor de nuvens separados para os nós driver e worker, embora em default o nó driver use o mesmo tipo de instância que o nó worker. Diferentes famílias de tipos de instância se adaptam a diferentes casos de uso, como cargas de trabalho com uso intensivo de memória ou compute.

O senhor também pode selecionar um pool para usar como worker ou nó de driver. Consulte O que são pools de Databricks?

Tipo de trabalhador

Em um compute com vários nós, os nós do worker executam o executor do Spark e outros serviços necessários para o funcionamento adequado do compute. Quando o senhor distribui sua carga de trabalho com o Spark, todo o processamento distribuído acontece nos nós do worker. Execução do Databricks: um executor por nó worker. Portanto, os termos executor e worker são usados de forma intercambiável no contexto da arquitetura da Databricks.

Dica

Para executar um Spark Job, o senhor precisa de pelo menos um nó worker. Se o site compute tiver zero worker, o senhor poderá executar um comando que não seja do Spark no nó do driver, mas o comando do Spark falhará.

Endereços IP do nó do worker

A Databricks lança worker nós com dois endereços IP privados cada. O endereço IP privado primário do nó hospeda o tráfego interno da Databricks. O endereço IP privado secundário é usado pelo contêiner do Spark para comunicação entre clusters. Esse modelo permite que os Databricks ofereçam isolamento entre vários compute no mesmo workspace.

Tipo de driver

O nó do driver mantém as informações de estado de todos os notebooks conectados ao site compute. O nó do driver também mantém o SparkContext, interpreta todos os comandos que o senhor executa a partir de um Notebook ou de uma biblioteca no compute, e executa o Apache Spark master que coordena com o executor do Spark.

O valor padrão do tipo de nó do driver é o mesmo que o tipo de nó do worker. Você pode escolher um tipo de nó de driver maior com mais memória se estiver planejando collect() muitos dados de workers do Spark e analisá-los no notebook.

Dica

Como o nó do driver mantém todas as informações de estado dos notebooks conectados, desanexe os notebooks não utilizados do nó do driver.

Tipos de instância de GPU

Para tarefas computacionalmente desafiadoras que exigem alto desempenho, como as associadas à aprendizagem profunda, a Databricks oferece suporte ao compute acelerado com unidades de processamento gráfico (GPUs). Para obter mais informações, consulte GPU-enabled compute.

A Databricks não suporta mais a criação de compute usando instâncias P2 do Amazon EC2.

Tipos de instância do AWS Graviton

O Databricks compute é compatível com as instâncias do AWS Graviton. Essas instâncias usam processadores Graviton projetados pela AWS que são construídos com base na arquitetura do conjunto de instruções Arm64. A AWS afirma que os tipos de instância com esses processadores têm a melhor relação preço/desempenho de qualquer tipo de instância no Amazon EC2. Para usar os tipos de instância Graviton, selecione um dos tipos de instância AWS Graviton disponíveis para o tipoworker , tipo de driver ou ambos.

A Databricks oferece suporte ao AWS Graviton-enabled compute:

  • No Databricks Runtime 9.1 LTS e acima para nãoPhoton e no Databricks Runtime 10.2 (sem suporte) e acima para Photon.

  • Em todas as regiões da AWS. Observe, no entanto, que nem todos os tipos de instância estão disponíveis em todas as regiões. Se o senhor selecionar um tipo de instância que não esteja disponível na região para um workspace, ocorrerá uma falha na criação do compute.

  • Para processadores AWS Graviton2 e Graviton3.

Observação

O Delta Live Tables não é compatível com o Graviton-enabled compute.

Limitações do ARM64 ISA

  • Alterações na precisão do ponto flutuante: operações típicas como adição, subtração, multiplicação e divisão não alteram a precisão. Para funções de triângulo único, como sin e cos, o limite superior da diferença de precisão para as instâncias da Intel é 1.11e-16.

  • Suporte a terceiros: a alteração no ISA pode ter algum impacto no suporte a ferramentas e biblioteca de terceiros.

  • Instâncias mistas compute: A Databricks não oferece suporte à combinação de tipos de instâncias AWS Graviton e não AWS Graviton, pois cada tipo requer um Databricks Runtime diferente.

Graviton limitações

Os seguintes recursos não são compatíveis com os tipos de instância do AWS Graviton:

Tipos de instância do AWS Fleet

Observação

Se workspace o seu foi criado antes de maio de 2023, um account administrador do talvez precise atualizar workspace IAM role as permissões da política de acesso do do para permitir tipos de instância de frota. Para obter as permissões necessárias, consulte Criar uma política de acesso.

Um tipo de instância de frota é um tipo de instância variável que resolve automaticamente para o melhor tipo de instância disponível do mesmo tamanho.

Por exemplo, se o senhor selecionar o tipo de instância de frota m-fleet.xlarge, seu nó será resolvido para o tipo de instância de uso geral .xlarge que tiver a melhor capacidade e o melhor preço naquele momento. O tipo de instância para o qual o seu compute é direcionado sempre terá a mesma memória e o mesmo número de núcleos que o tipo de instância da frota que o senhor escolheu.

Os tipos de instância de frota usam a API Spot Placement Score da AWS para escolher a zona de disponibilidade melhor e com maior probabilidade de sucesso para o seu compute no momento startup.

Limitações da frota

  • A configuração do preço spot máximo em Advanced options não tem efeito quando o tipo de nó worker é definido como um tipo de instância de frota. Isso ocorre porque não há uma única instância sob demanda para ser usada como ponto de referência para o preço à vista.

  • As instâncias do Fleet não são compatíveis com instâncias de GPU.

  • Uma pequena porcentagem de espaços de trabalho mais antigos ainda não é compatível com os tipos de instância de frota. Se esse for o caso do seu workspace, o senhor verá um erro indicando isso ao tentar criar compute ou um pool de instâncias usando um tipo de instância de frota. Estamos trabalhando para oferecer suporte a esses espaços de trabalho restantes.

Ativar autoscale

Quando a opção Enable autoscale está marcada, o senhor pode fornecer um número mínimo e máximo de trabalhadores para o site compute. Em seguida, a Databricks escolhe o número adequado de trabalhadores necessários para executar seu Job.

Para definir o número mínimo e máximo de trabalhadores que seu compute irá autoscale entre, use os campos Min worker e Max worker ao lado do tipoworker dropdown.

Se você não habilitar autoscale, inserirá um número fixo de worker no campo próximo ao worker do worker tipo de dropdown.

Observação

Quando o compute está em execução, a página de detalhes do compute exibe o número de trabalhadores alocados. O senhor pode comparar o número de trabalhadores alocados com a configuração do site worker e fazer ajustes conforme necessário.

Benefícios da autoscale

Com o dimensionamento automático, o Databricks realoca dinamicamente os workers para dar conta das características do seu job. Certas partes do seu pipeline podem ser mais exigentes computacionalmente do que outras, e o Databricks adiciona automaticamente workers adicionais durante essas fases do seu trabalho (e os remove quando não são mais necessários).

O autoscale facilita a obtenção de alta utilização porque o senhor não precisa provisionar o compute para corresponder a uma carga de trabalho. Isso se aplica especialmente a cargas de trabalho cujos requisitos mudam com o tempo (como explorar um site dataset ao longo de um dia), mas também pode se aplicar a uma carga de trabalho única e mais curta cujos requisitos de provisionamento são desconhecidos. Assim, a autoescala oferece duas vantagens:

  • As cargas de trabalho podem ser executadas mais rapidamente em comparação com um subprovisionamento de tamanho constante compute.

  • A autoescala pode reduzir os custos gerais em comparação com um tamanho estático compute.

Dependendo do tamanho constante do site compute e da carga de trabalho, o autoscale oferece ao senhor um ou ambos os benefícios ao mesmo tempo. O tamanho do compute pode ficar abaixo do número mínimo de trabalhadores selecionados quando o provedor de nuvens encerra as instâncias. Nesse caso, o Databricks tenta continuamente reprovisionar as instâncias para manter o número mínimo de trabalhadores.

Observação

O escalonamento automático não está disponível para spark-submit jobs.

Observação

compute O dimensionamento automático tem limitações ao reduzir o tamanho do cluster para cargas de trabalho de transmissão estruturada. Databricks recomenda o uso do site Delta Live Tables com autoscale aprimorado para cargas de trabalho de transmissão. Consulte Otimizar a utilização do pipeline cluster do Delta Live Tables com o Enhanced autoscale.

Como o Autoscale se comporta

workspace nos planos de preços Premium e Enterprise usa autoscale otimizado. workspace no plano de preços padrão usa autoscale padrão.

autoscale otimizada tem as seguintes características:

  • Aumenta de mínimo a máximo em 2 passos.

  • Pode reduzir a escala, mesmo que o compute não esteja parado, observando o estado do arquivo aleatório.

  • Reduz com base em uma porcentagem dos nós atuais.

  • Em Job compute, diminui se o compute for subutilizado nos últimos 40 segundos.

  • Em compute para todos os fins, reduz a escala se o compute for subutilizado nos últimos 150 segundos.

  • A propriedade de configuração spark.databricks.aggressiveWindowDownS do Spark especifica, em segundos, a frequência com que o site compute toma decisões de redução de escala. Aumentar o valor faz com que o compute diminua mais lentamente. O valor máximo é 600.

autoscale padrão é usada no workspace do plano padrão. autoscale padrão tem as seguintes características:

  • comece adicionando 8 nós. Em seguida, aumente exponencialmente, executando quantos passos forem necessários para atingir o máximo.

  • Diminui a escala quando 90% dos nós não estiverem ocupados por 10 minutos e o site compute estiver parado por pelo menos 30 segundos.

  • Reduz exponencialmente, começando com 1 nó.

autoscale com pool

Se estiver conectando o site compute a uma piscina, considere o seguinte:

  • Certifique-se de que o tamanho do compute solicitado seja menor ou igual ao número mínimo de instâncias do parado no pool. Se for maior, o tempo de compute startup será equivalente ao de compute que não usa um pool.

  • Certifique-se de que o tamanho máximo da compute seja menor ou igual à capacidade máxima da piscina. Se for maior, a criação do compute falhará.

Exemplo de Autoescale automático

Se o senhor reconfigurar um compute estático para autoscale, o Databricks redimensionará imediatamente o compute dentro dos limites mínimo e máximo e, em seguida, começará a autoescala. Como exemplo, a tabela a seguir demonstra o que acontece com o compute com um determinado tamanho inicial se o senhor reconfigurar o compute para autoscale entre 5 e 10 nós.

Tamanho inicial

Tamanho após a reconfiguração

6

6

12

10

3

5

Ativar o armazenamento local de escala automática

Se o senhor não quiser alocar um número fixo de volumes EBS no momento da criação do site compute, use o armazenamento local de escala automática. Com o armazenamento local em escala automática, a Databricks monitora a quantidade de espaço livre em disco disponível no Spark worker do seu compute. Se um trabalhador começar a ficar com pouco espaço em disco, o Databricks anexará automaticamente um novo volume EBS ao trabalhador antes que ele fique sem espaço em disco. Os volumes EBS são anexados até um limite de 5 TB de espaço total em disco por instância (incluindo o armazenamento local da instância).

Para configurar o armazenamento autoscale , selecione Habilitar armazenamento local autoscale .

Os volumes EBS anexados a uma instância são desanexados somente quando a instância é devolvida ao AWS. Ou seja, os volumes do EBS nunca são desconectados de uma instância enquanto ela fizer parte de uma instância em execução compute. Para reduzir o uso do EBS, a Databricks recomenda o uso desse recurso em compute configurado com autoscale compute ou encerramento automático.

Observação

Databricks usa Taxa de transferência Optimized HDD (st1) para estender o armazenamento local de uma instância. O limite de capacidadedefault da AWS para esses volumes é 20 TiB. Para evitar atingir este limite, os administradores devem solicitar um aumento deste limite com base nos seus requisitos de utilização.

Criptografia de disco local

Visualização

Esse recurso está em Prévia Pública.

Alguns tipos de instância que o senhor usa para executar o compute podem ter discos conectados localmente. Databricks pode armazenar dados aleatórios ou dados efêmeros nesses discos conectados localmente. Para garantir que todos os dados em repouso sejam criptografados para todos os tipos de armazenamento, inclusive os dados embaralhados que são armazenados temporariamente nos discos locais do compute, o senhor pode ativar a criptografia de disco local.

Importante

Suas cargas de trabalho podem ser executadas mais lentamente devido ao impacto no desempenho da leitura e gravação de dados criptografados de e para volumes locais.

Quando a criptografia de disco local está ativada, o Databricks gera uma criptografia key localmente que é exclusiva para cada nó compute e é usada para criptografar todos os dados armazenados em discos locais. O escopo do key é local para cada nó compute e é destruído junto com o próprio nó compute. Durante sua vida útil, o key reside na memória para criptografia e descriptografia e é armazenado criptografado no disco.

Para ativar a criptografia de disco local, o senhor deve usar a API de clusters. Durante a criação ou edição do site compute, defina enable_local_disk_encryption como true.

Encerramento automático

O senhor pode definir a terminação automática para compute. Durante a criação do compute, especifique um período de inatividade em minutos após o qual o senhor deseja que o compute seja encerrado.

Se a diferença entre a hora atual e a última execução de comando no site compute for maior do que o período de inatividade especificado, o Databricks encerrará automaticamente esse site compute. Para obter mais informações sobre o encerramento do site compute, consulte Terminate a compute.

instance profile

Observação

A Databricks recomenda usar locais externos do Unity Catalog para se conectar ao S3 em vez do instance profile. O Unity Catalog simplifica a segurança e a governança dos seus dados, fornecendo um local central para administrar e auditar o acesso aos dados em vários workspace da sua account. Consulte Conectar-se ao armazenamento de objetos clouds usando o Unity Catalog.

Para acessar com segurança o recurso do AWS sem usar a chave do AWS, o senhor pode iniciar o Databricks compute com o perfil da instância. Consulte o Tutorial: Configure S3 access with an instance profile para obter informações sobre como criar e configurar o perfil da instância. Depois de criar um instance profile, o senhor o seleciona na lista suspensa instance profile lista suspensa.

Depois de iniciar o compute, verifique se é possível acessar o bucket S3 usando o seguinte comando. Se o comando for bem-sucedido, o recurso compute poderá acessar o bucket S3.

 dbutils.fs.ls("s3a://<s3-bucket-name>/")

Aviso

Quando um compute é iniciado com um instance profile, qualquer pessoa que tenha permissões de anexação a esse compute pode acessar o recurso subjacente controlado por essa função. Para se proteger contra acesso indesejado, use as permissõescompute para restringir as permissões ao site compute.

Tags

tags permitem que o senhor monitore facilmente o custo do recurso cloud usado por vários grupos em sua organização. Especifique tags como valor-chave par quando o senhor criar compute, e Databricks aplica esses tags a cloud recurso como VMs e volumes de disco, bem como DBU relatórios de uso.

Para o site compute iniciado a partir do pool, as tags personalizadas são aplicadas somente aos relatórios de uso da DBU e não se propagam para o recurso de nuvens.

Para obter informações detalhadas sobre como os tipos de tags pool e compute funcionam juntos, consulte Monitorar o uso usando tags

Para adicionar tags ao seu site compute:

  1. Na seção tags , adicione um valor-chave par para cada tags personalizada .

  2. Clique em Adicionar.

Configurações da AWS

Ao criar o site compute, o senhor pode escolher a zona de disponibilidade, o preço spot máximo e o tipo de volume do EBS. Essas configurações estão na alternância Advanced Options (Opções avançadas ) em Instances (Instâncias ) tab.

Zonas de disponibilidade

Essa configuração permite que o senhor especifique qual zona de disponibilidade (AZ) deseja que o compute use. Em default, essa configuração é definida como automática, em que a AZ é selecionada automaticamente com base nos IPs disponíveis nas sub-redes workspace. O Auto-AZ tenta novamente em outras zonas de disponibilidade se o AWS retornar erros de capacidade insuficiente.

Observação

O Auto-AZ funciona somente em compute startup. Após o lançamento do compute, todos os nós permanecem na zona de disponibilidade original até que o compute seja encerrado ou reiniciado.

A escolha de uma AZ específica para o site compute é útil principalmente se a sua organização tiver adquirido instâncias reservadas em zonas de disponibilidade específicas. Leia mais sobre as zonas de disponibilidade do AWS.

Instâncias spot

Você pode especificar se deseja usar instâncias spot e o preço spot máximo a ser usado ao iniciar instâncias spot como uma porcentagem do preço sob demanda correspondente. Por default, o preço máximo é 100% do preço sob demanda. Consulte preços spot da AWS.

Volumes EBS

Esta seção descreve as configurações do volume EBS do default para os nós do worker, como adicionar volumes aleatórios e como configurar o compute para que o Databricks aloque automaticamente os volumes EBS.

Para configurar os volumes EBS, o site compute não deve estar habilitado para o armazenamento local de autoescala. Clique em Instances (Instâncias ) tab na configuração compute e selecione uma opção na lista EBS Volume Type (Tipo de volume EBS ) dropdown.

Volumes EBS padrão

Volumes EBS de provisionamento de databricks para cada nó worker da seguinte forma:

  • Um volume raiz de instância EBS criptografado de 30 GB usado pelo sistema operacional host e pelo serviço interno do Databricks.

  • Um volume raiz de contêiner EBS criptografado de 150 GB usado pelo worker Spark. Este hosted Spark .

  • (somente HIPAA) um volume de log worker EBS criptografado de 75 GB que armazena logs para serviço interno do Databricks.

Adicionar volumes aleatórios do EBS

Para adicionar volumes aleatórios, selecione SSD propósito geral na lista EBS Volume Type dropdown .

Por default, as saídas aleatórias do Spark vão para o disco local da instância. Para tipos de instância que não possuem um disco local ou se desejar aumentar o espaço de armazenamento aleatório do Spark, você pode especificar volumes EBS adicionais. Isso é particularmente útil para evitar erros de falta de espaço em disco ao executar o Spark Job que produz grandes saídas aleatórias.

O Databricks criptografa esses volumes EBS para instâncias sob demanda e spot. Leia mais sobre volumes AWS EBS.

Opcionalmente, criptografe volumes do Databricks EBS com uma chave gerenciada pelo cliente

Opcionalmente, o senhor pode criptografar os volumes do compute EBS com um gerenciador de clientes key.

Consulte Chave de gerenciar clientes para criptografia.

Limites do AWS EBS

Certifique-se de que os limites do AWS EBS sejam altos o suficiente para atender aos requisitos de tempo de execução de todos os trabalhadores em todo o seu implantado compute. Para obter informações sobre os limites do default EBS e como alterá-los, consulte Limites do Amazon Elastic Block Store (EBS).

Tipo de volume SSD AWS EBS

Selecione gp2 ou gp3 para o tipo de volume do AWS EBS SSD. Para fazer isso, consulte gerenciar SSD storage. A Databricks recomenda que o senhor mude para o gp3 devido à economia de custos em comparação com o gp2.

Observação

Por padrão, a configuração do Databricks define as IOPS e as IOPS de taxa de transferência do volume gp3 para corresponder ao desempenho máximo de um volume gp2 com o mesmo tamanho de volume.

Para obter informações técnicas sobre gp2 e gp3, consulte Tipos de volume do Amazon EBS.

Configuração do Spark

Para fazer o ajuste fino do Spark Job, o senhor pode fornecer propriedades de configuração personalizadas do Spark.

  1. Na página de configuração compute, clique no botão de alternância Advanced Options (Opções avançadas ).

  2. Clique na Spark tab.

    Configuração do Spark

    Em Spark config, insira as propriedades de configuração como um valor-chave par por linha.

Quando o senhor configurar o site compute usando a API de clusters, defina as propriedades do Spark no campo spark_conf na API de criação de clusters ou na API de atualização de clusters.

Para impor as configurações do Spark em compute, os administradores de workspace podem usar as políticas decompute .

Recuperar uma propriedade de configuração do Spark de um segredo

A Databricks recomenda armazenar informações confidenciais, como senhas, em segredo , em vez de texto simples. Para fazer referência a um segredo na configuração do Spark, use a seguinte sintaxe:

spark.<property-name> {{secrets/<scope-name>/<secret-name>}}

Por exemplo, para definir uma propriedade de configuração do Spark chamada password para o valor do segredo armazenado em secrets/acme_app/password:

spark.password {{secrets/acme-app/password}}

Para obter mais informações, consulte Sintaxe para fazer referência a segredos em uma propriedade de configuração ou variável de ambiente do Spark.

Variáveis de ambiente

Configure a variável de ambiente personalizada que o senhor pode acessar a partir do script de inicialização em execução no site compute. Databricks também fornece variáveis de ambiente predefinidas que o senhor pode usar no script de inicialização. O senhor não pode substituir essas variáveis de ambiente predefinidas.

  1. Na página de configuração compute, clique no botão de alternância Advanced Options (Opções avançadas ).

  2. Clique na Spark tab.

  3. Defina a variável de ambiente no campo variável de ambiente .

    campo variável de ambiente

O senhor também pode definir a variável de ambiente usando o campo spark_env_vars na API Create cluster ou na API Update cluster.

Entrega de registros de computação

Ao criar o site compute, o senhor pode especificar um local para fornecer os logs do nó do driver do Spark, dos nós worker e dos eventos. logs são entregues a cada cinco minutos e arquivados a cada hora no destino escolhido. Quando um compute é encerrado, a Databricks garante a entrega de todos os logs gerados até o encerramento do compute.

O destino do logs depende do cluster_id do compute. Se o destino especificado for dbfs:/cluster-log-delivery, compute logs para 0630-191345-leap375 será entregue a dbfs:/cluster-log-delivery/0630-191345-leap375.

Para configurar o local de entrega logs :

  1. Na página compute, clique no botão de alternância Advanced Options (Opções avançadas ).

  2. Clique na Registro tab.

  3. Selecione um tipo de destino.

  4. Digite o caminho dos registros compute.

Destinos de bucket S3

Se o senhor escolher um destino S3, deverá configurar o compute com um instance profile que possa acessar o bucket. Esse instance profile deve ter as permissões PutObject e PutObjectAcl. Um exemplo do site instance profile foi incluído para sua conveniência. Consulte o Tutorial: Configurar o acesso ao S3 com um instance profile para obter instruções sobre como configurar um instance profile.

{
  "Version": "2012-10-17",
  "Statement": [
    {
      "Effect": "Allow",
      "Action": [
        "s3:ListBucket"
      ],
      "Resource": [
        "arn:aws:s3:::<my-s3-bucket>"
      ]
    },
    {
      "Effect": "Allow",
      "Action": [
        "s3:PutObject",
        "s3:PutObjectAcl",
        "s3:GetObject",
        "s3:DeleteObject"
      ],
      "Resource": [
        "arn:aws:s3:::<my-s3-bucket>/*"
      ]
    }
  ]
}

Observação

Este recurso também está disponível na API REST. Consulte a API de Clusters.