Calcular

Databricks compute refere-se à seleção de recursos de computação disponíveis no Databricks workspace. Os usuários precisam acessar compute para executar cargas de trabalho de engenharia de dados, ciência de dados e análise de dados, como pipeline ETL de produção, transmissão analítica, análise ad-hoc e machine learning.

Os usuários podem se conectar ao site compute existente ou criar um novo compute se tiverem as permissões adequadas.

O senhor pode view o compute ao qual tem acesso usando a seção compute seção do site workspace:

Página compute multifuncional no workspacedo Databricks

Tipos de computação

Estes são os tipos de compute disponíveis no Databricks:

  • serverless compute para o Notebook (visualização pública): compute sob demanda e escalável usado para executar códigos SQL e Python no Notebook.

  • serverless compute para fluxo de trabalho (Public Preview): compute sob demanda, escalável, usado para executar seu trabalho Databricks sem configurar e implantar infraestrutura.

  • All-Purpose compute: provisionamento compute usado para analisar dados no Notebook. O senhor pode criar, encerrar e reiniciar esse compute usando a interface do usuário, CLI, ou REST API.

  • Job compute: provisionamento compute usado para executar o trabalho automatizado. O programador Databricks Job cria automaticamente um Job compute sempre que um Job é configurado para execução em um novo compute. O compute é encerrado quando o Job é concluído. O senhor não pode reiniciar um Job compute. Consulte Use Databricks compute com seu trabalho.

  • poolde instâncias: compute com instâncias parado, prontas para uso, usadas para reduzir os tempos de início e autoscale . Você pode criar esse compute usando a UI, CLI ou API REST.

  • serverless Armazém SQL: Elástico sob demanda compute usado para executar comandos SQL em objetos de dados no editor SQL ou no Notebook interativo. O senhor pode criar um depósito SQL usando a interface do usuário, a CLI ou a API REST.

  • Armazém SQL clássico: provisionamento compute usado para executar comandos SQL em objetos de dados no editor SQL ou no Notebook interativo. O senhor pode criar um depósito SQL usando a interface do usuário, a CLI ou a API REST.

Os artigos nesta seção descrevem como trabalhar com recurso compute usando a interface do usuário do Databricks. Para outros métodos, consulte Usar a linha de comando e a referência da API REST do Databricks.

Databricks runtime

O Databricks Runtime é o conjunto de componentes principais que são executados em seu site compute. O Databricks Runtime é uma definição configurável em todas as finalidades do Job compute, mas é selecionado automaticamente no SQL warehouse.

Cada versão do Databricks Runtime inclui atualizações que melhoram a usabilidade, o desempenho e a segurança da análise de big data. O Databricks Runtime em seu site compute acrescenta muitos recursos, inclusive:

  • Delta Lake, uma camada de armazenamento de última geração construída sobre Apache Spark que fornece transações ACID, disponibilidade e índices otimizados e melhorias no mecanismo de execução para a construção de pipeline de dados. Veja O que é Delta Lake?.

  • Biblioteca Java, Scala, Python e R instalada.

  • Ubuntu e sua biblioteca de sistema que o acompanha.

  • Biblioteca de GPU para clusters habilitados para GPU.

  • Serviço de Databricks que integra com outros componentes da plataforma, como Notebook, Job e gerenciamento clusters .

Para informações sobre o conteúdo de cada versão runtime, consulte as notas sobre a versão.

Controle de versão Runtime

As versões do Databricks Runtime são lançadas regularmente:

  • As versões de suporte de longo prazo são representadas por um qualificador LTS (por exemplo, 3,5 LTS). Para cada lançamento principal, declaramos uma versão de recurso “canônica”, para a qual oferecemos três anos completos de suporte. Consulte os ciclos de vida de suporte do tempo de execução do Databricks para obter mais informações.

  • As versões principais são representadas por um incremento no número da versão que precede o ponto decimal (o salto de 3,5 para 4,0, por exemplo). Eles são lançados quando há mudanças importantes, algumas das quais podem não ser compatíveis com versões anteriores.

  • as versões do recurso são representadas por um incremento ao número da versão que segue a vírgula decimal (o salto de 3,4 para 3,5, por exemplo). Cada versão principal inclui diversas versões de recursos. lançamentos de recursos são sempre compatíveis com versões anteriores de sua versão principal.