Pular para o conteúdo principal

O que é o Databricks Connect?

nota

Este artigo abrange o Databricks Connect para Databricks Runtime 13.3 LTS e acima.

Para obter informações sobre a versão legada do Databricks Connect, consulte Databricks Connect para Databricks Runtime 12.2 LTS e abaixo.

Databricks Connect é uma biblioteca cliente para o Databricks Runtime que permite que o senhor conecte aplicativos populares do IDEs, como Visual Studio Code, PyCharm, RStudio Desktop, IntelliJ IDEA, servidores Notebook e outros aplicativos personalizados ao Databricks compute.

Para Databricks Runtime 13.3 LTS e acima, o Databricks Connect foi desenvolvido com base no código aberto Spark Connect, que tem uma arquitetura cliente-servidor desacoplada para Apache Spark que permite a conectividade remota ao Spark clustering usando o DataFrame API e planos lógicos não resolvidos como protocolo.

O Databricks Connect está disponível para os seguintes idiomas:

nota

A extensão Databricks para Visual Studio Code inclui o Databricks Connect, portanto o senhor não precisa instalar o Databricks Connect se tiver instalado a extensão Databricks para Visual Studio Code. Consulte Depurar código usando o Databricks Connect para a extensão do Databricks para o Visual Studio Code.

O que posso fazer com o Databricks Connect?

Usando Databricks Connect, o senhor pode escrever código usando Spark APIs e executá-lo remotamente em Databricks compute em vez de na sessão local Spark.

Por exemplo, quando o senhor executa o comando DataFrame spark.read.format(...).load(...).groupBy(...).agg(...).show() usando o site Databricks Connect, a representação lógica do comando é enviada para o servidor Spark em execução no site Databricks para execução no site remoto compute.

O Databricks Connect permite que o senhor:

  • execução em grande escala do código Spark de qualquer aplicativo Python, R ou Scala. Em qualquer lugar que o senhor possa import pyspark para Python, library(sparklyr) para R ou import org.apache.spark para Scala, agora é possível executar o código Spark diretamente do seu aplicativo, sem a necessidade de instalar nenhum plug-in de IDE ou usar scripts de envio Spark.
nota

Databricks Connect para Databricks Runtime 13.3 LTS e acima suportam a execução de aplicativos Python. R e Scala são suportados apenas em Databricks Connect para Databricks Runtime 13.3 LTS e acima.

  • passo e código de depuração em seu IDE, mesmo ao trabalhar com clusters remotos.

  • Iterar rapidamente ao desenvolver a biblioteca. O senhor não precisa reiniciar o clustering depois de alterar as dependências de Python ou Scala biblioteca em Databricks Connect, porque cada sessão de cliente é isolada uma da outra no clustering.

  • Encerrar o clustering parado sem perder o trabalho. Como o aplicativo cliente é desacoplado do clustering, ele não é afetado por reinicializações ou atualizações do clustering, o que normalmente faria com que o senhor perdesse todas as variáveis, RDDs e objetos DataFrame definidos em um Notebook.

Onde está a execução do código?

Databricks Connect determina onde o código é executado e depurado, conforme mostrado na figura a seguir.

A figura que mostra o site Databricks Connect mostra a execução e a depuração do código

Para código em execução: Todo o código é executado localmente, enquanto todo o código que envolve DataFrame operações de execução no clustering no Databricks workspace remoto e as respostas de execução são enviadas de volta ao chamador local.

Para código de depuração: Todo o código é depurado localmente, enquanto todo o código Spark continua a ser executado no clustering no Databricks workspace remoto. O código principal do mecanismo do Spark não pode ser depurado diretamente do cliente.

Próximas etapas