O que é o Databricks Connect?
Este artigo abrange o Databricks Connect para Databricks Runtime 13.3 LTS e acima.
Para obter informações sobre a versão legada do Databricks Connect, consulte Databricks Connect para Databricks Runtime 12.2 LTS e abaixo.
Databricks Connect é uma biblioteca cliente para o Databricks Runtime que permite que o senhor conecte aplicativos populares do IDEs, como Visual Studio Code, PyCharm, RStudio Desktop, IntelliJ IDEA, servidores Notebook e outros aplicativos personalizados ao Databricks compute.
Para Databricks Runtime 13.3 LTS e acima, o Databricks Connect foi desenvolvido com base no código aberto Spark Connect, que tem uma arquitetura cliente-servidor desacoplada para Apache Spark que permite a conectividade remota ao Spark clustering usando o DataFrame API e planos lógicos não resolvidos como protocolo.
O Databricks Connect está disponível para os seguintes idiomas:
A extensão Databricks para Visual Studio Code inclui o Databricks Connect, portanto o senhor não precisa instalar o Databricks Connect se tiver instalado a extensão Databricks para Visual Studio Code. Consulte Depurar código usando o Databricks Connect para a extensão do Databricks para o Visual Studio Code.
O que posso fazer com o Databricks Connect?
Usando Databricks Connect, o senhor pode escrever código usando Spark APIs e executá-lo remotamente em Databricks compute em vez de na sessão local Spark.
Por exemplo, quando o senhor executa o comando DataFrame spark.read.format(...).load(...).groupBy(...).agg(...).show()
usando o site Databricks Connect, a representação lógica do comando é enviada para o servidor Spark em execução no site Databricks para execução no site remoto compute.
O Databricks Connect permite que o senhor:
- execução em grande escala do código Spark de qualquer aplicativo Python, R ou Scala. Em qualquer lugar que o senhor possa
import pyspark
para Python,library(sparklyr)
para R ouimport org.apache.spark
para Scala, agora é possível executar o código Spark diretamente do seu aplicativo, sem a necessidade de instalar nenhum plug-in de IDE ou usar scripts de envio Spark.
Databricks Connect para Databricks Runtime 13.3 LTS e acima suportam a execução de aplicativos Python. R e Scala são suportados apenas em Databricks Connect para Databricks Runtime 13.3 LTS e acima.
-
passo e código de depuração em seu IDE, mesmo ao trabalhar com clusters remotos.
-
Iterar rapidamente ao desenvolver a biblioteca. O senhor não precisa reiniciar o clustering depois de alterar as dependências de Python ou Scala biblioteca em Databricks Connect, porque cada sessão de cliente é isolada uma da outra no clustering.
-
Encerrar o clustering parado sem perder o trabalho. Como o aplicativo cliente é desacoplado do clustering, ele não é afetado por reinicializações ou atualizações do clustering, o que normalmente faria com que o senhor perdesse todas as variáveis, RDDs e objetos DataFrame definidos em um Notebook.
Onde está a execução do código?
Databricks Connect determina onde o código é executado e depurado, conforme mostrado na figura a seguir.
Para código em execução: Todo o código é executado localmente, enquanto todo o código que envolve DataFrame operações de execução no clustering no Databricks workspace remoto e as respostas de execução são enviadas de volta ao chamador local.
Para código de depuração: Todo o código é depurado localmente, enquanto todo o código Spark continua a ser executado no clustering no Databricks workspace remoto. O código principal do mecanismo do Spark não pode ser depurado diretamente do cliente.
Próximas etapas
- Para começar a desenvolver soluções Databricks Connect com Python, comece com o tutorial Databricks Connect for Python.
- Para começar a desenvolver soluções do Databricks Connect com R, comece com o tutorial Databricks Connect for R.
- Para começar a desenvolver soluções do Databricks Connect com Scala, comece com o tutorial do Databricks Connect for Scala.