O que é o Databricks Connect?
Este artigo abrange o Databricks Connect para Databricks Runtime 13.3 LTS e acima.
Para obter informações sobre a versão legada do Databricks Connect, consulte Databricks Connect para Databricks Runtime 12.2 LTS e abaixo.
O Databricks Connect está disponível para os seguintes idiomas:
Visão geral
Databricks Connect Permite que o senhor conecte o popular IDEs, como o Visual Studio Code, PyCharm, RStudio Desktop, IntelliJ IDEA, servidores Notebook e outros aplicativos personalizados ao Databricks compute. Este artigo explica como funciona o site Databricks Connect.
A extensão Databricks para Visual Studio Code inclui o Databricks Connect, portanto o senhor não precisa instalar o Databricks Connect se tiver instalado a extensão Databricks para Visual Studio Code. Consulte Depurar código usando o Databricks Connect para a extensão do Databricks para o Visual Studio Code.
O Databricks Connect é uma biblioteca cliente para o Databricks Runtime. Ele permite que o senhor escreva códigos usando Spark APIs e os execute remotamente em Databricks compute em vez de na sessão local Spark.
Por exemplo, quando o senhor executa o comando DataFrame spark.read.format(...).load(...).groupBy(...).agg(...).show()
usando o site Databricks Connect, a representação lógica do comando é enviada para o servidor Spark em execução no site Databricks para execução no site remoto compute.
Com o Databricks Connect, o senhor pode:
- execução em grande escala do código Spark de qualquer aplicativo Python, R ou Scala. Em qualquer lugar que o senhor possa
import pyspark
para Python,library(sparklyr)
para R ouimport org.apache.spark
para Scala, agora é possível executar o código Spark diretamente do seu aplicativo, sem a necessidade de instalar nenhum plug-in de IDE ou usar scripts de envio Spark.
Databricks Connect para Databricks Runtime 13.3 LTS e acima suportam a execução de aplicativos Python. R e Scala são suportados apenas em Databricks Connect para Databricks Runtime 13.3 LTS e acima.
-
passo e código de depuração em seu IDE, mesmo ao trabalhar com clusters remotos.
-
Iterar rapidamente ao desenvolver a biblioteca. O senhor não precisa reiniciar o clustering depois de alterar as dependências de Python ou Scala biblioteca em Databricks Connect, porque cada sessão de cliente é isolada uma da outra no clustering.
-
Encerrar o clustering parado sem perder o trabalho. Como o aplicativo cliente é desacoplado do clustering, ele não é afetado por reinicializações ou atualizações do clustering, o que normalmente faria com que o senhor perdesse todas as variáveis, RDDs e objetos DataFrame definidos em um Notebook.
Para Databricks Runtime 13.3 LTS e acima, Databricks Connect agora é construído com base no código aberto Spark Connect. Spark O Connect apresenta uma arquitetura cliente-servidor desacoplada para Apache Spark que permite conectividade remota ao clustering Spark usando o DataFrame API e planos lógicos não resolvidos como protocolo. Com essa nova arquitetura baseada no Spark Connect, o Databricks Connect se torna um thin client simples e fácil de usar. Spark O Connect pode ser incorporado em qualquer lugar para se conectar a Databricks: em IDEs, Notebook e aplicativos, permitindo que usuários individuais e parceiros criem novas experiências de usuário (interativas) com base na plataforma Databricks. Para obter mais informações sobre o Spark Connect, consulte Introducing Spark Connect.
Databricks Connect determina onde o código é executado e depurado, conforme mostrado na figura a seguir.
Para código em execução: Todo o código é executado localmente, enquanto todo o código que envolve DataFrame operações de execução no clustering no Databricks workspace remoto e as respostas de execução são enviadas de volta ao chamador local.
Para código de depuração: Todo o código é depurado localmente, enquanto todo o código Spark continua a ser executado no clustering no Databricks workspace remoto. O código principal do mecanismo do Spark não pode ser depurado diretamente do cliente.
Próximas etapas
- Para começar a desenvolver soluções Databricks Connect com Python, comece com o tutorial Databricks Connect for Python.
- Para começar a desenvolver soluções do Databricks Connect com R, comece com o tutorial Databricks Connect for R.
- Para começar a desenvolver soluções do Databricks Connect com Scala, comece com o tutorial do Databricks Connect for Scala.