O que é o Databricks Connect?
Observação
Este artigo aborda o Databricks Connect para Databricks Runtime 13.0 e acima.
Para obter informações sobre a versão herdada do Databricks Connect, consulte Databricks Connect para Databricks Runtime 12.2 LTS e abaixo.
Para ignorar estes artigos e começar a usar o Databricks Connect for Python imediatamente, consulte Databricks Connect for Python.
Para ignorar estes artigos e começar a usar o Databricks Connect for R imediatamente, consulte Databricks Connect for R.
Para ignorar estes artigos e começar a usar o Databricks Connect for Scala imediatamente, consulte Databricks Connect for Scala.
Visão geral
O Databricks Connect permite conectar IDEs populares, como Visual Studio Code, PyCharm, RStudio Desktop, IntelliJ IDEA, servidores Notebook e outros aplicativos personalizados a clusters Databricks. Este artigo explica como funciona o Databricks Connect.
Databricks Connect é uma biblioteca cliente para o Databricks Runtime. Ele permite que você escreva código usando APIs Spark e execute-os remotamente em clusters Databricks em vez de na sessão local do Spark.
Por exemplo, quando você executa o comando DataFrame spark.read.format(...).load(...).groupBy(...).agg(...).show()
usando o Databricks Connect, a representação lógica do comando é enviada ao servidor Spark em execução no Databricks para execução nos clusters remotos.
Com o Databricks Connect, você pode:
execução de código Spark em grande escala a partir de qualquer aplicativo Python, R ou Scala. Em qualquer lugar onde você possa
import pyspark
para Python,library(sparklyr)
para R ouimport org.apache.spark
para Scala, agora você pode executar o código Spark diretamente do seu aplicativo, sem precisar instalar plug-ins IDE ou usar scripts de envio do Spark.Observação
Databricks Connect for Databricks Runtime 13.0 e acima oferecem suporte à execução de aplicativos Python. R e Scala são suportados apenas no Databricks Connect for Databricks Runtime 13.3 LTS e acima.
passo e código de depuração em seu IDE, mesmo ao trabalhar com clusters remotos.
Itere rapidamente ao desenvolver a biblioteca. Não é necessário reiniciar os clusters depois de alterar as dependências da biblioteca Python ou Scala no Databricks Connect, porque cada sessão do cliente está isolada uma da outra nos clusters.
Desligue clusters Parado sem perder trabalho. Como o aplicativo cliente é desacoplado dos clusters, ele não é afetado pelas reinicializações ou atualizações clusters , o que normalmente faria com que você perdesse todas as variáveis, RDDs e objetos DataFrame definidos em um Notebook.
Para Databricks Runtime 13.3 LTS e acima, Databricks Connect agora é construído com base no código aberto Spark Connect. O Spark Connect apresenta uma arquitetura cliente-servidor desacoplada para o Apache Spark que permite a conectividade remota aos clusters do Spark usando a API DataFrame e planos lógicos não resolvidos como protocolo. Com essa arquitetura "V2" baseada no Spark Connect, o Databricks Connect se torna um thin client simples e fácil de usar. Spark O Connect pode ser incorporado em qualquer lugar para se conectar a Databricks: em IDEs, Notebook e aplicativos, permitindo que usuários individuais e parceiros criem novas experiências de usuário (interativas) com base na plataforma Databricks. Para obter mais informações sobre o Spark Connect, consulte Introducing Spark Connect.
O Databricks Connect determina onde seu código é executado e depurado, conforme mostrado na figura a seguir.
Para execução de código: todo o código é executado localmente, enquanto todo o código que envolve operações DataFrame é executado nos clusters no workspace remoto do Databricks e as respostas de execução são enviadas de volta ao chamador local.
Para depuração de código: todo o código é depurado localmente, enquanto todo o código Spark continua a ser executado nos clusters no workspace remoto do Databricks. O código principal do mecanismo Spark não pode ser depurado diretamente do cliente.
Próximas etapas
Para começar a desenvolver soluções Databricks Connect com Python, comece com o tutorial Databricks Connect for Python .
Para começar a desenvolver soluções Databricks Connect com R, comece com o tutorial Databricks Connect for R.
Para começar a desenvolver soluções Databricks Connect com Scala, comece com o tutorial Databricks Connect for Scala .