O que é o Databricks Connect?

Observação

Este artigo aborda o Databricks Connect para Databricks Runtime 13.0 e acima.

Para obter informações sobre a versão herdada do Databricks Connect, consulte Databricks Connect para Databricks Runtime 12.2 LTS e abaixo.

Visão geral

O Databricks Connect permite conectar IDEs populares, como Visual Studio Code, PyCharm, RStudio Desktop, IntelliJ IDEA, servidores Notebook e outros aplicativos personalizados a clusters Databricks. Este artigo explica como funciona o Databricks Connect.

Databricks Connect é uma biblioteca cliente para o Databricks Runtime. Ele permite que você escreva código usando APIs Spark e execute-os remotamente em clusters Databricks em vez de na sessão local do Spark.

Por exemplo, quando você executa o comando DataFrame spark.read.format(...).load(...).groupBy(...).agg(...).show() usando o Databricks Connect, a representação lógica do comando é enviada ao servidor Spark em execução no Databricks para execução nos clusters remotos.

Com o Databricks Connect, você pode:

  • execução de código Spark em grande escala a partir de qualquer aplicativo Python, R ou Scala. Em qualquer lugar onde você possa import pyspark para Python, library(sparklyr) para R ou import org.apache.spark para Scala, agora você pode executar o código Spark diretamente do seu aplicativo, sem precisar instalar plug-ins IDE ou usar scripts de envio do Spark.

    Observação

    Databricks Connect for Databricks Runtime 13.0 e acima oferecem suporte à execução de aplicativos Python. R e Scala são suportados apenas no Databricks Connect for Databricks Runtime 13.3 LTS e acima.

  • passo e código de depuração em seu IDE, mesmo ao trabalhar com clusters remotos.

  • Itere rapidamente ao desenvolver a biblioteca. Não é necessário reiniciar os clusters depois de alterar as dependências da biblioteca Python ou Scala no Databricks Connect, porque cada sessão do cliente está isolada uma da outra nos clusters.

  • Desligue clusters Parado sem perder trabalho. Como o aplicativo cliente é desacoplado dos clusters, ele não é afetado pelas reinicializações ou atualizações clusters , o que normalmente faria com que você perdesse todas as variáveis, RDDs e objetos DataFrame definidos em um Notebook.

Para Databricks Runtime 13.3 LTS e acima, Databricks Connect agora é construído com base no código aberto Spark Connect. O Spark Connect apresenta uma arquitetura cliente-servidor desacoplada para o Apache Spark que permite a conectividade remota aos clusters do Spark usando a API DataFrame e planos lógicos não resolvidos como protocolo. Com essa arquitetura "V2" baseada no Spark Connect, o Databricks Connect se torna um thin client simples e fácil de usar. Spark O Connect pode ser incorporado em qualquer lugar para se conectar a Databricks: em IDEs, Notebook e aplicativos, permitindo que usuários individuais e parceiros criem novas experiências de usuário (interativas) com base na plataforma Databricks. Para obter mais informações sobre o Spark Connect, consulte Introducing Spark Connect.

O Databricks Connect determina onde seu código é executado e depurado, conforme mostrado na figura a seguir.

Figura mostrando a execução e depuração do código do Databricks Connect

Para execução de código: todo o código é executado localmente, enquanto todo o código que envolve operações DataFrame é executado nos clusters no workspace remoto do Databricks e as respostas de execução são enviadas de volta ao chamador local.

Para depuração de código: todo o código é depurado localmente, enquanto todo o código Spark continua a ser executado nos clusters no workspace remoto do Databricks. O código principal do mecanismo Spark não pode ser depurado diretamente do cliente.

Próximas etapas