Pular para o conteúdo principal

O que é o Databricks Connect?

nota

Este artigo abrange o Databricks Connect para Databricks Runtime 13.3 LTS e acima.

Para obter informações sobre a versão legada do Databricks Connect, consulte Databricks Connect para Databricks Runtime 12.2 LTS e abaixo.

O Databricks Connect está disponível para os seguintes idiomas:

Visão geral

Databricks Connect Permite que o senhor conecte o popular IDEs, como o Visual Studio Code, PyCharm, RStudio Desktop, IntelliJ IDEA, servidores Notebook e outros aplicativos personalizados ao Databricks compute. Este artigo explica como funciona o site Databricks Connect.

nota

A extensão Databricks para Visual Studio Code inclui o Databricks Connect, portanto o senhor não precisa instalar o Databricks Connect se tiver instalado a extensão Databricks para Visual Studio Code. Consulte Depurar código usando o Databricks Connect para a extensão do Databricks para o Visual Studio Code.

O Databricks Connect é uma biblioteca cliente para o Databricks Runtime. Ele permite que o senhor escreva códigos usando Spark APIs e os execute remotamente em Databricks compute em vez de na sessão local Spark.

Por exemplo, quando o senhor executa o comando DataFrame spark.read.format(...).load(...).groupBy(...).agg(...).show() usando o site Databricks Connect, a representação lógica do comando é enviada para o servidor Spark em execução no site Databricks para execução no site remoto compute.

Com o Databricks Connect, o senhor pode:

  • execução em grande escala do código Spark de qualquer aplicativo Python, R ou Scala. Em qualquer lugar que o senhor possa import pyspark para Python, library(sparklyr) para R ou import org.apache.spark para Scala, agora é possível executar o código Spark diretamente do seu aplicativo, sem a necessidade de instalar nenhum plug-in de IDE ou usar scripts de envio Spark.
nota

Databricks Connect para Databricks Runtime 13.3 LTS e acima suportam a execução de aplicativos Python. R e Scala são suportados apenas em Databricks Connect para Databricks Runtime 13.3 LTS e acima.

  • passo e código de depuração em seu IDE, mesmo ao trabalhar com clusters remotos.

  • Iterar rapidamente ao desenvolver a biblioteca. O senhor não precisa reiniciar o clustering depois de alterar as dependências de Python ou Scala biblioteca em Databricks Connect, porque cada sessão de cliente é isolada uma da outra no clustering.

  • Encerrar o clustering parado sem perder o trabalho. Como o aplicativo cliente é desacoplado do clustering, ele não é afetado por reinicializações ou atualizações do clustering, o que normalmente faria com que o senhor perdesse todas as variáveis, RDDs e objetos DataFrame definidos em um Notebook.

Para Databricks Runtime 13.3 LTS e acima, Databricks Connect agora é construído com base no código aberto Spark Connect. Spark O Connect apresenta uma arquitetura cliente-servidor desacoplada para Apache Spark que permite conectividade remota ao clustering Spark usando o DataFrame API e planos lógicos não resolvidos como protocolo. Com essa nova arquitetura baseada no Spark Connect, o Databricks Connect se torna um thin client simples e fácil de usar. Spark O Connect pode ser incorporado em qualquer lugar para se conectar a Databricks: em IDEs, Notebook e aplicativos, permitindo que usuários individuais e parceiros criem novas experiências de usuário (interativas) com base na plataforma Databricks. Para obter mais informações sobre o Spark Connect, consulte Introducing Spark Connect.

Databricks Connect determina onde o código é executado e depurado, conforme mostrado na figura a seguir.

A figura que mostra o site Databricks Connect mostra a execução e a depuração do código

Para código em execução: Todo o código é executado localmente, enquanto todo o código que envolve DataFrame operações de execução no clustering no Databricks workspace remoto e as respostas de execução são enviadas de volta ao chamador local.

Para código de depuração: Todo o código é depurado localmente, enquanto todo o código Spark continua a ser executado no clustering no Databricks workspace remoto. O código principal do mecanismo do Spark não pode ser depurado diretamente do cliente.

Próximas etapas