Use o IntelliJ IDEA com o Databricks Connect for Scala
Este artigo abrange o Databricks Connect para Databricks Runtime 13.3 LTS e acima.
Este artigo aborda como usar Databricks Connect para Scala e IntelliJ IDEA com o plug-inScala. Databricks Connect permite que o senhor conecte os populares IDEs, servidores de notebook e outros aplicativos personalizados ao clustering Databricks. Consulte O que é o Databricks Connect?
Antes de começar a usar o Databricks Connect, o senhor deve configurar o cliente Databricks Connect.
Para usar Databricks Connect e IntelliJ IDEA com o plug-in Scala para criar, executar e depurar um projeto de amostra Scala sbt
, siga estas instruções. Essas instruções foram testadas com o IntelliJ IDEA Community Edition 2023.3.6. Se o senhor usar uma versão ou edição diferente do IntelliJ IDEA, as instruções a seguir poderão variar.
-
Certifique-se de que o Java Development Kit (JDK) esteja instalado localmente. Databricks recomenda que a versão local do JDK corresponda à versão do JDK no clustering Databricks.
-
IntelliJ IDEA.
-
Clique em Arquivo > Novo Projeto > .
-
Dê ao seu projeto um nome significativo.
-
Para Localização , clique no ícone da pasta e siga as instruções na tela para especificar o caminho do seu novo projeto Scala.
-
Para Language (Linguagem ), clique em Scala .
-
Em Build system , clique em sbt .
-
Na lista suspensa JDK , selecione uma instalação existente do JDK em sua máquina de desenvolvimento que corresponda à versão do JDK em seu cluster ou selecione download do JDK e siga as instruções na tela para download um JDK que corresponda à versão do JDK em seu cluster. Para obter informações sobre a versão, consulte os requisitos.
Escolher uma instalação do JDK superior ouabaixo à versão do JDK em seus clusters pode produzir resultados inesperados ou seu código pode não ser executado.
-
Na lista suspensa sbt , selecione a versão mais recente.
-
Na lista suspensa Scala lista suspensa, selecione a versão de Scala que corresponda à versão de Scala em seu cluster. Para obter informações sobre a versão, consulte os requisitos.
A escolha de uma versão do Scala que esteja abaixo ou acima da versão do Scala em seu clustering pode produzir resultados inesperados ou o código pode não ser executado.
-
Para o prefixo do pacote , digite algum valor de prefixo do pacote para os códigos-fonte do seu projeto, por exemplo,
org.example.application
. -
Verifique se a caixa Adicionar código de amostra está marcada.
-
Clique em Criar .
-
Adicione o pacote Databricks Connect: com o novo projeto Scala aberto, na janela da ferramenta Project (view > Tool Windows > Project ), abra o arquivo chamado
build.sbt
, em project-name > target . -
Adicione o código a seguir ao final do arquivo
build.sbt
, que declara a dependência do seu projeto de uma versão específica da biblioteca Databricks Connect para Scala, compatível com a versão Databricks Runtime do seu clustering:libraryDependencies += "com.databricks" % "databricks-connect" % "14.3.1"
Substitua
14.3.1
pela versão da biblioteca Databricks Connect que corresponde à versão Databricks Runtime em seu clustering. Por exemplo, o Databricks Connect 14.3.1 corresponde ao Databricks Runtime 14.3 LTS. O senhor pode encontrar os números de versão da biblioteca Databricks Connect no repositório central do Maven. -
Clique no ícone Carregar notificação de alterações do sbt para atualizar o projeto Scala com o novo local e a dependência da biblioteca.
-
Espere até que o indicador de progresso
sbt
na parte inferior do IDE desapareça. O processo de carregamento dosbt
pode levar alguns minutos para ser concluído. -
Adicionar código: na janela da ferramenta Projeto , abra o arquivo chamado
Main.scala
, em project-name > src > main > Scala . -
Substitua qualquer código existente no arquivo pelo código a seguir e salve o arquivo:
Scalapackage org.example.application
import com.databricks.connect.DatabricksSession
import org.apache.spark.sql.SparkSession
object Main {
def main(args: Array[String]): Unit = {
val spark = DatabricksSession.builder().remote().getOrCreate()
val df = spark.read.table("samples.nyctaxi.trips")
df.limit(5).show()
}
} -
execução do código: começar o clustering de destino em seu site remoto Databricks workspace.
-
Depois que o cluster for iniciado, no menu principal, clique em Executar > Executar "principal" .
-
Na janela da ferramenta de execução (Exibir > Ferramenta Windows > execução ), em Main tab, aparecem as primeiras 5 linhas da tabela
samples.nyctaxi.trips
. Todo o código Scala é executado localmente, enquanto todo o código Scala que envolve DataFrame operações é executado no clustering no Databricks workspace remoto e as respostas de execução são enviadas de volta ao chamador local. -
Depure o código: comece o clustering de destino em seu site remoto Databricks workspace, se ele ainda não estiver em execução.
-
No código anterior, clique na medianiz ao lado de
df.limit(5).show()
para definir um ponto de interrupção. -
Após o início do clustering, no menu principal, clique em executar > Debug 'Main'.
-
Na janela da ferramenta Debug (Exibir > Ferramenta Windows > Debug ), no Console tab, clique no ícone da calculadora (Evaluate Expression ).
-
Digite a expressão
df.schema
e clique em Evaluate (Avaliar ) para mostrar o esquema do DataFrame. -
Na barra lateral da janela da ferramenta Depurar , clique no ícone de seta verde ( Retomar programa ).
-
No painel Console , as primeiras 5 linhas da tabela
samples.nyctaxi.trips
são exibidas. Todo o código Scala é executado localmente, enquanto todo o código Scala que envolve DataFrame operações é executado no clustering no Databricks workspace remoto e as respostas de execução são enviadas de volta ao chamador local.