Pular para o conteúdo principal

Use o IntelliJ IDEA com o Databricks Connect for Scala

nota

Este artigo abrange o Databricks Connect para Databricks Runtime 13.3 LTS e acima.

Este artigo aborda como usar Databricks Connect para Scala e IntelliJ IDEA com o plug-inScala. Databricks Connect permite que o senhor conecte os populares IDEs, servidores de notebook e outros aplicativos personalizados ao clustering Databricks. Consulte O que é o Databricks Connect?

nota

Antes de começar a usar o Databricks Connect, o senhor deve configurar o cliente Databricks Connect.

Para usar Databricks Connect e IntelliJ IDEA com o plug-in Scala para criar, executar e depurar um projeto de amostra Scala sbt, siga estas instruções. Essas instruções foram testadas com o IntelliJ IDEA Community Edition 2023.3.6. Se o senhor usar uma versão ou edição diferente do IntelliJ IDEA, as instruções a seguir poderão variar.

  1. Certifique-se de que o Java Development Kit (JDK) esteja instalado localmente. Databricks recomenda que a versão local do JDK corresponda à versão do JDK no clustering Databricks.

  2. IntelliJ IDEA.

  3. Clique em Arquivo > Novo Projeto > .

  4. Dê ao seu projeto um nome significativo.

  5. Para Localização , clique no ícone da pasta e siga as instruções na tela para especificar o caminho do seu novo projeto Scala.

  6. Para Language (Linguagem ), clique em Scala .

  7. Em Build system , clique em sbt .

  8. Na lista suspensa JDK , selecione uma instalação existente do JDK em sua máquina de desenvolvimento que corresponda à versão do JDK em seu cluster ou selecione download do JDK e siga as instruções na tela para download um JDK que corresponda à versão do JDK em seu cluster. Para obter informações sobre a versão, consulte os requisitos.

nota

Escolher uma instalação do JDK superior ouabaixo à versão do JDK em seus clusters pode produzir resultados inesperados ou seu código pode não ser executado.

  1. Na lista suspensa sbt , selecione a versão mais recente.

  2. Na lista suspensa Scala lista suspensa, selecione a versão de Scala que corresponda à versão de Scala em seu cluster. Para obter informações sobre a versão, consulte os requisitos.

nota

A escolha de uma versão do Scala que esteja abaixo ou acima da versão do Scala em seu clustering pode produzir resultados inesperados ou o código pode não ser executado.

  1. Para o prefixo do pacote , digite algum valor de prefixo do pacote para os códigos-fonte do seu projeto, por exemplo, org.example.application.

  2. Verifique se a caixa Adicionar código de amostra está marcada.

  3. Clique em Criar .

  4. Adicione o pacote Databricks Connect: com o novo projeto Scala aberto, na janela da ferramenta Project (view > Tool Windows > Project ), abra o arquivo chamado build.sbt, em project-name > target .

  5. Adicione o código a seguir ao final do arquivo build.sbt, que declara a dependência do seu projeto de uma versão específica da biblioteca Databricks Connect para Scala, compatível com a versão Databricks Runtime do seu clustering:

    libraryDependencies += "com.databricks" % "databricks-connect" % "14.3.1"

    Substitua 14.3.1 pela versão da biblioteca Databricks Connect que corresponde à versão Databricks Runtime em seu clustering. Por exemplo, o Databricks Connect 14.3.1 corresponde ao Databricks Runtime 14.3 LTS. O senhor pode encontrar os números de versão da biblioteca Databricks Connect no repositório central do Maven.

  6. Clique no ícone Carregar notificação de alterações do sbt para atualizar o projeto Scala com o novo local e a dependência da biblioteca.

  7. Espere até que o indicador de progresso sbt na parte inferior do IDE desapareça. O processo de carregamento do sbt pode levar alguns minutos para ser concluído.

  8. Adicionar código: na janela da ferramenta Projeto , abra o arquivo chamado Main.scala, em project-name > src > main > Scala .

  9. Substitua qualquer código existente no arquivo pelo código a seguir e salve o arquivo:

    Scala
    package org.example.application

    import com.databricks.connect.DatabricksSession
    import org.apache.spark.sql.SparkSession

    object Main {
    def main(args: Array[String]): Unit = {
    val spark = DatabricksSession.builder().remote().getOrCreate()
    val df = spark.read.table("samples.nyctaxi.trips")
    df.limit(5).show()
    }
    }
  10. execução do código: começar o clustering de destino em seu site remoto Databricks workspace.

  11. Depois que o cluster for iniciado, no menu principal, clique em Executar > Executar "principal" .

  12. Na janela da ferramenta de execução (Exibir > Ferramenta Windows > execução ), em Main tab, aparecem as primeiras 5 linhas da tabela samples.nyctaxi.trips. Todo o código Scala é executado localmente, enquanto todo o código Scala que envolve DataFrame operações é executado no clustering no Databricks workspace remoto e as respostas de execução são enviadas de volta ao chamador local.

  13. Depure o código: comece o clustering de destino em seu site remoto Databricks workspace, se ele ainda não estiver em execução.

  14. No código anterior, clique na medianiz ao lado de df.limit(5).show() para definir um ponto de interrupção.

  15. Após o início do clustering, no menu principal, clique em executar > Debug 'Main'.

  16. Na janela da ferramenta Debug (Exibir > Ferramenta Windows > Debug ), no Console tab, clique no ícone da calculadora (Evaluate Expression ).

  17. Digite a expressão df.schema e clique em Evaluate (Avaliar ) para mostrar o esquema do DataFrame.

  18. Na barra lateral da janela da ferramenta Depurar , clique no ícone de seta verde ( Retomar programa ).

  19. No painel Console , as primeiras 5 linhas da tabela samples.nyctaxi.trips são exibidas. Todo o código Scala é executado localmente, enquanto todo o código Scala que envolve DataFrame operações é executado no clustering no Databricks workspace remoto e as respostas de execução são enviadas de volta ao chamador local.