Use o IntelliJ IDEA com o Databricks Connect para Scala

Observação

Este artigo aborda o Databricks Connect para Databricks Runtime 13.3 LTS e acima.

Este artigo aborda como usar o Databricks Connect for Scala e o IntelliJ IDEA com o plugin Scala. O Databricks Connect permite conectar IDEs populares, servidores Notebook e outros aplicativos personalizados a clusters Databricks. Consulte O que é o Databricks Connect?.

Observação

Antes de começar a usar o Databricks Connect, você deve configurar o cliente Databricks Connect.

Para usar Databricks Connect e IntelliJ IDEA com o plug-in Scala para criar, executar e depurar um projeto de amostra Scala sbt, siga estas instruções. Essas instruções foram testadas com o IntelliJ IDEA Community Edition 2023.3.6. Se o senhor usar uma versão ou edição diferente do IntelliJ IDEA, as instruções a seguir poderão variar.

  1. Certifique-se de que o Java Development Kit (JDK) esteja instalado localmente. A Databricks recomenda que a versão local do JDK corresponda à versão do JDK nos clusters do Databricks.

  2. começar IntelliJ IDEA.

  3. Clique em Arquivo > Novo > Projeto.

  4. Dê ao seu projeto um nome significativo.

  5. Para Location, clique no ícone da pasta e siga as instruções na tela para especificar o caminho para seu novo projeto Scala.

  6. Para Idioma, clique em Scala.

  7. Para Sistema de compilação, clique em sbt.

  8. Na lista suspensa JDK , selecione uma instalação existente do JDK em sua máquina de desenvolvimento que corresponda à versão do JDK em seus clusters ou selecione downloads do JDK e siga as instruções na tela para downloads de um JDK que corresponda à versão do JDK em seu cluster. clusters.

    Observação

    Escolher uma instalação do JDK superior ouabaixo à versão do JDK em seus clusters pode produzir resultados inesperados ou seu código pode não ser executado.

  9. Na lista suspensa sbt , selecione a versão mais recente.

  10. Na lista suspensa Scala , selecione a versão do Scala que corresponde à versão do Scala em seus clusters.

    Observação

    Escolher uma versão do Scala abaixo ou acima da versão do Scala em seus clusters pode produzir resultados inesperados ou seu código pode não ser executado.

  11. Para Package prefix, insira algum valor de prefixo de pacote para as fontes do seu projeto, por exemplo org.example.application.

  12. Certifique-se de que a caixa Adicionar código de amostra esteja marcada.

  13. Clique em Criar.

  14. Adicione o pacote Databricks Connect: com seu novo projeto Scala aberto, na janela da ferramenta Project (view > Tool Windows > Project), abra o arquivo chamado build.sbt, em project-name > target.

  15. Adicione o seguinte código ao final do arquivo build.sbt , que declara a dependência do seu projeto de uma versão específica da biblioteca Databricks Connect para Scala:

    libraryDependencies += "com.databricks" % "databricks-connect" % "14.3.1"
    

    Substitua 14.3.1 pela versão da biblioteca Databricks Connect que corresponde à versão do Databricks Runtime nos seus clusters. Você pode encontrar os números de versão da biblioteca do Databricks Connect no repositório central do Maven.

  16. Clique no ícone de notificação Carregar alterações do sbt para atualizar seu projeto Scala com o novo local e dependência da biblioteca.

  17. Aguarde até que o indicador de progresso sbt na parte inferior do IDE desapareça. O processo de carregamento sbt pode levar alguns minutos para ser concluído.

  18. Adicione o código: na janela da ferramenta Project , abra o arquivo chamado Main.scala, em project-name > src > main > Scala.

  19. Substitua qualquer código existente no arquivo pelo código a seguir e salve o arquivo:

    package org.example.application
    
    import com.databricks.connect.DatabricksSession
    import org.apache.spark.sql.SparkSession
    
    object Main {
      def main(args: Array[String]): Unit = {
        val spark = DatabricksSession.builder().remote().getOrCreate()
        val df = spark.read.table("samples.nyctaxi.trips")
        df.limit(5).show()
      }
    }
    
  20. execução do código: comece os clusters de destino em seu workspace remoto do Databricks.

  21. Após o início dos clusters , no menu principal, clique em execução > execução 'Principal'.

  22. Na janela da ferramenta de execução (view > Tool Windows > execução ), n a Principal tab, aparecem as 5 primeiras linhas d samples.nyctaxi.trips a tabela . Todo o código Scala é executado localmente, enquanto todo o código Scala que envolve operações DataFrame é executado nos clusters no workspace remoto do Databricks e as respostas de execução são enviadas de volta ao chamador local.

  23. Depure o código: comece os clusters de destino em seu workspace remoto do Databricks, se ainda não estiver em execução.

  24. No código anterior, clique na medianiz ao lado de df.limit(5).show() para definir um ponto de interrupção.

  25. Após o início dos clusters , no menu principal, clique em execução > Debug 'Main'.

  26. Na janela da ferramenta Debug (view > Tool Windows > Debug ), n a Consol tabe , clique no ícone da calculadora ( Avaliar Expressão ).

  27. Insira a expressão df.schema e clique em Avaliar para mostrar o esquema do DataFrame.

  28. Na barra lateral da janela da ferramenta Debug , clique no ícone de seta verde (Resume Program).

  29. No painel Console , as primeiras cinco linhas da tabela samples.nyctaxi.trips aparecem. Todo o código Scala é executado localmente, enquanto todo o código Scala que envolve operações DataFrame é executado nos clusters no workspace remoto do Databricks e as respostas de execução são enviadas de volta ao chamador local.