Databricks Connect para Python

Observação

Este artigo aborda o Databricks Connect para Databricks Runtime 13.0 e acima.

Este artigo demonstra como começar rapidamente a usar o Databricks Connect usando Python e PyCharm.

O Databricks Connect permite conectar IDEs populares, como PyCharm, servidores Notebook e outros aplicativos personalizados a clusters Databricks. Consulte O que é o Databricks Connect?.

Tutorial

Para pular este tutorial e usar um IDE diferente, consulte Próximos passos.

Requisitos

Para concluir este tutorial, você deve atender aos seguintes requisitos:

  • O workspace e clusters do Databricks de destino devem atender aos requisitos de configuraçãoclusters para o Databricks Connect.

  • Você deve ter seu ID clusters disponível. Para obter o ID dos seus clusters , no seu workspace, clique em compute na barra lateral e, em seguida, clique no nome dos seus clusters . Na barra de endereço do seu navegador, copie as strings de caracteres entre clusters e configuration no URL.

  • O senhor tem o PyCharm instalado. Este tutorial foi testado com o PyCharm Community Edition 2023.3.5. Se o senhor usar uma versão ou edição diferente do PyCharm, as instruções a seguir poderão variar.

  • Você tem o Python 3 instalado em sua máquina de desenvolvimento e a versão secundária da instalação do cliente Python é igual à versão secundária do Python dos seus clusters do Databricks. A tabela a seguir mostra a versão do Python instalada com cada Databricks Runtime.

    Versão Databricks Runtime

    Versão Python

    15,0 ML, 15,0

    3.11

    13,0 ML - 14,3 ML, 13,0 - 14,3

    3.10

o passo 1: Configurar a autenticação do Databricks

Este tutorial usa a autenticação usuário-máquina (U2M) do Databricks OAuth e um perfil de configuração do Databricks para autenticação com seu workspace do Databricks. Para usar um tipo de autenticação diferente, consulte Configurar propriedades de conexão.

Configurar a autenticação OAuth U2M requer a CLI do Databricks, da seguinte forma:

  1. Se ainda não estiver instalado, instale a CLI do Databricks da seguinte maneira:

    Use o Homebrew para instalar a CLI do Databricks executando os dois comandos a seguir:

    brew tap databricks/tap
    brew install databricks
    

    Você pode usar winget, Chocolatey ou Windows Subsystem for Linux (WSL) para instalar a CLI do Databricks. Se você não puder usar winget, Chocolatey ou WSL, ignore este procedimento e use o prompt de comando ou o PowerShell para instalar a CLI do Databricks a partir da origem .

    Observação

    Instalar a CLI do Databricks com Chocolatey é experimental.

    Para usar winget para instalar a CLI do Databricks, execute os dois comandos a seguir e reinicie o prompt de comando:

    winget search databricks
    winget install Databricks.DatabricksCLI
    

    Para usar o Chocolatey para instalar a CLI do Databricks, execute o seguinte comando:

    choco install databricks-cli
    

    Para usar WSL para instalar a CLI do Databricks:

    1. Instale curl e zip por meio do WSL. Para mais informações, consulte a documentação do seu sistema operacional.

    2. Use WSL para instalar a CLI do Databricks executando o seguinte comando:

      curl -fsSL https://raw.githubusercontent.com/databricks/setup-cli/main/install.sh | sh
      
  2. Confirme se a CLI do Databricks está instalada executando o comando a seguir, que exibe a versão atual da CLI do Databricks instalada. Esta versão deve ser 0.205.0 ou acima:

    databricks -v
    

    Observação

    Se você executar databricks mas obtiver um erro como command not found: databricks, ou se executar databricks -v e um número de versão 0,18 ou abaixo estiver listado, isso significa que sua máquina não consegue encontrar a versão correta do executável da CLI do Databricks. Para corrigir isso, consulte Verifique a instalação da CLI.

Inicie a autenticação OAuth U2M da seguinte maneira:

  1. Use a CLI do Databricks para iniciar o gerenciamento tokens OAuth localmente executando o comando a seguir para cada workspace de destino.

    No comando a seguir, substitua <workspace-url> pela URL da instância do espaço de trabalho do Databricks, por exemplo https://dbc-a1b2345c-d6e7.cloud.databricks.com.

    databricks auth login --configure-cluster --host <workspace-url>
    
  2. A CLI do Databricks solicita que você salve as informações inseridas como um perfil de configuração do Databricks. Pressione Enter para aceitar o nome de perfil sugerido ou digite o nome de um perfil novo ou existente. Qualquer perfil existente com o mesmo nome será substituído pelas informações inseridas. Você pode usar perfis para alternar rapidamente seu contexto de autenticação em vários workspace.

    Para obter uma lista de quaisquer perfis existentes, em um terminal ou prompt de comando separado, use a CLI do Databricks para executar o comando databricks auth profiles. Para view as configurações existentes de um perfil específico, execute o comando databricks auth env --profile <profile-name>.

  3. No navegador da Web, siga as instruções na tela para log in no workspace do Databricks.

  4. Na lista de clusters disponíveis que aparece em seu terminal ou prompt de comando, use as key seta para cima e seta para baixo para selecionar o cluster do Databricks de destino em seu workspace e pressione Enter. Você também pode digitar qualquer parte do nome de exibição do cluster para filtrar a lista de clusters disponíveis.

  5. Para view o valor atual tokens OAuth de um perfil e o carimbo de data/hora de expiração futura dos tokens , execute um dos seguintes comandos:

    • databricks auth token --host <workspace-url>

    • databricks auth token -p <profile-name>

    • databricks auth token --host <workspace-url> -p <profile-name>

    Se você tiver vários perfis com o mesmo valor --host, talvez seja necessário especificar as opções --host e -p juntas para ajudar a CLI do Databricks a encontrar as informações tokens OAuth correspondentes corretas.

o passo 2: Crie o projeto

  1. começar PyCharm.

  2. No menu principal, clique em Arquivo > Novo Projeto.

  3. Na caixa de diálogo New Project (Novo projeto ), clique em Pure Python.

  4. Para Location, clique no ícone da pasta e siga as instruções na tela para especificar o caminho para seu novo projeto Python.

  5. Deixe a opção Criar um script de boas-vindas main.py selecionada.

  6. Para o tipo de intérprete, clique em Project venv.

  7. Expanda a versão do Python e use o ícone da pasta ou a lista suspensa para especificar o caminho para o interpretador Python dos requisitos anteriores.

  8. Clique em Criar.

Crie o projeto PyCharm

o passo 3: Adicionar o pacote Databricks Connect

  1. No menu principal do PyCharm, clique em view > Tool Windows > Python pacote.

  2. Na caixa de pesquisa, insira databricks-connect.

  3. Na lista de repositórios PyPI , clique em databricks-connect.

  4. Na lista suspensa mais recente do painel de resultados, selecione a versão que corresponde à versão do Databricks Runtime do seu cluster. Por exemplo, se o seu cluster tiver o Databricks Runtime 14.3 instalado, selecione 14.3.1.

  5. Clique em Install package (Instalar pacote).

  6. Após a instalação do pacote, você pode fechar a janela Pacotes Python .

Instale o pacote Databricks Connect

o passo 4: Adicionar código

  1. Na janela da ferramenta Projeto , clique com o botão direito na pasta raiz do projeto e clique em Novo > Arquivo Python.

  2. Insira main.py e clique duas vezes no arquivo Python.

  3. Insira o código a seguir no arquivo e salve o arquivo, dependendo do nome do seu perfil de configuração.

    Se o seu perfil de configuração do passo 1 for denominado DEFAULT, insira o seguinte código no arquivo e salve o arquivo:

    from databricks.connect import DatabricksSession
    
    spark = DatabricksSession.builder.getOrCreate()
    
    df = spark.read.table("samples.nyctaxi.trips")
    df.show(5)
    

    Se o seu perfil de configuração do passo 1 não for nomeado DEFAULT, insira o código a seguir no arquivo. Substitua o espaço reservado <profile-name> pelo nome do seu perfil de configuração da etapa 1 e salve o arquivo:

    from databricks.connect import DatabricksSession
    
    spark = DatabricksSession.builder.profile("<profile-name>").getOrCreate()
    
    df = spark.read.table("samples.nyctaxi.trips")
    df.show(5)
    

o passo 5: execução do código

  1. comece os clusters de destino em seu workspace remoto do Databricks.

  2. Após o início dos clusters , no menu principal, clique em execução > execução 'main'.

  3. Na janela da ferramenta de execução (view > Tool Windows > execução), no painel principal da tab de execução , as primeiras 5 linhas do samples.nyctaxi.trips aparecem.

o passo 6: Depurar o código

  1. Com os clusters ainda em execução, no código anterior, clique na medianiz ao lado de df.show(5) para definir um ponto de interrupção.

  2. No menu principal, clique em execução > Debug 'main'.

  3. Na janela da ferramenta Debug (view > Tool Windows > Debug), no painel Variables da tab Debugger , expanda os nós de variável df e spark para procurar informações sobre as variáveis df e spark do código.

  4. Na barra lateral da janela da ferramenta Debug , clique no ícone de seta verde (Resume Program).

  5. No painel Console da tab Depurador , as cinco primeiras linhas de samples.nyctaxi.trips aparecem.

Depurar o projeto PyCharm

Próximas etapas

Para saber mais sobre o Databricks Connect, consulte artigos como os seguintes: