Pular para o conteúdo principal

Databricks Connect para Python

nota

Este artigo abrange o Databricks Connect para Databricks Runtime 13.3 LTS e acima.

Databricks Connect Permite que o senhor conecte o popular IDEs, como PyCharm, servidores de notebook e outros aplicativos personalizados ao Databricks compute. Consulte O que é o Databricks Connect?

Este artigo demonstra como começar rapidamente com Databricks Connect para Python usando PyCharm.

tutorial

No seguinte tutorial o senhor cria um projeto em PyCharm, instala Databricks Connect para Databricks Runtime 13.3 LTS e acima, e executa um código simples em compute em seu Databricks workspace a partir de PyCharm. Para obter informações adicionais e exemplos, consulte Próximas etapas.

Requisitos

Para completar este tutorial, você deve atender aos seguintes requisitos:

  • Seu workspace do Databricks de destino deve ter o Unity Catalog habilitado.
  • Você tem o PyCharm instalado. Este tutorial foi testado com o PyCharm Community Edition 2023.3.5. Se você usar uma versão ou edição diferente do PyCharm, as instruções a seguir podem variar.
  • Seu ambiente local e o site compute Databricks Connect Python atendem aos requisitos da versão de instalação para.
  • Se estiver usando o site clássico compute, o senhor precisará do ID do clustering. Para obter o ID do cluster, no site workspace, clique em compute na barra lateral e, em seguida, clique no nome do cluster. Na barra de endereços do navegador da Web, copie as sequências de caracteres entre clusters e configuration no URL.

Etapa 1: Configurar a autenticação do Databricks

Este tutorial usa a Databricks OAuth autenticação user-to-machine (U2M) e um Databricks perfil de configuração para autenticação no Databricks workspace seu . Para usar um tipo de autenticação diferente, consulte Configurar propriedades de conexão.

A configuração da autenticação OAuth U2M requer a CLI da Databricks. Para obter informações sobre a instalação do Databricks CLI, consulte Instalar ou atualizar o Databricks CLI .

Inicie a autenticação OAuth U2M, conforme a seguir:

  1. Use o comando Databricks CLI para iniciar o gerenciamento de tokens OAuth localmente, executando o seguinte comando para cada destino workspace.

    No comando a seguir, substitua <workspace-url> pelo Databricks workspace URL da instância, por https://1234567890123456.7.gcp.databricks.com exemplo,.

    Bash
    databricks auth login --configure-cluster --host <workspace-url>
dica

Para usar serverless compute com Databricks Connect, consulte Configurar uma conexão com serverless compute .

  1. O site Databricks CLI solicita que o senhor salve as informações inseridas como um Databricks perfil de configuração. Pressione Enter para aceitar o nome de perfil sugerido ou insira o nome de um perfil novo ou existente. Qualquer perfil existente com o mesmo nome é substituído pelas informações que o senhor inseriu. O senhor pode usar perfis para alternar rapidamente o contexto de autenticação em vários espaços de trabalho.

    Para obter uma lista de todos os perfis existentes, em um terminal separado ou prompt de comando, use o Databricks CLI para executar o comando databricks auth profiles. Para view as configurações existentes de um perfil específico, execute o comando databricks auth env --profile <profile-name>.

  2. No navegador da web, conclua as instruções na tela para fazer log in no workspace do Databricks.

  3. Na lista de clusters disponíveis que aparece no prompt do terminal ou do comando, use as teclas de seta para cima e para baixo para selecionar o clustering de destino Databricks em seu workspace e, em seguida, pressione Enter. O senhor também pode digitar qualquer parte do nome de exibição do clustering para filtrar a lista de clustering disponíveis.

  4. Para view o valor atual dos tokens OAuth de um perfil e o carimbo de data/hora da próxima expiração dos tokens, execute um dos seguintes comandos:

    • databricks auth token --host <workspace-url>
    • databricks auth token -p <profile-name>
    • databricks auth token --host <workspace-url> -p <profile-name>

    Se você tiver vários perfis com o mesmo valor --host, talvez seja necessário especificar as opções --host e -p juntas para ajudar a CLI do Databricks a encontrar as informações de token OAuth correspondentes corretas.

Etapa 2: criar o projeto

  1. Inicie o PyCharm.
  2. No menu principal, clique em Arquivo > Novo projeto .
  3. Na caixa de diálogo Novo projeto , clique em Python puro .
  4. Para Localização , clique no ícone da pasta e siga as instruções na tela para especificar o caminho do seu novo projeto Python.
  5. Deixe Criar um script de boas-vindas main.py selecionado.
  6. Para Tipo de interpretador , clique em venv do projeto .
  7. Expanda a versão do Python e use o ícone de pasta ou a lista suspensa para especificar o caminho para o interpretador do Python a partir dos requisitos anteriores.
  8. Clique em Criar .

Crie o projeto PyCharm

Etapa 3: Adicionar o pacote Databricks Connect

  1. No menu principal do site PyCharm, clique em view > Tool Windows > Python pacote .
  2. Na caixa de pesquisa, insira databricks-connect.
  3. Na lista de repositórios do PyPI , clique em databricks-connect .
  4. Na lista suspensa latest (mais recente ) do painel de resultados, selecione a versão que corresponde à versão Databricks Runtime do seu clustering. Por exemplo, se o clustering tiver o Databricks Runtime 14.3 instalado, selecione 14.3.1 .
  5. Clique em Instalar pacote .
  6. Após a instalação do pacote, você pode fechar a janela Pacotes Python .

Instale o pacote Databricks Connect

Etapa 4: adicionar código

  1. Na janela da ferramenta Project (Projeto ), clique com o botão direito do mouse na pasta raiz do projeto e clique em New > Python File (Novo arquivo Python ).

  2. Digite main.py e clique duas vezes no arquivo Python .

  3. Digite o código a seguir no arquivo e salve-o, dependendo do nome do seu perfil de configuração.

    Se o seu perfil de configuração do Passo 1 for denominado DEFAULT, insira o seguinte código no arquivo e salve-o:

    Python
    from databricks.connect import DatabricksSession

    spark = DatabricksSession.builder.getOrCreate()

    df = spark.read.table("samples.nyctaxi.trips")
    df.show(5)

    Se o seu perfil de configuração do Passo 1 não for nomeado DEFAULT, insira o código a seguir no arquivo. Substitua o placeholder <profile-name> pelo nome do seu perfil de configuração do passo 1 e salve o arquivo:

    Python
    from databricks.connect import DatabricksSession

    spark = DatabricksSession.builder.profile("<profile-name>").getOrCreate()

    df = spark.read.table("samples.nyctaxi.trips")
    df.show(5)

Etapa 5: execução do código

  1. Inicie o cluster de destino no seu workspace remoto do Databricks.
  2. Após o início do clustering, no menu principal, clique em execução > execução 'main' .
  3. Na janela da ferramenta de execução(view > Tool Windows > execução), no tab painel principal da execução, aparecem as primeiras 5 linhas samples.nyctaxi.trips do.

Etapa 6: depurar o código

  1. Com o cluster ainda em execução, no código anterior, clique na medianiz ao lado de df.show(5) para definir um ponto de interrupção.
  2. No menu principal, clique em executar > Debug 'main' .
  3. Na janela da ferramenta Debug (exibir > Tool Windows > Debug ), no painel Debugger tab's Variables (Variáveis do depurador ), expanda os nós das variáveis df e spark para procurar informações sobre as variáveis do código df e spark.
  4. Na barra lateral da janela da ferramenta de depuração , clique no ícone da seta verde ( Retomar programa ).
  5. No tabpainel Console do depurador, aparecem as primeiras 5 linhas samples.nyctaxi.trips do.

Depure o projeto PyCharm

Próximas etapas

Para saber mais sobre o Databricks Connect, consulte artigos como estes: