Pular para o conteúdo principal

tutorial: execução do código de PyCharm no classic compute

nota

Este artigo se aplica a Databricks Connect para Databricks Runtime 13.3 LTS e acima.

Databricks Connect IDEs permite conectar aplicativos populares da Internet, como PyCharm, servidores Notebook e outros aplicativos personalizados a Databricks compute. Consulte O que é o Databricks Connect?

Este artigo demonstra como iniciar rapidamente o uso do Databricks Connect para Python utilizando PyCharm. Crie um projeto em PyCharm, instale Databricks Connect para Databricks Runtime 13.3 LTS e acima, e execute o código simples no classic compute em seu Databricks workspace de PyCharm.

Requisitos

Para completar este tutorial, você deve atender aos seguintes requisitos:

  • O site workspace, o ambiente local e o site compute atendem aos requisitos do site Databricks Connect para o site Python. Consulte os requisitos de uso do Databricks Connect.
  • Você tem o PyCharm instalado. Este tutorial foi testado com o PyCharm Community Edition 2023.3.5. Se você usar uma versão ou edição diferente do PyCharm, as instruções a seguir podem variar.
  • Se estiver utilizando o compute clássico, será necessário o ID do clustering. Para obter o ID do cluster, em workspace, clique em “Compute” na barra lateral e, em seguida, clique no nome do cluster. Na barra de endereços do seu navegador, copie as sequências de caracteres entre clusters e configuration no URL.

Etapa 1: Configurar a autenticação do Databricks

Este tutorial utiliza Databricks OAuth autenticação de usuário para máquina (U2M) e um perfil de configuração Databricks para autenticação no seu Databricks workspace. Para usar um tipo de autenticação diferente, consulte Configurar propriedades de conexão.

A configuração da autenticação OAuth U2M requer o Databricks CLI. Para obter informações sobre como instalar o,Databricks CLI acesse. Para obter informações sobre como instalar ou atualizar o, acesse.Databricks CLI

Inicie a autenticação OAuth U2M, conforme a seguir:

  1. Utilize o comando Databricks CLI para iniciar o gerenciamento de tokens OAuth localmente, executando o seguinte comando para cada workspace de destino.

    No comando a seguir, substitua <workspace-url> pelo Databricks workspace URL da sua instância do, por https://1234567890123456.7.gcp.databricks.com exemplo,.

    Bash
    databricks auth login --configure-cluster --host <workspace-url>
dica

Para utilizar serverless compute com Databricks Connect, consulte Configurar uma conexão com serverless compute .

  1. O Databricks CLI solicita que você salve as informações inseridas como um perfil de configuração Databricks. Pressione Enter para aceitar o nome de perfil sugerido ou insira o nome de um perfil novo ou existente. Qualquer perfil existente com o mesmo nome será substituído pelas informações que você inseriu. É possível utilizar perfis para alternar rapidamente o contexto de autenticação entre várias áreas de trabalho.

    Para obter uma lista de todos os perfis existentes, em um terminal separado ou prompt de comando, utilize o comando “ Databricks ” CLI para executar o comando “ databricks auth profiles”. view Para alterar as configurações existentes de um perfil específico, execute o comando databricks auth env --profile <profile-name>.

  2. No navegador da web, conclua as instruções na tela para fazer log in no workspace do Databricks.

  3. Na lista de agrupamentos disponíveis que aparece no seu terminal ou prompt de comando, utilize as setes para selecionar o agrupamento de Databricks no seu workspace e, em seguida, pressione Enter. Também é possível digitar qualquer parte do nome de exibição do agrupamento para filtrar a lista de agrupamentos disponíveis.

  4. view Para obter o valor atual dos tokens OAuth de um perfil e o carimbo de data/hora de expiração dos tokens, execute um dos seguintes comandos:

    • databricks auth token --host <workspace-url>
    • databricks auth token -p <profile-name>
    • databricks auth token --host <workspace-url> -p <profile-name>

    Se você tiver vários perfis com o mesmo valor --host, talvez seja necessário especificar as opções --host e -p juntas para ajudar a CLI do Databricks a encontrar as informações de token OAuth correspondentes corretas.

Etapa 2: criar o projeto

  1. Inicie o PyCharm.
  2. No menu principal, clique em Arquivo > Novo projeto .
  3. Na caixa de diálogo Novo projeto , clique em Python puro .
  4. Para Localização , clique no ícone da pasta e siga as instruções na tela para especificar o caminho do seu novo projeto Python.
  5. Deixe Criar um script de boas-vindas main.py selecionado.
  6. Para Tipo de interpretador , clique em venv do projeto .
  7. Expanda a versão do Python e use o ícone de pasta ou a lista suspensa para especificar o caminho para o interpretador do Python a partir dos requisitos anteriores.
  8. Clique em Criar .

Crie o projeto PyCharm

Etapa 3: Adicionar o pacote Databricks Connect

  1. No menu principal de PyCharm, clique em “View” (Exibir) e selecione “ > ” (Ferramentas de atualização). Windows > Python pacote .
  2. Na caixa de pesquisa, insira databricks-connect.
  3. Na lista de repositórios do PyPI , clique em databricks-connect .
  4. Na lista suspensa mais recente do painel de resultados, selecione a versão que corresponde à versão do Databricks Runtime do seu cluster. Por exemplo, se o seu clustering tiver um Databricks Runtime e 14.3 instalado, selecione 14.3.1 .
  5. Clique em Instalar pacote .
  6. Após a instalação do pacote, você pode fechar a janela Pacotes Python .

Instale o pacote Databricks Connect

Etapa 4: adicionar código

  1. Na janela da ferramenta Projeto , clique com o botão direito do mouse na pasta raiz do projeto e clique em Novo arquivo Python ( > ) .

  2. Digite main.py e clique duas vezes no arquivo Python .

  3. Digite o código a seguir no arquivo e salve-o, dependendo do nome do seu perfil de configuração.

    Se o seu perfil de configuração do Passo 1 for denominado DEFAULT, insira o seguinte código no arquivo e salve-o:

    Python
    from databricks.connect import DatabricksSession

    spark = DatabricksSession.builder.getOrCreate()

    df = spark.read.table("samples.nyctaxi.trips")
    df.show(5)

    Se o seu perfil de configuração do Passo 1 não for nomeado DEFAULT, insira o código a seguir no arquivo. Substitua o placeholder <profile-name> pelo nome do seu perfil de configuração do passo 1 e salve o arquivo:

    Python
    from databricks.connect import DatabricksSession

    spark = DatabricksSession.builder.profile("<profile-name>").getOrCreate()

    df = spark.read.table("samples.nyctaxi.trips")
    df.show(5)

Passo 5: execute o código

  1. Inicie o cluster de destino no seu workspace remoto do Databricks.
  2. Após o agrupamento ter começado, no menu principal, clique em “Execução” e selecione “ > ” e “Execução 'main'”.
  3. Na janela da ferramenta Execução ( exibir Ferramenta > Windows > execução ), no painel principal da janela Execução tab, as primeiras 5 linhas da janela samples.nyctaxi.trips são exibidas.

Etapa 6: depurar o código

  1. Com o cluster ainda em execução, no código anterior, clique na medianiz ao lado de df.show(5) para definir um ponto de interrupção.
  2. No menu principal, clique em “Execução” e selecione “ > ”.
  3. Na janela da ferramenta Depuração ( visualização Ferramenta > Windows > ), no painel Variáveis do Depurador tab, expanda os nós das variáveis df e spark para navegar pelas informações sobre as variáveis df e spark do código.
  4. Na barra lateral da janela da ferramenta de depuração , clique no ícone da seta verde ( Retomar programa ).
  5. No painel Console do Debugger ( tab), as primeiras 5 linhas do samples.nyctaxi.trips são exibidas.

Depure o projeto PyCharm