Databricks Connect para Python
Este artigo abrange o Databricks Connect para Databricks Runtime 13.3 LTS e acima.
Databricks Connect Permite que o senhor conecte o popular IDEs, como PyCharm, servidores de notebook e outros aplicativos personalizados ao Databricks compute. Consulte O que é o Databricks Connect?
Este artigo demonstra como começar rapidamente com Databricks Connect para Python usando PyCharm.
- Para obter a versão em R deste artigo, consulte Databricks Connect for R.
- Para obter a versão Scala deste artigo, consulte Databricks Connect para Scala.
tutorial
No seguinte tutorial o senhor cria um projeto em PyCharm, instala Databricks Connect para Databricks Runtime 13.3 LTS e acima, e executa um código simples em compute em seu Databricks workspace a partir de PyCharm. Para obter informações adicionais e exemplos, consulte Próximas etapas.
Requisitos
Para completar este tutorial, você deve atender aos seguintes requisitos:
- Seu workspace do Databricks de destino deve ter o Unity Catalog habilitado.
- Você tem o PyCharm instalado. Este tutorial foi testado com o PyCharm Community Edition 2023.3.5. Se você usar uma versão ou edição diferente do PyCharm, as instruções a seguir podem variar.
- Seu ambiente local e o site compute Databricks Connect Python atendem aos requisitos da versão de instalação para.
- Se estiver usando o site clássico compute, o senhor precisará do ID do clustering. Para obter o ID do cluster, no site workspace, clique em compute na barra lateral e, em seguida, clique no nome do cluster. Na barra de endereços do navegador da Web, copie as sequências de caracteres entre
clusters
econfiguration
no URL.
Etapa 1: Configurar a autenticação do Databricks
Este tutorial usa a Databricks OAuth autenticação user-to-machine (U2M) e um Databricks perfil de configuração para autenticação no Databricks workspace seu . Para usar um tipo de autenticação diferente, consulte Configurar propriedades de conexão.
A configuração da autenticação OAuth U2M requer a CLI da Databricks. Para obter informações sobre a instalação do Databricks CLI, consulte Instalar ou atualizar o Databricks CLI .
Inicie a autenticação OAuth U2M, conforme a seguir:
-
Use o comando Databricks CLI para iniciar o gerenciamento de tokens OAuth localmente, executando o seguinte comando para cada destino workspace.
No comando a seguir, substitua
<workspace-url>
pelo Databricks workspace URL da instância, porhttps://1234567890123456.7.gcp.databricks.com
exemplo,.Bashdatabricks auth login --configure-cluster --host <workspace-url>
Para usar serverless compute com Databricks Connect, consulte Configurar uma conexão com serverless compute .
-
O site Databricks CLI solicita que o senhor salve as informações inseridas como um Databricks perfil de configuração. Pressione
Enter
para aceitar o nome de perfil sugerido ou insira o nome de um perfil novo ou existente. Qualquer perfil existente com o mesmo nome é substituído pelas informações que o senhor inseriu. O senhor pode usar perfis para alternar rapidamente o contexto de autenticação em vários espaços de trabalho.Para obter uma lista de todos os perfis existentes, em um terminal separado ou prompt de comando, use o Databricks CLI para executar o comando
databricks auth profiles
. Para view as configurações existentes de um perfil específico, execute o comandodatabricks auth env --profile <profile-name>
. -
No navegador da web, conclua as instruções na tela para fazer log in no workspace do Databricks.
-
Na lista de clusters disponíveis que aparece no prompt do terminal ou do comando, use as teclas de seta para cima e para baixo para selecionar o clustering de destino Databricks em seu workspace e, em seguida, pressione
Enter
. O senhor também pode digitar qualquer parte do nome de exibição do clustering para filtrar a lista de clustering disponíveis. -
Para view o valor atual dos tokens OAuth de um perfil e o carimbo de data/hora da próxima expiração dos tokens, execute um dos seguintes comandos:
databricks auth token --host <workspace-url>
databricks auth token -p <profile-name>
databricks auth token --host <workspace-url> -p <profile-name>
Se você tiver vários perfis com o mesmo valor
--host
, talvez seja necessário especificar as opções--host
e-p
juntas para ajudar a CLI do Databricks a encontrar as informações de token OAuth correspondentes corretas.
Etapa 2: criar o projeto
- Inicie o PyCharm.
- No menu principal, clique em Arquivo > Novo projeto .
- Na caixa de diálogo Novo projeto , clique em Python puro .
- Para Localização , clique no ícone da pasta e siga as instruções na tela para especificar o caminho do seu novo projeto Python.
- Deixe Criar um script de boas-vindas main.py selecionado.
- Para Tipo de interpretador , clique em venv do projeto .
- Expanda a versão do Python e use o ícone de pasta ou a lista suspensa para especificar o caminho para o interpretador do Python a partir dos requisitos anteriores.
- Clique em Criar .
Etapa 3: Adicionar o pacote Databricks Connect
- No menu principal do site PyCharm, clique em view > Tool Windows > Python pacote .
- Na caixa de pesquisa, insira
databricks-connect
. - Na lista de repositórios do PyPI , clique em databricks-connect .
- Na lista suspensa latest (mais recente ) do painel de resultados, selecione a versão que corresponde à versão Databricks Runtime do seu clustering. Por exemplo, se o clustering tiver o Databricks Runtime 14.3 instalado, selecione 14.3.1 .
- Clique em Instalar pacote .
- Após a instalação do pacote, você pode fechar a janela Pacotes Python .
Etapa 4: adicionar código
-
Na janela da ferramenta Project (Projeto ), clique com o botão direito do mouse na pasta raiz do projeto e clique em New > Python File (Novo arquivo Python ).
-
Digite
main.py
e clique duas vezes no arquivo Python . -
Digite o código a seguir no arquivo e salve-o, dependendo do nome do seu perfil de configuração.
Se o seu perfil de configuração do Passo 1 for denominado
DEFAULT
, insira o seguinte código no arquivo e salve-o:Pythonfrom databricks.connect import DatabricksSession
spark = DatabricksSession.builder.getOrCreate()
df = spark.read.table("samples.nyctaxi.trips")
df.show(5)Se o seu perfil de configuração do Passo 1 não for nomeado
DEFAULT
, insira o código a seguir no arquivo. Substitua o placeholder<profile-name>
pelo nome do seu perfil de configuração do passo 1 e salve o arquivo:Pythonfrom databricks.connect import DatabricksSession
spark = DatabricksSession.builder.profile("<profile-name>").getOrCreate()
df = spark.read.table("samples.nyctaxi.trips")
df.show(5)
Etapa 5: execução do código
- Inicie o cluster de destino no seu workspace remoto do Databricks.
- Após o início do clustering, no menu principal, clique em execução > execução 'main' .
- Na janela da ferramenta de execução(view > Tool Windows > execução), no tab painel principal da execução, aparecem as primeiras 5 linhas
samples.nyctaxi.trips
do.
Etapa 6: depurar o código
- Com o cluster ainda em execução, no código anterior, clique na medianiz ao lado de
df.show(5)
para definir um ponto de interrupção. - No menu principal, clique em executar > Debug 'main' .
- Na janela da ferramenta Debug (exibir > Tool Windows > Debug ), no painel Debugger tab's Variables (Variáveis do depurador ), expanda os nós das variáveis df e spark para procurar informações sobre as variáveis do código
df
espark
. - Na barra lateral da janela da ferramenta de depuração , clique no ícone da seta verde ( Retomar programa ).
- No tabpainel Console do depurador, aparecem as primeiras 5 linhas
samples.nyctaxi.trips
do.
Próximas etapas
Para saber mais sobre o Databricks Connect, consulte artigos como estes:
-
Para usar um tipo de autenticação diferente, consulte Configurar propriedades de conexão.
-
Use o site Databricks Connect com outros servidores IDEs, Notebook e o Spark shell.
-
Para view outros exemplos de código simples, consulte Exemplos de código para Databricks Connect para Python.
-
Para exibir exemplos de códigos mais complexos, confira as aplicações de exemplo para o repositório do Databricks Connect no GitHub, especificamente:
-
Para usar Databricks utilidades com Databricks Connect, consulte Databricks utilidades com Databricks Connect para Python.
-
Para migrar de Databricks Connect para Databricks Runtime 12.2 LTS e abaixo para Databricks Connect para Databricks Runtime 13.3 LTS e acima, consulte Migrar para Databricks Connect para Python.
-
Consulte também informações sobre solução de problemas e limitações.