Use PyCharm com Databricks Connect para Python

Observação

Este artigo aborda o Databricks Connect para Databricks Runtime 13.0 e acima.

Este artigo aborda como usar o Databricks Connect for Python com PyCharm. O Databricks Connect permite conectar IDEs populares, servidores Notebook e outros aplicativos personalizados a clusters Databricks. Consulte O que é o Databricks Connect?.

Observação

Antes de começar a usar o Databricks Connect, você deve configurar o cliente Databricks Connect.

O IntelliJ IDEA Ultimate também fornece suporte de plugin para PyCharm com Python. Para obter detalhes, consulte Plug-in Python para IntelliJ IDEA Ultimate.

Para usar o Databricks Connect com PyCharm e Python, siga estas instruções para venv ou Poetry.

Use PyCharm com venv e Databricks Connect para Python

  1. começar PyCharm.

  2. Crie um projeto: clique em Arquivo > Novo Projeto.

  3. Para Location, clique no ícone da pasta e selecione o caminho para o ambiente virtual venv existente que você criou em Instalar o Databricks Connect for Python.

  4. Selecione Intérprete configurado anteriormente.

  5. Para Interpreter, clique nas reticências.

  6. Clique em Intérprete do sistema.

  7. Para Interpreter, clique nas reticências e selecione o caminho completo para o interpretador Python instalado no ambiente virtual venv existente. Em seguida, clique em OK.

    Dica

    O interpretador Python para um ambiente virtual venv normalmente é instalado em </path-to-venv>/bin/python. Para mais informações, consulte venv.

  8. Clique em OK novamente.

  9. Clique em Criar.

  10. Clique em Criar a partir de fontes existentes.

  11. Adicione ao projeto um arquivo de código Python (.py) que contém o código de exemplo ou seu próprio código. Se você usar seu próprio código, deverá inicializar no mínimo DatabricksSession conforme mostrado no código de exemplo.

  12. Com o arquivo de código Python aberto, defina quaisquer pontos de interrupção onde deseja que seu código seja pausado durante a execução.

  13. Para executar o código, clique em execução > execução. Todo o código Python é executado localmente, enquanto todo o código PySpark que envolve operações DataFrame é executado nos clusters no workspace remoto do Databricks e as respostas de execução são enviadas de volta ao chamador local.

  14. Para depurar o código, clique em execução > Depurar. Todo o código Python é depurado localmente, enquanto todo o código PySpark continua a ser executado nos clusters no workspace remoto do Databricks. O código principal do mecanismo Spark não pode ser depurado diretamente do cliente.

  15. Siga as instruções na tela para começar a executar ou eliminar o código.

Para obter instruções mais específicas de execução e depuração, consulte Executar sem nenhuma configuração anterior e Depurar.

Use PyCharm com Poetry e Databricks Connect para Python

  1. começar PyCharm.

  2. Crie um projeto: clique em Arquivo > Novo Projeto.

  3. Para Location, clique no ícone da pasta e, em seguida, selecione o caminho para o ambiente virtual Poetry existente que você criou em Instalar o Databricks Connect for Python.

  4. Selecione Intérprete configurado anteriormente.

  5. Para Interpreter, clique nas reticências.

  6. Clique em AmbientePoetry .

  7. Para Interpreter, clique nas reticências e selecione o caminho completo para a versão do sistema do interpretador Python que é referenciado no ambiente virtual Poetry existente. Em seguida, clique em OK.

    Dica

    Certifique-se de selecionar o caminho para o interpretador Python. Não selecione o caminho para o executável Poetry.

    Para obter informações sobre onde a versão do sistema do interpretador Python está instalada, consulte Como adicionar Python ao PATH.

  8. Clique em OK novamente.

  9. Clique em Criar.

  10. Clique em Criar a partir de fontes existentes.

  11. Adicione ao projeto um arquivo de código Python (.py) que contém o código de exemplo ou seu próprio código. Se você usar seu próprio código, deverá inicializar no mínimo DatabricksSession conforme mostrado no código de exemplo.

  12. Com o arquivo de código Python aberto, defina quaisquer pontos de interrupção onde deseja que seu código seja pausado durante a execução.

  13. Para executar o código, clique em execução > execução. Todo o código Python é executado localmente, enquanto todo o código PySpark que envolve operações DataFrame é executado nos clusters no workspace remoto do Databricks e as respostas de execução são enviadas de volta ao chamador local.

  14. Para depurar o código, clique em execução > Depurar. Todo o código Python é depurado localmente, enquanto todo o código PySpark continua a ser executado nos clusters no workspace remoto do Databricks. O código principal do mecanismo Spark não pode ser depurado diretamente do cliente.

  15. Siga as instruções na tela para começar a executar ou eliminar o código.

Para obter instruções mais específicas de execução e depuração, consulte Executar sem nenhuma configuração anterior e Depurar.