Pular para o conteúdo principal

Use o Eclipse com o PyDev e o Databricks Connect for Python

nota

Este artigo abrange o Databricks Connect para Databricks Runtime 13.3 LTS e acima.

Este artigo aborda como usar Databricks Connect para Scala e Eclipse com o PyDev. Databricks Connect permite que o senhor conecte os populares IDEs, servidores de notebook e outros aplicativos personalizados ao clustering Databricks. Consulte O que é o Databricks Connect?

nota

Antes de começar a usar o Databricks Connect, o senhor deve configurar o cliente Databricks Connect.

Para usar o Databricks Connect e o Eclipse com o PyDev, siga estas instruções.

  1. Eclipse.
  2. Crie um projeto: clique em Arquivo > Novo > Projeto > PyDev > Projeto PyDev e clique em Avançar.
  3. Especifique um nome de projeto .
  4. Para o conteúdo do projeto , especifique o caminho para o ambiente virtual do Python.
  5. Clique em Configure um intérprete antes de continuar .
  6. Clique em Configuração manual.
  7. Clique em New > Browse for Python /pypy exe.
  8. Navegue até o caminho completo do interpretador Python referenciado no ambiente virtual e selecione-o. Em seguida, clique em Open .
  9. Na caixa de diálogo Selecionar intérprete , clique em OK.
  10. Na caixa de diálogo Seleção necessária , clique em OK .
  11. Na caixa de diálogo Preferências , clique em Aplicar e fechar .
  12. Na caixa de diálogo Projeto PyDev , clique em Concluir.
  13. Clique em Abrir perspectiva .
  14. Adicione ao projeto um arquivo de código Python (.py) que contenha o código de exemplo ou seu próprio código. Se você usar seu próprio código, deverá, no mínimo, inicializar DatabricksSession conforme mostrado no código de exemplo.
  15. Com o arquivo de código Python aberto, defina os pontos de interrupção em que deseja que o código faça uma pausa durante a execução.
  16. Para executar o código, clique em executar > execução . Todo o código Python é executado localmente, enquanto todo o código PySpark que envolve DataFrame operações é executado no clustering no Databricks workspace remoto e as respostas de execução são enviadas de volta ao chamador local.
  17. Para depurar o código, clique em executar > Debug . Todo o código do Python é depurado localmente, enquanto todo o código do PySpark continua a ser executado no clustering no Databricks remoto workspace. O código principal do mecanismo do Spark não pode ser depurado diretamente do cliente.

Para obter instruções mais específicas sobre execução e depuração, consulte Execução de um programa.