Use o Eclipse com o PyDev e o Databricks Connect for Python
nota
Este artigo abrange o Databricks Connect para Databricks Runtime 13.3 LTS e acima.
Este artigo aborda como usar Databricks Connect para Scala e Eclipse com o PyDev. Databricks Connect permite que o senhor conecte os populares IDEs, servidores de notebook e outros aplicativos personalizados ao clustering Databricks. Consulte O que é o Databricks Connect?
nota
Antes de começar a usar o Databricks Connect, o senhor deve configurar o cliente Databricks Connect.
Para usar o Databricks Connect e o Eclipse com o PyDev, siga estas instruções.
- Eclipse.
- Crie um projeto: clique em Arquivo > Novo > Projeto > PyDev > Projeto PyDev e clique em Avançar.
- Especifique um nome de projeto .
- Para o conteúdo do projeto , especifique o caminho para o ambiente virtual do Python.
- Clique em Configure um intérprete antes de continuar .
- Clique em Configuração manual.
- Clique em New > Browse for Python /pypy exe.
- Navegue até o caminho completo do interpretador Python referenciado no ambiente virtual e selecione-o. Em seguida, clique em Open .
- Na caixa de diálogo Selecionar intérprete , clique em OK.
- Na caixa de diálogo Seleção necessária , clique em OK .
- Na caixa de diálogo Preferências , clique em Aplicar e fechar .
- Na caixa de diálogo Projeto PyDev , clique em Concluir.
- Clique em Abrir perspectiva .
- Adicione ao projeto um arquivo de código Python (
.py
) que contenha o código de exemplo ou seu próprio código. Se você usar seu próprio código, deverá, no mínimo, inicializarDatabricksSession
conforme mostrado no código de exemplo. - Com o arquivo de código Python aberto, defina os pontos de interrupção em que deseja que o código faça uma pausa durante a execução.
- Para executar o código, clique em executar > execução . Todo o código Python é executado localmente, enquanto todo o código PySpark que envolve DataFrame operações é executado no clustering no Databricks workspace remoto e as respostas de execução são enviadas de volta ao chamador local.
- Para depurar o código, clique em executar > Debug . Todo o código do Python é depurado localmente, enquanto todo o código do PySpark continua a ser executado no clustering no Databricks remoto workspace. O código principal do mecanismo do Spark não pode ser depurado diretamente do cliente.
Para obter instruções mais específicas sobre execução e depuração, consulte Execução de um programa.