Use o PyCharm com o Databricks Connect for Python
Este artigo abrange o Databricks Connect para Databricks Runtime 13.3 LTS e acima.
Este artigo aborda como usar o site Databricks Connect para Python com PyCharm. Databricks Connect permite que o senhor conecte os populares IDEs, servidores de notebook e outros aplicativos personalizados ao clustering Databricks. Consulte O que é o Databricks Connect?
Antes de começar a usar o Databricks Connect, o senhor deve configurar o cliente Databricks Connect.
O IntelliJ IDEA Ultimate também oferece suporte de plug-in para o PyCharm com Python. Para obter detalhes, consulte Plug-in Python para o IntelliJ IDEA Ultimate.
Para usar o Databricks Connect com o PyCharm e o Python, siga estas instruções para o venv ou o Poetry. Este artigo foi testado com PyCharm Community Edition 2023.3.5. Se o senhor usar uma versão ou edição diferente do PyCharm, as instruções a seguir poderão variar.
Use o PyCharm com o venv e o Databricks Connect for Python
-
Inicie o PyCharm.
-
Crie um projeto: clique em Arquivo > Novo projeto .
-
Na caixa de diálogo Novo projeto , clique em Python puro .
-
Em Location (Localização ), clique no ícone da pasta e selecione o caminho para o ambiente virtual
venv
existente que você criou em Install Databricks Connect for Python. -
Em Tipo de intérprete , clique em Ambiente personalizado.
-
Em Ambiente , selecione Selecionar existente .
-
Para Type , selecione Python .
-
Para Path (Caminho ), use o ícone de pasta ou a lista suspensa para selecionar o caminho para o interpretador Python no ambiente virtual
venv
existente.
O interpretador Python para um ambiente virtual venv
é normalmente instalado em </path-to-venv>/bin
. Para obter mais informações, consulte o venv.
-
Clique em OK .
-
Clique em Criar .
-
Adicione ao projeto um arquivo de código Python (
.py
) que contenha o código de exemplo ou seu próprio código. Se você usar seu próprio código, deverá, no mínimo, inicializarDatabricksSession
conforme mostrado no código de exemplo. -
Com o arquivo de código Python aberto, defina os pontos de interrupção em que deseja que o código faça uma pausa durante a execução.
-
Para executar o código, clique em executar > execução . Todo o código Python é executado localmente, enquanto todo o código PySpark que envolve DataFrame operações é executado no clustering no Databricks workspace remoto e as respostas de execução são enviadas de volta ao chamador local.
-
Para depurar o código, clique em executar > Debug . Todo o código do Python é depurado localmente, enquanto todo o código do PySpark continua a ser executado no clustering no Databricks remoto workspace. O código principal do mecanismo do Spark não pode ser depurado diretamente do cliente.
-
Siga as instruções na tela para começar a executar ou depurar o código.
Para obter instruções mais específicas sobre execução e depuração, consulte Execução sem configuração prévia e Depuração.
Use o PyCharm com o Poetry e o Databricks Connect for Python
-
Inicie o PyCharm.
-
Crie um projeto: clique em Arquivo > Novo projeto .
-
- Na caixa de diálogo Novo projeto , clique em Python puro .
-
Em Location (Localização ), clique no ícone da pasta e selecione o caminho para o ambiente virtual Poetry existente que o senhor criou em Install Databricks Connect for Python.
-
Em Tipo de intérprete , clique em Ambiente personalizado.
-
Em Ambiente , selecione Selecionar existente .
-
Para Type , selecione Python .
-
Para Path (Caminho ), use o ícone de pasta ou a lista suspensa para selecionar o caminho para o interpretador Python no ambiente virtual Poetry existente.
Certifique-se de selecionar o caminho para o interpretador Python. Não selecione o caminho para o executável do Poetry.
Para obter informações sobre onde a versão do sistema do interpretador Python está instalada, consulte How to Add Python to PATH.
-
Clique em OK .
-
Clique em Criar .
-
Adicione ao projeto um arquivo de código Python (
.py
) que contenha o código de exemplo ou seu próprio código. Se você usar seu próprio código, deverá, no mínimo, inicializarDatabricksSession
conforme mostrado no código de exemplo. -
Com o arquivo de código Python aberto, defina os pontos de interrupção em que deseja que o código faça uma pausa durante a execução.
-
Para executar o código, clique em executar > execução . Todo o código Python é executado localmente, enquanto todo o código PySpark que envolve DataFrame operações é executado no clustering no Databricks workspace remoto e as respostas de execução são enviadas de volta ao chamador local.
-
Para depurar o código, clique em executar > Debug . Todo o código do Python é depurado localmente, enquanto todo o código do PySpark continua a ser executado no clustering no Databricks remoto workspace. O código principal do mecanismo do Spark não pode ser depurado diretamente do cliente.
-
Siga as instruções na tela para começar a executar ou depurar o código.
Para obter instruções mais específicas sobre execução e depuração, consulte Execução sem configuração prévia e Depuração.