Pular para o conteúdo principal

Use o PyCharm com o Databricks Connect for Python

nota

Este artigo abrange o Databricks Connect para Databricks Runtime 13.3 LTS e acima.

Este artigo aborda como usar o site Databricks Connect para Python com PyCharm. Databricks Connect permite que o senhor conecte os populares IDEs, servidores de notebook e outros aplicativos personalizados ao clustering Databricks. Consulte O que é o Databricks Connect?

nota

Antes de começar a usar o Databricks Connect, o senhor deve configurar o cliente Databricks Connect.

O IntelliJ IDEA Ultimate também oferece suporte de plug-in para o PyCharm com Python. Para obter detalhes, consulte Plug-in Python para o IntelliJ IDEA Ultimate.

Para usar o Databricks Connect com o PyCharm e o Python, siga estas instruções para o venv ou o Poetry. Este artigo foi testado com PyCharm Community Edition 2023.3.5. Se o senhor usar uma versão ou edição diferente do PyCharm, as instruções a seguir poderão variar.

Use o PyCharm com o venv e o Databricks Connect for Python

  1. Inicie o PyCharm.

  2. Crie um projeto: clique em Arquivo > Novo projeto .

  3. Na caixa de diálogo Novo projeto , clique em Python puro .

  4. Em Location (Localização ), clique no ícone da pasta e selecione o caminho para o ambiente virtual venv existente que você criou em Install Databricks Connect for Python.

  5. Em Tipo de intérprete , clique em Ambiente personalizado.

  6. Em Ambiente , selecione Selecionar existente .

  7. Para Type , selecione Python .

  8. Para Path (Caminho ), use o ícone de pasta ou a lista suspensa para selecionar o caminho para o interpretador Python no ambiente virtual venv existente.

dica

O interpretador Python para um ambiente virtual venv é normalmente instalado em </path-to-venv>/bin. Para obter mais informações, consulte o venv.

  1. Clique em OK .

  2. Clique em Criar .

  3. Adicione ao projeto um arquivo de código Python (.py) que contenha o código de exemplo ou seu próprio código. Se você usar seu próprio código, deverá, no mínimo, inicializar DatabricksSession conforme mostrado no código de exemplo.

  4. Com o arquivo de código Python aberto, defina os pontos de interrupção em que deseja que o código faça uma pausa durante a execução.

  5. Para executar o código, clique em executar > execução . Todo o código Python é executado localmente, enquanto todo o código PySpark que envolve DataFrame operações é executado no clustering no Databricks workspace remoto e as respostas de execução são enviadas de volta ao chamador local.

  6. Para depurar o código, clique em executar > Debug . Todo o código do Python é depurado localmente, enquanto todo o código do PySpark continua a ser executado no clustering no Databricks remoto workspace. O código principal do mecanismo do Spark não pode ser depurado diretamente do cliente.

  7. Siga as instruções na tela para começar a executar ou depurar o código.

Para obter instruções mais específicas sobre execução e depuração, consulte Execução sem configuração prévia e Depuração.

Use o PyCharm com o Poetry e o Databricks Connect for Python

  1. Inicie o PyCharm.

  2. Crie um projeto: clique em Arquivo > Novo projeto .

    1. Na caixa de diálogo Novo projeto , clique em Python puro .
  3. Em Location (Localização ), clique no ícone da pasta e selecione o caminho para o ambiente virtual Poetry existente que o senhor criou em Install Databricks Connect for Python.

  4. Em Tipo de intérprete , clique em Ambiente personalizado.

  5. Em Ambiente , selecione Selecionar existente .

  6. Para Type , selecione Python .

  7. Para Path (Caminho ), use o ícone de pasta ou a lista suspensa para selecionar o caminho para o interpretador Python no ambiente virtual Poetry existente.

dica

Certifique-se de selecionar o caminho para o interpretador Python. Não selecione o caminho para o executável do Poetry.

Para obter informações sobre onde a versão do sistema do interpretador Python está instalada, consulte How to Add Python to PATH.

  1. Clique em OK .

  2. Clique em Criar .

  3. Adicione ao projeto um arquivo de código Python (.py) que contenha o código de exemplo ou seu próprio código. Se você usar seu próprio código, deverá, no mínimo, inicializar DatabricksSession conforme mostrado no código de exemplo.

  4. Com o arquivo de código Python aberto, defina os pontos de interrupção em que deseja que o código faça uma pausa durante a execução.

  5. Para executar o código, clique em executar > execução . Todo o código Python é executado localmente, enquanto todo o código PySpark que envolve DataFrame operações é executado no clustering no Databricks workspace remoto e as respostas de execução são enviadas de volta ao chamador local.

  6. Para depurar o código, clique em executar > Debug . Todo o código do Python é depurado localmente, enquanto todo o código do PySpark continua a ser executado no clustering no Databricks remoto workspace. O código principal do mecanismo do Spark não pode ser depurado diretamente do cliente.

  7. Siga as instruções na tela para começar a executar ou depurar o código.

Para obter instruções mais específicas sobre execução e depuração, consulte Execução sem configuração prévia e Depuração.