Pular para o conteúdo principal

Instalar o Databricks Connect para Python

nota

Este artigo abrange o Databricks Connect para Databricks Runtime 13.3 LTS e acima.

Este artigo descreve como instalar o Databricks Connect para Python. Consulte O que é o Databricks Connect?

Requisitos

Antes de instalar o Databricks Connect, certifique-se de que o workspace e o ambiente local atendam aos requisitos. Consulte os requisitos de uso do Databricks Connect.

Ativar um ambiente virtual Python

A Databricks recomenda enfaticamente que o senhor tenha um ambiente virtual Python ativado para cada versão do Python que usar com o Databricks Connect. Os ambientes virtuais Python ajudam a garantir que o senhor esteja usando as versões corretas do Python e do Databricks Connect juntos. Para obter mais informações sobre essas ferramentas e como ativá-las, consulte o site ou Poetry.

Instalar o cliente Databricks Connect

Esta seção descreve como instalar o cliente Databricks Connect com o venv ou o Poetry.

nota

Se o senhor já tiver instalado a extensão Databricks para o Visual Studio Code, poderá instalar o Databricks Connect para Databricks Runtime 13.3 LTS e acima usando a extensão. Consulte Depurar código usando o Databricks Connect para a extensão do Databricks para o Visual Studio Code.

Instalar o cliente Databricks Connect com o venv

  1. Com seu ambiente virtual ativado, desinstale o PySpark, se ele já estiver instalado, executando o comando uninstall. Isso é necessário porque o pacote databricks-connect entra em conflito com o PySpark. Para obter detalhes, consulte Instalações conflitantes do PySpark. Para verificar se o site PySpark já está instalado, execute o comando show.

    Bash
    # Is PySpark already installed?
    pip3 show pyspark

    # Uninstall PySpark
    pip3 uninstall pyspark
  2. Com seu ambiente virtual ainda ativado, instale o cliente Databricks Connect executando o comando install. Use a opção --upgrade para atualizar qualquer instalação de cliente existente para a versão especificada.

    Bash
    pip3 install --upgrade "databricks-connect==16.4.*"  # Or X.Y.* to match your cluster version.
nota

A Databricks recomenda que o senhor acrescente a notação "dot-asterisk" para especificar databricks-connect==X.Y.* em vez de databricks-connect=X.Y, para garantir que o pacote mais recente seja instalado. Embora isso não seja um requisito, ajuda a garantir que o senhor possa usar o recurso compatível mais recente para esse clustering.

Instale o cliente Databricks Connect com o Poetry

  1. Com seu ambiente virtual ativado, desinstale o PySpark, se ele já estiver instalado, executando o comando remove. Isso é necessário porque o pacote databricks-connect entra em conflito com o PySpark. Para obter detalhes, consulte Instalações conflitantes do PySpark. Para verificar se o site PySpark já está instalado, execute o comando show.

    Bash
    # Is PySpark already installed?
    poetry show pyspark

    # Uninstall PySpark
    poetry remove pyspark
  2. Com seu ambiente virtual ainda ativado, instale o cliente Databricks Connect executando o comando add.

    Bash
    poetry add databricks-connect@~16.4  # Or X.Y to match your cluster version.
nota

A Databricks recomenda que o senhor use a notação "at-tilde" para especificar databricks-connect@~16.4 em vez de databricks-connect==16.4, para garantir que o pacote mais recente seja instalado. Embora isso não seja um requisito, ajuda a garantir que o senhor possa usar o recurso compatível mais recente para esse clustering.