Instalar o Databricks Connect para Python

nota

Este artigo abrange o Databricks Connect para Databricks Runtime 13.3 LTS e acima.

Este artigo descreve como instalar o Databricks Connect para Python. Consulte O que é o Databricks Connect? Para obter a versão Scala deste artigo, consulte Instalar Databricks Connect para Scala.

Requisitos

Para instalar o Databricks Connect for Python, os seguintes requisitos devem ser atendidos:

Se o senhor estiver se conectando a serverless computeseu workspace deve atender aos requisitos para serverless compute .

nota

O compute sem servidor é compatível com o Databricks Connect versão 15.1 e o acima. Além disso, as versões do Databricks Connect iguais ou inferiores à versão do Databricks Runtime em serverless são totalmente compatíveis. Veja as notas sobre a versão. Para verificar se a versão Databricks Connect é compatível com serverless compute, consulte Validar a conexão com Databricks.

Se o senhor estiver se conectando a um cluster, o cluster de destino deverá atender aos requisitos de configuração do cluster, o que inclui os requisitos da versão Databricks Runtime.
O senhor deve ter o Python 3 instalado em sua máquina de desenvolvimento, e a versão secundária do Python instalada em sua máquina de desenvolvimento deve atender aos requisitos de versão da tabela abaixo.
Se estiver usando funções definidas pelo usuário (UDFs), a versão local secundária de Python deve corresponder à versão secundária de Python da versão Databricks Runtime do clustering ou serverless compute. Para encontrar a versão secundária Python da versão Databricks Runtime do seu clustering, consulte a seção Ambiente do sistema das Databricks Runtime notas sobre a versão para essa versão. Consulte Databricks Runtime notas sobre a versão, versões e compatibilidade e serverless compute notas sobre a versão.

Matriz de suporte de versão

A tabela a seguir mostra as versões compatíveis do Databricks Connect e do Python. Os números de versão do Databricks Connect correspondem aos números de versão do Databricks Runtime.

Para obter suporte a UDF, consulte Ambiente básico do Python.

Tipo de Compute	Versão do Databricks Connect	Versão compatível do Python
Serverless	16,1 a 16,4	3,12
Serverless	15.4.10 para abaixo de 16.0	3,11
Cluster	16.1 e acima	3,12
Cluster	15.4 LTS	3,11
Cluster	13.3 LTS para 14.3 LTS	3.10

Ativar um ambiente virtual Python

A Databricks recomenda enfaticamente que o senhor tenha um ambiente virtual Python ativado para cada versão do Python que usar com o Databricks Connect. Os ambientes virtuais Python ajudam a garantir que o senhor esteja usando as versões corretas do Python e do Databricks Connect juntos. Para obter mais informações sobre essas ferramentas e como ativá-las, consulte o site ou Poetry.

Instalar o cliente Databricks Connect

Esta seção descreve como instalar o cliente Databricks Connect com o venv ou o Poetry.

nota

Se o senhor já tiver instalado a extensão Databricks para o Visual Studio Code, poderá instalar o Databricks Connect para Databricks Runtime 13.3 LTS e acima usando a extensão. Consulte Depurar código usando o Databricks Connect para a extensão do Databricks para o Visual Studio Code.

Instalar o cliente Databricks Connect com o venv

Com seu ambiente virtual ativado, desinstale o PySpark, se ele já estiver instalado, executando o comando uninstall. Isso é necessário porque o pacote databricks-connect entra em conflito com o PySpark. Para obter detalhes, consulte Instalações conflitantes do PySpark. Para verificar se o site PySpark já está instalado, execute o comando show.
Bash
```
# Is PySpark already installed?
pip3 show pyspark

# Uninstall PySpark
pip3 uninstall pyspark
```
Com seu ambiente virtual ainda ativado, instale o cliente Databricks Connect executando o comando install. Use a opção --upgrade para atualizar qualquer instalação de cliente existente para a versão especificada.
Bash
```
pip3 install --upgrade "databricks-connect==16.4.*"  # Or X.Y.* to match your cluster version.
```

nota

A Databricks recomenda que o senhor acrescente a notação "dot-asterisk" para especificar databricks-connect==X.Y.* em vez de databricks-connect=X.Y, para garantir que o pacote mais recente seja instalado. Embora isso não seja um requisito, ajuda a garantir que o senhor possa usar o recurso compatível mais recente para esse clustering.

Instale o cliente Databricks Connect com o Poetry

Com seu ambiente virtual ativado, desinstale o PySpark, se ele já estiver instalado, executando o comando remove. Isso é necessário porque o pacote databricks-connect entra em conflito com o PySpark. Para obter detalhes, consulte Instalações conflitantes do PySpark. Para verificar se o site PySpark já está instalado, execute o comando show.
Bash
```
# Is PySpark already installed?
poetry show pyspark

# Uninstall PySpark
poetry remove pyspark
```
Com seu ambiente virtual ainda ativado, instale o cliente Databricks Connect executando o comando add.
Bash
```
poetry add databricks-connect@~16.4  # Or X.Y to match your cluster version.
```

nota

A Databricks recomenda que o senhor use a notação "at-tilde" para especificar databricks-connect@~16.4 em vez de databricks-connect==16.4, para garantir que o pacote mais recente seja instalado. Embora isso não seja um requisito, ajuda a garantir que o senhor possa usar o recurso compatível mais recente para esse clustering.

Próximas etapas

Depois de instalar o Databricks Connect, o senhor precisa configurar uma conexão com o Databricks. Consulte a configuração de computação para Databricks Connect.

Requisitos​

Matriz de suporte de versão​

Ativar um ambiente virtual Python​

Instalar o cliente Databricks Connect​

Instalar o cliente Databricks Connect com o venv​

Instale o cliente Databricks Connect com o Poetry​

Próximas etapas​

Requisitos

Matriz de suporte de versão

Ativar um ambiente virtual Python

Instalar o cliente Databricks Connect

Instalar o cliente Databricks Connect com o venv

Instale o cliente Databricks Connect com o Poetry

Próximas etapas