Instalar o Databricks Connect para Python
Este artigo abrange o Databricks Connect para Databricks Runtime 13.3 LTS e acima.
Este artigo descreve como instalar o Databricks Connect para Python. Consulte O que é o Databricks Connect? Para obter a versão Scala deste artigo, consulte Instalar Databricks Connect para Scala.
Requisitos
Para instalar o Databricks Connect for Python, os seguintes requisitos devem ser atendidos:
- Se o senhor estiver se conectando a serverless computeseu workspace deve atender aos requisitos para serverless compute .
O compute sem servidor é compatível com o Databricks Connect versão 15.1 e o acima. Além disso, as versões do Databricks Connect iguais ou inferiores à versão do Databricks Runtime em serverless são totalmente compatíveis. Veja as notas sobre a versão. Para verificar se a versão Databricks Connect é compatível com serverless compute, consulte Validar a conexão com Databricks.
-
Se o senhor estiver se conectando a um cluster, o cluster de destino deverá atender aos requisitos de configuração do cluster, o que inclui os requisitos da versão Databricks Runtime.
-
O senhor deve ter o Python 3 instalado em sua máquina de desenvolvimento, e a versão secundária do Python instalada em sua máquina de desenvolvimento deve atender aos requisitos de versão da tabela abaixo.
-
Se estiver usando funções definidas pelo usuário (UDFs), a versão local secundária de Python deve corresponder à versão secundária de Python da versão Databricks Runtime do clustering ou serverless compute. Para encontrar a versão secundária Python da versão Databricks Runtime do seu clustering, consulte a seção Ambiente do sistema das Databricks Runtime notas sobre a versão para essa versão. Consulte Databricks Runtime notas sobre a versão, versões e compatibilidade e serverless compute notas sobre a versão.
Matriz de suporte de versão
A tabela a seguir mostra as versões compatíveis do Databricks Connect e do Python. Os números de versão do Databricks Connect correspondem aos números de versão do Databricks Runtime.
Tipo de Compute | Versão do Databricks Connect | Versão compatível do Python |
---|---|---|
Serverless | 16.1 e acima | 3,12 |
Cluster | 16.0 e acima | 3,12 |
Cluster | 15.0 a 15.4 LTS | 3,11 |
Cluster | 13.3 LTS para 14.3 LTS | 3.10 |
Ativar um ambiente virtual Python
A Databricks recomenda enfaticamente que o senhor tenha um ambiente virtual Python ativado para cada versão do Python que usar com o Databricks Connect. Os ambientes virtuais Python ajudam a garantir que o senhor esteja usando as versões corretas do Python e do Databricks Connect juntos. Para obter mais informações sobre essas ferramentas e como ativá-las, consulte o site ou Poetry.
Instalar o cliente Databricks Connect
Esta seção descreve como instalar o cliente Databricks Connect com o venv ou o Poetry.
Se o senhor já tiver a extensão Databricks para Visual Studio Code instalada, não precisará seguir estas instruções de configuração, pois a extensão Databricks para Visual Studio Code já tem suporte integrado para Databricks Connect para Databricks Runtime 13.3 LTS e acima. Pule para Depurar código usando o Databricks Connect para a extensão Databricks para Visual Studio Code.
Instalar o cliente Databricks Connect com o venv
-
Com seu ambiente virtual ativado, desinstale o PySpark, se ele já estiver instalado, executando o comando
uninstall
. Isso é necessário porque o pacotedatabricks-connect
entra em conflito com o PySpark. Para obter detalhes, consulte Instalações conflitantes do PySpark. Para verificar se o site PySpark já está instalado, execute o comandoshow
.Bash# Is PySpark already installed?
pip3 show pyspark
# Uninstall PySpark
pip3 uninstall pyspark -
Com seu ambiente virtual ainda ativado, instale o cliente Databricks Connect executando o comando
install
. Use a opção--upgrade
para atualizar qualquer instalação de cliente existente para a versão especificada.Bashpip3 install --upgrade "databricks-connect==15.4.*" # Or X.Y.* to match your cluster version.
A Databricks recomenda que o senhor acrescente a notação "dot-asterisk" para especificar databricks-connect==X.Y.*
em vez de databricks-connect=X.Y
, para garantir que o pacote mais recente seja instalado. Embora isso não seja um requisito, ajuda a garantir que o senhor possa usar o recurso compatível mais recente para esse clustering.
Instale o cliente Databricks Connect com o Poetry
-
Com seu ambiente virtual ativado, desinstale o PySpark, se ele já estiver instalado, executando o comando
remove
. Isso é necessário porque o pacotedatabricks-connect
entra em conflito com o PySpark. Para obter detalhes, consulte Instalações conflitantes do PySpark. Para verificar se o site PySpark já está instalado, execute o comandoshow
.Bash# Is PySpark already installed?
poetry show pyspark
# Uninstall PySpark
poetry remove pyspark -
Com seu ambiente virtual ainda ativado, instale o cliente Databricks Connect executando o comando
add
.Bashpoetry add databricks-connect@~15.4 # Or X.Y to match your cluster version.
A Databricks recomenda que o senhor use a notação "at-tilde" para especificar databricks-connect@~15.4
em vez de databricks-connect==15.4
, para garantir que o pacote mais recente seja instalado. Embora isso não seja um requisito, ajuda a garantir que o senhor possa usar o recurso compatível mais recente para esse clustering.
Próximas etapas
Depois de instalar o Databricks Connect, o senhor precisa configurar uma conexão com o Databricks. Consulte a configuração de computação para Databricks Connect.