Solução de problemas do Databricks Connect para Python

nota

Este artigo abrange o Databricks Connect para Databricks Runtime 13.3 LTS e acima.

Este artigo fornece informações sobre solução de problemas para Databricks Connect para Python. Databricks Connect permite que o senhor conecte os populares IDEs, servidores de notebook e aplicativos personalizados ao clustering Databricks. Consulte O que é o Databricks Connect? Para obter a versão Scala deste artigo, consulte Solução de problemas Databricks Connect para Scala.

Erro: StatusCode.Unavailable, StatusCode.UNKNOWN, Falha na resolução de DNS ou cabeçalho http2 recebido com status 500

Problema : Quando o senhor tenta executar um código com Databricks Connect, recebe uma mensagem de erro que contém strings, como StatusCode.UNAVAILABLE, StatusCode.UNKNOWN, DNS resolution failed ou Received http2 header with status: 500.

Possible cause : Databricks Connect não consegue acessar seu clustering.

Soluções recomendadas :

Verifique se o nome da instância workspace está correto. Se o senhor usar uma variável de ambiente, verifique se a variável de ambiente relacionada está disponível e correta em seu computador de desenvolvimento local.
Verifique se o ID de clustering está correto. Se o senhor usar uma variável de ambiente, verifique se a variável de ambiente relacionada está disponível e correta em seu computador de desenvolvimento local.
Verifique se o seu clustering tem a versão correta de clustering personalizado compatível com Databricks Connect.

Incompatibilidade de versão do Python

Verifique se a versão do Python que o senhor está usando localmente tem, no mínimo, a mesma versão secundária da versão no clustering (por exemplo, 3.10.11 versus 3.10.10 está OK, 3.10 versus 3.9 não está). Para ver as versões compatíveis, consulte a matriz de suporte de versões.

Se tiver várias versões do Python instaladas localmente, certifique-se de que o Databricks Connect esteja usando a versão correta, definindo a variável de ambiente PYSPARK_PYTHON (por exemplo, PYSPARK_PYTHON=python3).

Instalações conflitantes do PySpark

O pacote databricks-connect entra em conflito com o PySpark. Ter ambos instalados causará erros ao inicializar o contexto do Spark no Python. Isso pode se manifestar de várias maneiras, incluindo erros de "transmissão corrompida" ou "classe não encontrada". Se o senhor tiver pyspark instalado em seu ambiente Python, certifique-se de que ele seja desinstalado antes de instalar databricks-connect. Depois de desinstalar o PySpark, certifique-se de reinstalar totalmente o pacote Databricks Connect:

Bash
pip3 uninstall pyspark
pip3 uninstall databricks-connect
pip3 install --upgrade "databricks-connect==14.0.*"  # or X.Y.* to match your specific cluster version.

O Databricks Connect e o PySpark são mutuamente exclusivos, mas é possível usar ambientes virtuais Python para fazer desenvolvimento remoto com databricks-connect em seu IDE e testes locais com pyspark em um terminal. No entanto, o site Databricks recomenda que o senhor use Databricks Connect para Python com serverless compute para todos os testes, pelos seguintes motivos:

Databricks Runtimee, portanto, databricks-connect, contém recursos que não estão disponíveis no OSS pyspark.
Testar com databricks-connect e serverless é mais rápido do que testar usando pyspark localmente.
As integrações do Unity Catalog não estão disponíveis em pyspark, portanto, não haverá permissões aplicadas quando o senhor testar o uso de pyspark localmente.
Para testar de ponta a ponta com uma dependência externa, como Databricks compute, os testes de integração, em oposição aos testes de unidade, são os melhores.

Se o senhor ainda optar por se conectar a um clustering Spark local, poderá especificar uma cadeia de conexão usando o seguinte:

Python
connection_string = "sc://localhost"
DatabricksSession.builder.remote(connection_string).getOrCreate()

Entrada `PATH` conflitante ou ausente para binários

É possível que seu PATH esteja configurado de modo que o comando like spark-shell execute algum outro binário instalado anteriormente em vez do fornecido com Databricks Connect. O senhor deve certificar-se de que os binários do Databricks Connect tenham precedência ou remover os instalados anteriormente.

Se não conseguir executar o comando como em spark-shell, também é possível que o PATH não tenha sido configurado automaticamente por pip3 install e será necessário adicionar manualmente o diretório de instalação bin ao PATH. É possível usar o Databricks Connect com IDEs mesmo que isso não esteja configurado.

A sintaxe do nome do arquivo, do diretório ou do rótulo do volume está incorreta no Windows

Se o senhor estiver usando o Databricks Connect no Windows e ver:

The filename, directory name, or volume label syntax is incorrect.

O Databricks Connect foi instalado em um diretório com um espaço em seu caminho. Você pode contornar isso instalando em um caminho de diretório sem espaços ou configurando seu caminho usando o formulário de nome abreviado.

Erro: StatusCode.Unavailable, StatusCode.UNKNOWN, Falha na resolução de DNS ou cabeçalho http2 recebido com status 500​

Incompatibilidade de versão do Python​

Instalações conflitantes do PySpark​

Entrada PATH conflitante ou ausente para binários​

A sintaxe do nome do arquivo, do diretório ou do rótulo do volume está incorreta no Windows​

Erro: StatusCode.Unavailable, StatusCode.UNKNOWN, Falha na resolução de DNS ou cabeçalho http2 recebido com status 500

Incompatibilidade de versão do Python

Instalações conflitantes do PySpark

Entrada `PATH` conflitante ou ausente para binários

A sintaxe do nome do arquivo, do diretório ou do rótulo do volume está incorreta no Windows