Migrar para o Databricks Connect para Python
Este artigo descreve como migrar de Databricks Connect para Databricks Runtime 12.2 LTS e abaixo para Databricks Connect para Databricks Runtime 13.3 LTS e acima para Python. Databricks Connect Permite que o senhor conecte os populares servidores IDEs, Notebook e aplicativos personalizados a Databricks clusters. Consulte O que é o Databricks Connect? Para obter a versão Scala deste artigo, consulte Migrate to Databricks Connect for Scala.
Observação
Antes de começar a usar o Databricks Connect, você deve configurar o cliente Databricks Connect.
Siga estas diretrizes para migrar seu projeto de código Python ou ambiente de codificação existente de Databricks Connect para Databricks Runtime 12.2 LTS e abaixo para Databricks Connect para Databricks Runtime 13.3 LTS e acima.
Instale a versão correta do Python conforme listado nos requisitos de instalação para corresponder aos clusters do Databricks, se ainda não estiver instalado localmente.
Atualize seu ambiente virtual Python para usar a versão correta do Python para corresponder aos seus clusters, se necessário. Para obter instruções, consulte a documentação do seu provedor de ambiente virtual.
Com o seu ambiente virtual ativado, desinstale o PySpark do seu ambiente virtual:
pip3 uninstall pyspark
Com o seu ambiente virtual ainda ativado, desinstale o Databricks Connect for Databricks Runtime 12.2 LTS e abaixo:
pip3 uninstall databricks-connect
Com o ambiente virtual ainda ativado, instale o Databricks Connect para Databricks Runtime 13.3 LTS e acima:
pip3 install --upgrade "databricks-connect==14.0.*" # Or X.Y.* to match your cluster version.
Observação
A Databricks recomenda que você anexe a notação “ponto-asterisco” para especificar
databricks-connect==X.Y.*
em vez dedatabricks-connect=X.Y
, para garantir que o pacote mais recente esteja instalado. Embora isso não seja um requisito, ajuda a garantir que você possa usar o recurso compatível mais recente para esses clusters.Atualize seu código Python para inicializar a variável
spark
(que representa uma instanciação da classeDatabricksSession
, semelhante aSparkSession
no PySpark). Consulte a configuração de computação para Databricks Connect.Migre suas APIs RDD para usar APIs DataFrame e migre seu
SparkContext
para usar alternativas.
Definir configurações do Hadoop
No cliente, você pode definir configurações do Hadoop usando a API spark.conf.set
, que se aplica a operações SQL e DataFrame. As configurações do Hadoop definidas em sparkContext
devem ser definidas na configuração clusters ou usando um Notebook. Isso ocorre porque as configurações definidas em sparkContext
não estão vinculadas às sessões do usuário, mas se aplicam a todos os clusters.