Migrar para o Databricks Connect for Python
Este artigo descreve como migrar de Databricks Connect para Databricks Runtime 12.2 LTS e abaixo para Databricks Connect para Databricks Runtime 13.3 LTS e acima para Python. Databricks Connect permite que o senhor conecte os populares IDEs, servidores de notebook e aplicativos personalizados ao clustering Databricks. Consulte O que é o Databricks Connect? Para obter a versão Scala deste artigo, consulte Migrate to Databricks Connect for Scala.
Antes de começar a usar o Databricks Connect, o senhor deve configurar o cliente Databricks Connect.
Siga estas diretrizes para migrar seu projeto de código Python ou ambiente de codificação existente de Databricks Connect para Databricks Runtime 12.2 LTS e abaixo para Databricks Connect para Databricks Runtime 13.3 LTS e acima.
-
Instale a versão correta do Python, conforme listado nos requisitos de instalação, para corresponder ao seu clustering Databricks, se ainda não estiver instalado localmente.
-
Se necessário, atualize o ambiente virtual Python para usar a versão correta do Python para corresponder ao seu clustering. Para obter instruções, consulte a documentação do seu provedor de ambiente virtual.
-
Com seu ambiente virtual ativado, desinstale o PySpark de seu ambiente virtual:
Bashpip3 uninstall pyspark
-
Com o ambiente virtual ainda ativado, desinstale o Databricks Connect for Databricks Runtime 12.2 LTS e abaixo:
Bashpip3 uninstall databricks-connect
-
Com o ambiente virtual ainda ativado, instale o Databricks Connect para Databricks Runtime 13.3 LTS e acima:
Bashpip3 install --upgrade "databricks-connect==14.0.*" # Or X.Y.* to match your cluster version.
A Databricks recomenda que o senhor acrescente a notação "dot-asterisk" para especificar databricks-connect==X.Y.*
em vez de databricks-connect=X.Y
, para garantir que o pacote mais recente seja instalado. Embora isso não seja um requisito, ajuda a garantir que o senhor possa usar o recurso compatível mais recente para esse clustering.
-
Atualize seu código Python para inicializar a variável
spark
(que representa uma instanciação da classeDatabricksSession
, semelhante aSparkSession
no PySpark). Consulte a configuração de computação para Databricks Connect. -
Migre suas APIs RDD para usar APIs DataFrame e migre seu site
SparkContext
para usar alternativas.
Definir as configurações do Hadoop
No cliente, o senhor pode definir as configurações do Hadoop usando a API spark.conf.set
, que se aplica às operações SQL e DataFrame. Hadoop As configurações definidas no sparkContext
devem ser definidas na configuração de clustering ou usando um Notebook. Isso ocorre porque as configurações definidas em sparkContext
não estão vinculadas a sessões de usuário, mas se aplicam a todo o cluster.