Migrar para o Databricks Connect for Python

Este artigo descreve como migrar de Databricks Connect para Databricks Runtime 12.2 LTS e abaixo para Databricks Connect para Databricks Runtime 13.3 LTS e acima para Python. Databricks Connect permite que o senhor conecte os populares IDEs, servidores de notebook e aplicativos personalizados ao clustering Databricks. Consulte O que é o Databricks Connect? Para obter a versão Scala deste artigo, consulte Migrate to Databricks Connect for Scala.

nota

Antes de começar a usar o Databricks Connect, o senhor deve configurar o cliente Databricks Connect.

Siga estas diretrizes para migrar seu projeto de código Python ou ambiente de codificação existente de Databricks Connect para Databricks Runtime 12.2 LTS e abaixo para Databricks Connect para Databricks Runtime 13.3 LTS e acima.

Instale a versão correta do Python, conforme listado nos requisitos de instalação, para corresponder ao seu clustering Databricks, se ainda não estiver instalado localmente.
Se necessário, atualize o ambiente virtual Python para usar a versão correta do Python para corresponder ao seu clustering. Para obter instruções, consulte a documentação do seu provedor de ambiente virtual.
Com seu ambiente virtual ativado, desinstale o PySpark de seu ambiente virtual:
Bash
```
pip3 uninstall pyspark
```
Com o ambiente virtual ainda ativado, desinstale o Databricks Connect for Databricks Runtime 12.2 LTS e abaixo:
Bash
```
pip3 uninstall databricks-connect
```
Com o ambiente virtual ainda ativado, instale o Databricks Connect para Databricks Runtime 13.3 LTS e acima:
Bash
```
pip3 install --upgrade "databricks-connect==14.0.*"  # Or X.Y.* to match your cluster version.
```

nota

A Databricks recomenda que o senhor acrescente a notação "dot-asterisk" para especificar databricks-connect==X.Y.* em vez de databricks-connect=X.Y, para garantir que o pacote mais recente seja instalado. Embora isso não seja um requisito, ajuda a garantir que o senhor possa usar o recurso compatível mais recente para esse clustering.

Atualize seu código Python para inicializar a variável spark (que representa uma instanciação da classe DatabricksSession, semelhante a SparkSession no PySpark). Consulte a configuração de computação para Databricks Connect.
Migre suas APIs RDD para usar APIs DataFrame e migre seu site SparkContext para usar alternativas.

Definir as configurações do Hadoop

No cliente, o senhor pode definir as configurações do Hadoop usando a API spark.conf.set, que se aplica às operações SQL e DataFrame. Hadoop As configurações definidas no sparkContext devem ser definidas na configuração de clustering ou usando um Notebook. Isso ocorre porque as configurações definidas em sparkContext não estão vinculadas a sessões de usuário, mas se aplicam a todo o cluster.

Definir as configurações do Hadoop​

Definir as configurações do Hadoop