Migrar para o Databricks Connect for Python

Este artigo descreve como migrar do Databricks Connect para Databricks Runtime 12.2 LTS e versões anteriores para Databricks Connect para Databricks Runtime 13.3 LTS e versões superiores para Python. Databricks Connect permite conectar IDEs populares, servidores de notebooks e aplicativos personalizados a clusters Databricks . Veja O que é o Databricks Connect?

Antes de começar a usar o Databricks Connect, o senhor deve configurar o cliente Databricks Connect.

Para a versão Scala deste artigo, consulte Migrar para Databricks Connect para Scala.

Migre seu projeto Python.

Para migrar seu projeto de código Python ou ambiente de programação existente do Databricks Connect para Databricks Runtime 12.2 LTS e versões anteriores para Databricks Connect para Databricks Runtime 13.3 LTS e versões posteriores:

Instale a versão correta do Python, conforme listado nos requisitos de instalação, para corresponder ao seu clustering Databricks, se ainda não estiver instalado localmente.
Se necessário, atualize o ambiente virtual Python para usar a versão correta do Python para corresponder ao seu clustering. Para obter instruções, consulte a documentação do seu provedor de ambiente virtual.
Com seu ambiente virtual ativado, desinstale o PySpark de seu ambiente virtual:
Bash
```
pip3 uninstall pyspark
```
Com o ambiente virtual ainda ativado, desinstale o Databricks Connect for Databricks Runtime 12.2 LTS e abaixo:
Bash
```
pip3 uninstall databricks-connect
```
Com o ambiente virtual ainda ativado, instale o Databricks Connect para Databricks Runtime 13.3 LTS e acima:
Bash
```
pip3 install --upgrade "databricks-connect==14.0.*"  # Or X.Y.* to match your cluster version.
```

nota

A Databricks recomenda que o senhor acrescente a notação "dot-asterisk" para especificar databricks-connect==X.Y.* em vez de databricks-connect=X.Y, para garantir que o pacote mais recente seja instalado. Embora isso não seja um requisito, ajuda a garantir que o senhor possa usar o recurso compatível mais recente para esse clustering.

Atualize seu código Python para inicializar a variável spark (que representa uma instanciação da classe DatabricksSession, semelhante a SparkSession no PySpark). Consulte a configuração de computação para Databricks Connect.
Migre suas APIs RDD para usar APIs DataFrame e migre seu site SparkContext para usar alternativas.

Definir as configurações do Hadoop

No cliente, o senhor pode definir as configurações do Hadoop usando a API spark.conf.set, que se aplica às operações SQL e DataFrame. Hadoop As configurações definidas no sparkContext devem ser definidas na configuração de clustering ou usando um Notebook. Isso ocorre porque as configurações definidas em sparkContext não estão vinculadas a sessões de usuário, mas se aplicam a todo o cluster.

Migre seu projeto Python.​

Definir as configurações do Hadoop​

Migre seu projeto Python.

Definir as configurações do Hadoop