Pular para o conteúdo principal

Migrar para o Databricks Connect for Python

Este artigo descreve como migrar de Databricks Connect para Databricks Runtime 12.2 LTS e abaixo para Databricks Connect para Databricks Runtime 13.3 LTS e acima para Python. Databricks Connect permite que o senhor conecte os populares IDEs, servidores de notebook e aplicativos personalizados ao clustering Databricks. Consulte O que é o Databricks Connect? Para obter a versão Scala deste artigo, consulte Migrate to Databricks Connect for Scala.

nota

Antes de começar a usar o Databricks Connect, o senhor deve configurar o cliente Databricks Connect.

Siga estas diretrizes para migrar seu projeto de código Python ou ambiente de codificação existente de Databricks Connect para Databricks Runtime 12.2 LTS e abaixo para Databricks Connect para Databricks Runtime 13.3 LTS e acima.

  1. Instale a versão correta do Python, conforme listado nos requisitos de instalação, para corresponder ao seu clustering Databricks, se ainda não estiver instalado localmente.

  2. Se necessário, atualize o ambiente virtual Python para usar a versão correta do Python para corresponder ao seu clustering. Para obter instruções, consulte a documentação do seu provedor de ambiente virtual.

  3. Com seu ambiente virtual ativado, desinstale o PySpark de seu ambiente virtual:

    Bash
    pip3 uninstall pyspark
  4. Com o ambiente virtual ainda ativado, desinstale o Databricks Connect for Databricks Runtime 12.2 LTS e abaixo:

    Bash
    pip3 uninstall databricks-connect
  5. Com o ambiente virtual ainda ativado, instale o Databricks Connect para Databricks Runtime 13.3 LTS e acima:

    Bash
    pip3 install --upgrade "databricks-connect==14.0.*"  # Or X.Y.* to match your cluster version.
nota

A Databricks recomenda que o senhor acrescente a notação "dot-asterisk" para especificar databricks-connect==X.Y.* em vez de databricks-connect=X.Y, para garantir que o pacote mais recente seja instalado. Embora isso não seja um requisito, ajuda a garantir que o senhor possa usar o recurso compatível mais recente para esse clustering.

  1. Atualize seu código Python para inicializar a variável spark (que representa uma instanciação da classe DatabricksSession, semelhante a SparkSession no PySpark). Consulte a configuração de computação para Databricks Connect.

  2. Migre suas APIs RDD para usar APIs DataFrame e migre seu site SparkContext para usar alternativas.

Definir as configurações do Hadoop

No cliente, o senhor pode definir as configurações do Hadoop usando a API spark.conf.set, que se aplica às operações SQL e DataFrame. Hadoop As configurações definidas no sparkContext devem ser definidas na configuração de clustering ou usando um Notebook. Isso ocorre porque as configurações definidas em sparkContext não estão vinculadas a sessões de usuário, mas se aplicam a todo o cluster.