Migrar para o Databricks Connect para Python

Este artigo descreve como migrar do Databricks Connect for Databricks Runtime 12.2 LTS e abaixo para o Databricks Connect for Databricks Runtime 13.0 e acima para Python. O Databricks Connect permite conectar IDEs populares, servidores Notebook e aplicativos personalizados a clusters Databricks. Consulte O que é o Databricks Connect?. Para a versão Scala destes artigos, consulte Migrate to Databricks Connect for Scala.

Observação

Antes de começar a usar o Databricks Connect, você deve configurar o cliente Databricks Connect.

Siga estas diretrizes para migrar seu projeto de código Python existente ou ambiente de codificação do Databricks Connect for Databricks Runtime 12.2 LTS e abaixo para o Databricks Connect for Databricks Runtime 13.0 e acima.

  1. Instale a versão correta do Python conforme listado nos requisitos de instalação para corresponder aos clusters do Databricks, se ainda não estiver instalado localmente.

  2. Atualize seu ambiente virtual Python para usar a versão correta do Python para corresponder aos seus clusters, se necessário. Para obter instruções, consulte a documentação do seu provedor de ambiente virtual.

  3. Com o seu ambiente virtual ativado, desinstale o PySpark do seu ambiente virtual:

    pip3 uninstall pyspark
    
  4. Com o seu ambiente virtual ainda ativado, desinstale o Databricks Connect for Databricks Runtime 12.2 LTS e abaixo:

    pip3 uninstall databricks-connect
    
  5. Com o seu ambiente virtual ainda ativado, instale o Databricks Connect for Databricks Runtime 13.0 e acima:

    pip3 install --upgrade "databricks-connect==14.0.*"  # Or X.Y.* to match your cluster version.
    

    Observação

    A Databricks recomenda que você anexe a notação “ponto-asterisco” para especificar databricks-connect==X.Y.* em vez de databricks-connect=X.Y, para garantir que o pacote mais recente esteja instalado. Embora isso não seja um requisito, ajuda a garantir que você possa usar o recurso compatível mais recente para esses clusters.

  6. Atualize seu código Python para inicializar a variável spark (que representa uma instanciação da classe DatabricksSession , semelhante a SparkSession no PySpark). Para obter exemplos de código, consulte Instalar o Databricks Connect para Python.

  7. Migre suas APIs RDD para usar APIs DataFrame e migre seu SparkContext para usar alternativas.

Definir configurações do Hadoop

No cliente, você pode definir configurações do Hadoop usando a API spark.conf.set , que se aplica a operações SQL e DataFrame. As configurações do Hadoop definidas em sparkContext devem ser definidas na configuração clusters ou usando um Notebook. Isso ocorre porque as configurações definidas em sparkContext não estão vinculadas às sessões do usuário, mas se aplicam a todos os clusters.