Migrar para o Databricks Connect for Python
Este artigo descreve como migrar do Databricks Connect para Databricks Runtime 12.2 LTS e versões anteriores para Databricks Connect para Databricks Runtime 13.3 LTS e versões superiores para Python. Databricks Connect permite conectar IDEs populares, servidores de notebooks e aplicativos personalizados a clusters Databricks . Veja O que é o Databricks Connect?
Antes de começar a usar o Databricks Connect, o senhor deve configurar o cliente Databricks Connect.
Para a versão Scala deste artigo, consulte Migrar para Databricks Connect para Scala.
Migre seu projeto Python.
Para migrar seu projeto de código Python ou ambiente de programação existente do Databricks Connect para Databricks Runtime 12.2 LTS e versões anteriores para Databricks Connect para Databricks Runtime 13.3 LTS e versões posteriores:
-
Instale a versão correta do Python, conforme listado nos requisitos de instalação, para corresponder ao seu clustering Databricks, se ainda não estiver instalado localmente.
-
Se necessário, atualize o ambiente virtual Python para usar a versão correta do Python para corresponder ao seu clustering. Para obter instruções, consulte a documentação do seu provedor de ambiente virtual.
-
Com seu ambiente virtual ativado, desinstale o PySpark de seu ambiente virtual:
Bashpip3 uninstall pyspark -
Com o ambiente virtual ainda ativado, desinstale o Databricks Connect for Databricks Runtime 12.2 LTS e abaixo:
Bashpip3 uninstall databricks-connect -
Com o ambiente virtual ainda ativado, instale o Databricks Connect para Databricks Runtime 13.3 LTS e acima:
Bashpip3 install --upgrade "databricks-connect==14.0.*" # Or X.Y.* to match your cluster version.
A Databricks recomenda que o senhor acrescente a notação "dot-asterisk" para especificar databricks-connect==X.Y.* em vez de databricks-connect=X.Y, para garantir que o pacote mais recente seja instalado. Embora isso não seja um requisito, ajuda a garantir que o senhor possa usar o recurso compatível mais recente para esse clustering.
-
Atualize seu código Python para inicializar a variável
spark(que representa uma instanciação da classeDatabricksSession, semelhante aSparkSessionno PySpark). Consulte a configuração de computação para Databricks Connect. -
Migre suas APIs RDD para usar APIs DataFrame e migre seu site
SparkContextpara usar alternativas.
Definir as configurações do Hadoop
No cliente, o senhor pode definir as configurações do Hadoop usando a API spark.conf.set, que se aplica às operações SQL e DataFrame. Hadoop As configurações definidas no sparkContext devem ser definidas na configuração de clustering ou usando um Notebook. Isso ocorre porque as configurações definidas em sparkContext não estão vinculadas a sessões de usuário, mas se aplicam a todo o cluster.