API do Pandas no Spark
Este recurso está disponível no clustering que executa Databricks Runtime 10.0 (EoS) e acima. Para clustering que executa Databricks Runtime 9.1 LTS e abaixo, use Koalas em vez disso.
Comumente usado por data scientists, Pandas é um pacote Python que fornece estruturas de dados fáceis de usar e ferramentas de análise de dados para a linguagem de programação Python. No entanto, Pandas não escala para big data. Pandas API em Spark preenche essa lacuna fornecendo Pandas equivalente a APIs que funciona em Apache Spark. Pandas API O Spark é útil não apenas para os usuários do Pandas, mas também para os usuários do PySpark, porque o Pandas API no Spark suporta muitas tarefas que são difíceis de fazer com o PySpark, por exemplo, graficar dados diretamente de um PySpark DataFrame.
Requisitos
A API do Pandas no Spark está disponível a partir do Apache Spark 3.2 (que está incluído a partir do Databricks Runtime 10.0 (EoS)) usando a seguinte instrução import
:
import pyspark.pandas as ps
Notebook
O Notebook a seguir mostra como migrar de Pandas para Pandas API em Spark.