API do Pandas no Spark
Este recurso está disponível em clusters que executam Databricks Runtime 10.0 (EoL) e acima. Para clusters que executam Databricks Runtime 9.1 LTS e abaixo, use Koalas .
Comumente usado por data scientists, Pandas é um pacote Python que fornece estruturas de dados fáceis de usar e ferramentas de análise de dados para a linguagem de programação Python. No entanto, Pandas não escala para big data. Pandas API em Spark preenche essa lacuna fornecendo Pandas equivalente a APIs que funciona em Apache Spark. Pandas API O Spark é útil não apenas para os usuários do Pandas, mas também para os usuários do PySpark, porque o Pandas API no Spark suporta muitas tarefas que são difíceis de fazer com o PySpark, por exemplo, graficar dados diretamente de um PySpark DataFrame.
Requisitos
A API Pandas no Spark está disponível a partir do Apache Spark 3.2 (que está incluído a partir do Databricks Runtime 10.0 (EoL)) usando a seguinte instrução import :
import pyspark.pandas as ps
Notebook
O Notebook a seguir mostra como migrar de Pandas para Pandas API em Spark.