API do Pandas no Spark

Observação

Este recurso está disponível em clusters que executa Databricks Runtime 10.0 (EoS) e acima. Para clusters que executa Databricks Runtime 9.1 LTS e abaixo, use Koalas em vez disso.

Comumente usado por cientistas de dados, pandas é um pacote Python que fornece estruturas de dados fáceis de usar e ferramentas de análise de dados para a linguagem de programação Python. No entanto, os pandas não escalam para big data. A API do Pandas no Spark preenche essa lacuna fornecendo APIs equivalentes ao pandas que funcionam no Apache Spark. A API do Pandas no Spark é útil não apenas para usuários do pandas, mas também usuários do PySpark, porque a API do pandas no Spark oferece suporte a muitas tarefas que são difíceis de executar com o PySpark, por exemplo, gráficos de dados diretamente de um PySpark DataFrame.

Requisitos

A API do Pandas no Spark está disponível a partir do Apache Spark 3.2 (que está incluído a partir do Databricks Runtime 10.0 (EoS)) usando a seguinte instrução import:

import pyspark.pandas as ps

Notebook

O Notebook a seguir mostra como migrar de pandas para API de pandas no Spark.

API de pandas para pandas no Spark Notebook

Abra o bloco de anotações em outra guia