Pular para o conteúdo principal

API do Pandas no Spark

nota

Este recurso está disponível no clustering que executa Databricks Runtime 10.0 (EoS) e acima. Para clustering que executa Databricks Runtime 9.1 LTS e abaixo, use Koalas em vez disso.

Comumente usado por data scientists, Pandas é um pacote Python que fornece estruturas de dados fáceis de usar e ferramentas de análise de dados para a linguagem de programação Python. No entanto, Pandas não escala para big data. Pandas API em Spark preenche essa lacuna fornecendo Pandas equivalente a APIs que funciona em Apache Spark. Pandas API O Spark é útil não apenas para os usuários do Pandas, mas também para os usuários do PySpark, porque o Pandas API no Spark suporta muitas tarefas que são difíceis de fazer com o PySpark, por exemplo, graficar dados diretamente de um PySpark DataFrame.

Requisitos

A API do Pandas no Spark está disponível a partir do Apache Spark 3.2 (que está incluído a partir do Databricks Runtime 10.0 (EoS)) usando a seguinte instrução import:

Python
import pyspark.pandas as ps

Notebook

O Notebook a seguir mostra como migrar de Pandas para Pandas API em Spark.

Pandas para Pandas API em Spark Notebook

Open notebook in new tab

recurso