Koalas
Essa documentação foi descontinuada e pode não estar atualizada. O produto, serviço ou tecnologia mencionados neste conteúdo não são mais suportados. Consulte API do Pandas no Spark.
O Koalas está obsoleto. Se o senhor tentar usar Koalas em um cluster que executa Databricks Runtime 10.0 (EoS) e acima, será exibida uma mensagem informativa, recomendando o uso de Pandas API em Spark.
Koalas fornece um substituto imediato para o Pandas. Comumente usado por data scientists, Pandas é um pacote Python que fornece estruturas de dados fáceis de usar e ferramentas de análise de dados para a linguagem de programação Python. No entanto, Pandas não escala para big data. Koalas Preenche essa lacuna fornecendo Pandas equivalente a APIs que funciona em Apache Spark. Koalas é útil não apenas para os usuários do Pandas, mas também para os do PySpark, porque o Koalas suporta muitas tarefas que são difíceis de fazer com o PySpark, por exemplo, graficar dados diretamente de um PySpark DataFrame.
Requisitos
- Koalas está incluído no clustering que executa Databricks Runtime 7.3 a 9.1. Para clustering executando Databricks Runtime 10.0 e acima, use Pandas API em Spark.
- Para usar Koalas o em um clustering que esteja executando o Databricks Runtime 7.0 ou abaixo, instale Koalas o como uma Databricks PyPIbiblioteca.
- Para usar o Koalas em um IDE, servidor de notebook ou outros aplicativos personalizados que se conectam a um cluster Databricks, instale o Databricks Connect e siga as instruções de instalação doKoalas.
Notebook
O Notebook a seguir mostra como migrar de Pandas para Koalas.