Pular para o conteúdo principal

Referência do PySpark

Esta página fornece uma visão geral da documentação disponível para PySpark, uma API Python para Spark. Para obter mais informações sobre PySpark, consulte PySpark no Databricks.

Referência

Descrição

Aulas principais

Classes principais para trabalhar com PySpark SQL, incluindo os fundamentos de SparkSession e DataFrame.

Sessão Spark

Ponto de entrada para leitura de dados e execução de consultas SQL em aplicações PySpark.

Configuração

Opções de configuração Runtime para Spark SQL, incluindo configurações de execução e otimização.

Para obter informações sobre configurações disponíveis apenas no Databricks, consulte Definir propriedades de configuração Spark no Databricks.

DataFrame

Coleção distribuída de dados organizados em colunas nomeadas, semelhante a uma tabela em um banco de dados relacional.

Entrada/Saída

Métodos para leitura e gravação de dados em diversos formatos de arquivo e fontes de dados.

Coluna

operações para trabalhar com colunas DataFrame , incluindo transformações e expressões.

Tipos de dados

Tipos de dados disponíveis no PySpark SQL, incluindo tipos primitivos, tipos complexos e tipos definidos pelo usuário.

Linha

Representa uma linha de dados em um DataFrame, fornecendo acesso aos valores de campos individuais.

Funções.

funções integradas para manipulação de dados, transformações e operações de agregação.

Janela

Funções de janela para realizar cálculos em um conjunto de linhas de tabela relacionadas à linha atual.

Agrupamento

Métodos para agrupar dados e realizar operações de agregação em DataFrames agrupados.

Catálogo

Interface para gerenciamento de bancos de dados, tabelas, funções e outros metadados de catálogo.

AVRO

Suporte para leitura e gravação de dados no formato Apache Avro.

Observação

Coleta métricas e observa DataFrames durante a execução de consultas para monitoramento e depuração.

UDF

Funções definidas pelo usuário para aplicar lógica Python personalizada às colunas do DataFrame.

UDTF

Funções de tabela definidas pelo usuário que retornam várias linhas para cada linha de entrada.

Valor da variante

Lida com dados semiestruturados com esquemas flexíveis, suportando tipos dinâmicos e estruturas aninhadas.

ProtoBuf

Suporte para serialização e desserialização usando o formato Protocol Buffers.

Fonte de dados Python

APIs para implementar fontes de dados personalizadas para leitura de sistemas externos. Para obter informações sobre fonte de dados personalizada, consulte Fonte de dados personalizadaPySpark.

Processador com estado

gerenciamento estatal através de lotes de transmissão para operações estaduais complexas em transmissão estruturada.