Referência do PySpark

Esta página fornece uma visão geral da documentação disponível para PySpark, uma API Python para Spark. Para obter mais informações sobre PySpark, consulte PySpark no Databricks.

Tipos de dados

Para obter uma lista completa dos tipos de dados do PySpark, consulte Tipos de dados do PySpark.

Aulas

DataFrames

Referência	Descrição
Coluna	operações para trabalhar com colunas DataFrame , incluindo transformações e expressões.
DataFrame	Coleção distribuída de dados organizados em colunas nomeadas, semelhante a uma tabela em um banco de dados relacional.
DataFrameNaFunctions	Funcionalidade para trabalhar com dados ausentes em um DataFrame.
Leitor de DataFrame	Interface utilizada para carregar um DataFrame de sistemas de armazenamento externos.
Funções de Estatística do DataFrame	Funcionalidade para funções estatísticas com um DataFrame.
Gravador de DataFrame	Interface utilizada para gravar um DataFrame em sistemas de armazenamento externos.
DataFrameWriterV2	Interface utilizada para gravar um DataFrame em armazenamento externo (versão 2).
Dados agrupados	Métodos para agrupar dados e realizar operações de agregação em DataFrames agrupados.
Linha	Representa uma linha de dados em um DataFrame, fornecendo acesso aos valores de campos individuais.

Fonte de dados personalizada

Referência	Descrição
Origem de dados	APIs para implementar fontes de dados personalizadas para leitura de sistemas externos. Para obter informações sobre fonte de dados personalizada, consulte Fonte de dados personalizadaPySpark.
DataSourceArrowWriter	Uma classe base para escritores de fontes de dados que processam o uso de dados do PyArrow `RecordBatch`.
Registro da fonte de dados	Um wrapper para registro de fonte de dados.
Leitor de fonte de dados	Uma classe base para leitores de fontes de dados.
DataSourceStreamArrowWriter	Uma classe base para gravadores de transmissão de dados que processam uso de dados do PyArrow `RecordBatch`.
DataSourceStreamReader	Uma classe base para leitores de transmissão de fonte de dados.
DataSourceStreamWriter	Uma classe base para escritores de transmissão de dados.
Gravador de fonte de dados	Uma classe base para escritores de fontes de dados responsáveis por salvar dados em uma fonte de dados personalizada no modo lotes.
Partição de entrada	Uma classe base que representa uma partição de entrada retornada pelo método `partitions()` de `DataSourceReader`.
Leitor de fluxo de fonte de dados simples	Uma classe base para leitores simplificados de transmissão fonte de dados que lê dados e planeja o último deslocamento simultaneamente.
Mensagem de confirmação do escritor	Uma mensagem de commit retornada por `DataSourceWriter.write` e enviada de volta ao driver como um parâmetro de entrada de `DataSourceWriter.commit` ou `DataSourceWriter.abort`.

transmissão estructurada

Referência	Descrição
Leitor de fluxo de dados	Interface utilizada para carregar um DataFrame de transmissão a partir de sistemas de armazenamento externos.
Gravador de fluxo de dados	Interface utilizada para gravar um DataFrame de transmissão em sistemas de armazenamento externos.
Processador com estado	gerenciamento estatal através de lotes de transmissão para operações estaduais complexas em transmissão estruturada.
Consulta de streaming	Um identificador para uma consulta que é executada continuamente em segundo plano à medida que novos dados chegam.
Ouvinte de consulta de streaming	Classe abstrata para escutar eventos do ciclo de vida de consultas de transmissão.
Gerenciador de consultas de streaming	gerenciar todas as instâncias `StreamingQuery` ativas associadas a um `SparkSession`.

Funções definidas pelo usuário

Referência	Descrição
Função definida pelo usuário (UDF)	Funções definidas pelo usuário para aplicar lógica Python personalizada às colunas do DataFrame.
Registro UDF	Wrapper para registro de funções definidas pelo usuário. Esta instância pode ser acessada por `spark.udf`.
Função de tabela definida pelo usuário (UDTF)	Funções de tabela definidas pelo usuário que retornam várias linhas para cada linha de entrada.
Registro UDTF	Wrapper para registro de funções de tabela definidas pelo usuário. Esta instância pode ser acessada por `spark.udtf`.

Outras disciplinas básicas

Referência	Descrição
Catálogo	Interface para gerenciamento de bancos de dados, tabelas, funções e outros metadados de catálogo.
Geografia	Uma classe para representar um valor geográfico em Python.
Geometria	Uma classe para representar um valor geométrico em Python.
Observação	Coleta métricas e observa DataFrames durante a execução de consultas para monitoramento e depuração.
Acesso ao gráfico	Acessador para funcionalidade gráfica DataFrame em PySpark.
ProtoBuf	Suporte para serialização e desserialização usando o formato Protocol Buffers.
Configuração de tempo de execução	Opções de configuração Runtime para Spark SQL, incluindo configurações de execução e otimização. Para obter informações sobre configurações disponíveis apenas no Databricks, consulte Definir propriedades de configuração Spark no Databricks.
SparkSession	Ponto de entrada para leitura de dados e execução de consultas SQL em aplicações PySpark.
Valor da variante	Representa dados semiestruturados com esquema flexível, que suporta tipos dinâmicos e estruturas aninhadas.
Janela	Funções de janela para realizar cálculos em um conjunto de linhas de tabela relacionadas à linha atual.
Especificação da janela	Funções de janela para realizar cálculos em um conjunto de linhas de tabela relacionadas à linha atual.

Funções

Para obter uma lista completa das funções integradas disponíveis, consulte FunçõesPySpark.

Tipos de dados​

Aulas​

DataFrames​

Fonte de dados personalizada​

transmissão estructurada​

Funções definidas pelo usuário​

Outras disciplinas básicas​

Funções​