Pular para o conteúdo principal

Referência do PySpark

Esta página fornece uma visão geral da documentação disponível para PySpark, uma API Python para Spark. Para obter mais informações sobre PySpark, consulte PySpark no Databricks.

Tipos de dados

Para obter uma lista completa dos tipos de dados do PySpark, consulte Tipos de dados do PySpark.

Aulas

DataFrames

Referência

Descrição

Coluna

operações para trabalhar com colunas DataFrame , incluindo transformações e expressões.

DataFrame

Coleção distribuída de dados organizados em colunas nomeadas, semelhante a uma tabela em um banco de dados relacional.

DataFrameNaFunctions

Funcionalidade para trabalhar com dados ausentes em um DataFrame.

Leitor de DataFrame

Interface utilizada para carregar um DataFrame de sistemas de armazenamento externos.

Funções de Estatística do DataFrame

Funcionalidade para funções estatísticas com um DataFrame.

Gravador de DataFrame

Interface utilizada para gravar um DataFrame em sistemas de armazenamento externos.

DataFrameWriterV2

Interface utilizada para gravar um DataFrame em armazenamento externo (versão 2).

Dados agrupados

Métodos para agrupar dados e realizar operações de agregação em DataFrames agrupados.

Linha

Representa uma linha de dados em um DataFrame, fornecendo acesso aos valores de campos individuais.

Fonte de dados personalizada

Referência

Descrição

Origem de dados

APIs para implementar fontes de dados personalizadas para leitura de sistemas externos. Para obter informações sobre fonte de dados personalizada, consulte Fonte de dados personalizadaPySpark.

DataSourceArrowWriter

Uma classe base para escritores de fontes de dados que processam o uso de dados do PyArrow RecordBatch.

Registro da fonte de dados

Um wrapper para registro de fonte de dados.

Leitor de fonte de dados

Uma classe base para leitores de fontes de dados.

DataSourceStreamArrowWriter

Uma classe base para gravadores de transmissão de dados que processam uso de dados do PyArrow RecordBatch.

DataSourceStreamReader

Uma classe base para leitores de transmissão de fonte de dados.

DataSourceStreamWriter

Uma classe base para escritores de transmissão de dados.

Gravador de fonte de dados

Uma classe base para escritores de fontes de dados responsáveis por salvar dados em uma fonte de dados personalizada no modo lotes.

Partição de entrada

Uma classe base que representa uma partição de entrada retornada pelo método partitions() de DataSourceReader.

Leitor de fluxo de fonte de dados simples

Uma classe base para leitores simplificados de transmissão fonte de dados que lê dados e planeja o último deslocamento simultaneamente.

Mensagem de confirmação do escritor

Uma mensagem de commit retornada por DataSourceWriter.write e enviada de volta ao driver como um parâmetro de entrada de DataSourceWriter.commit ou DataSourceWriter.abort.

transmissão estructurada

Referência

Descrição

Leitor de fluxo de dados

Interface utilizada para carregar um DataFrame de transmissão a partir de sistemas de armazenamento externos.

Gravador de fluxo de dados

Interface utilizada para gravar um DataFrame de transmissão em sistemas de armazenamento externos.

Processador com estado

gerenciamento estatal através de lotes de transmissão para operações estaduais complexas em transmissão estruturada.

Consulta de streaming

Um identificador para uma consulta que é executada continuamente em segundo plano à medida que novos dados chegam.

Ouvinte de consulta de streaming

Classe abstrata para escutar eventos do ciclo de vida de consultas de transmissão.

Gerenciador de consultas de streaming

gerenciar todas as instâncias StreamingQuery ativas associadas a um SparkSession.

Funções definidas pelo usuário

Referência

Descrição

Função definida pelo usuário (UDF)

Funções definidas pelo usuário para aplicar lógica Python personalizada às colunas do DataFrame.

Registro UDF

Wrapper para registro de funções definidas pelo usuário. Esta instância pode ser acessada por spark.udf.

Função de tabela definida pelo usuário (UDTF)

Funções de tabela definidas pelo usuário que retornam várias linhas para cada linha de entrada.

Registro UDTF

Wrapper para registro de funções de tabela definidas pelo usuário. Esta instância pode ser acessada por spark.udtf.

Outras disciplinas básicas

Referência

Descrição

Catálogo

Interface para gerenciamento de bancos de dados, tabelas, funções e outros metadados de catálogo.

Geografia

Uma classe para representar um valor geográfico em Python.

Geometria

Uma classe para representar um valor geométrico em Python.

Observação

Coleta métricas e observa DataFrames durante a execução de consultas para monitoramento e depuração.

Acesso ao gráfico

Acessador para funcionalidade gráfica DataFrame em PySpark.

ProtoBuf

Suporte para serialização e desserialização usando o formato Protocol Buffers.

Configuração de tempo de execução

Opções de configuração Runtime para Spark SQL, incluindo configurações de execução e otimização.

Para obter informações sobre configurações disponíveis apenas no Databricks, consulte Definir propriedades de configuração Spark no Databricks.

SparkSession

Ponto de entrada para leitura de dados e execução de consultas SQL em aplicações PySpark.

Valor da variante

Representa dados semiestruturados com esquema flexível, que suporta tipos dinâmicos e estruturas aninhadas.

Janela

Funções de janela para realizar cálculos em um conjunto de linhas de tabela relacionadas à linha atual.

Especificação da janela

Funções de janela para realizar cálculos em um conjunto de linhas de tabela relacionadas à linha atual.

Funções

Para obter uma lista completa das funções integradas disponíveis, consulte FunçõesPySpark.