Pular para o conteúdo principal

Referência do PySpark

Esta página fornece uma visão geral da documentação disponível para PySpark, uma API Python para Spark. Para obter mais informações sobre PySpark, consulte PySpark no Databricks.

Tipos de dados

Para obter uma lista completa dos tipos de dados do PySpark, consulte Tipos de dados do PySpark.

Aulas

Referência

Descrição

AVRO

Suporte para leitura e gravação de dados no formato Apache Avro.

Catálogo

Interface para gerenciamento de bancos de dados, tabelas, funções e outros metadados de catálogo.

Coluna

operações para trabalhar com colunas DataFrame , incluindo transformações e expressões.

Tipos de dados

Tipos de dados disponíveis no PySpark SQL, incluindo tipos primitivos, tipos complexos e tipos definidos pelo usuário.

DataFrame

Coleção distribuída de dados organizados em colunas nomeadas, semelhante a uma tabela em um banco de dados relacional.

DataFrameNaFunctions

Funcionalidade para trabalhar com dados ausentes em um DataFrame.

Leitor de DataFrame

Interface utilizada para carregar um DataFrame de sistemas de armazenamento externos.

Funções de Estatística do DataFrame

Funcionalidade para funções estatísticas com um DataFrame.

Gravador de DataFrame

Interface utilizada para gravar um DataFrame em sistemas de armazenamento externos.

DataFrameWriterV2

Interface utilizada para gravar um DataFrame em armazenamento externo (versão 2).

Origem de dados

APIs para implementar fontes de dados personalizadas para leitura de sistemas externos. Para obter informações sobre fonte de dados personalizada, consulte Fonte de dados personalizadaPySpark.

DataSourceArrowWriter

Uma classe base para escritores de fontes de dados que processam o uso de dados do PyArrow RecordBatch.

Registro da fonte de dados

Um wrapper para registro de fonte de dados.

Leitor de fonte de dados

Uma classe base para leitores de fontes de dados.

DataSourceStreamArrowWriter

Uma classe base para gravadores de transmissão de dados que processam uso de dados do PyArrow RecordBatch.

DataSourceStreamReader

Uma classe base para leitores de transmissão de fonte de dados.

DataSourceStreamWriter

Uma classe base para escritores de transmissão de dados.

Dados agrupados

Métodos para agrupar dados e realizar operações de agregação em DataFrames agrupados.

Observação

Coleta métricas e observa DataFrames durante a execução de consultas para monitoramento e depuração.

Acesso ao gráfico

Acessador para funcionalidade gráfica DataFrame em PySpark.

ProtoBuf

Suporte para serialização e desserialização usando o formato Protocol Buffers.

Linha

Representa uma linha de dados em um DataFrame, fornecendo acesso aos valores de campos individuais.

Configuração de tempo de execução

Opções de configuração Runtime para Spark SQL, incluindo configurações de execução e otimização.

Para obter informações sobre configurações disponíveis apenas no Databricks, consulte Definir propriedades de configuração Spark no Databricks.

SparkSession

Ponto de entrada para leitura de dados e execução de consultas SQL em aplicações PySpark.

Processador com estado

gerenciamento estatal através de lotes de transmissão para operações estaduais complexas em transmissão estruturada.

Função definida pelo usuário (UDF)

Funções definidas pelo usuário para aplicar lógica Python personalizada às colunas do DataFrame.

Registro UDF

Wrapper para registro de funções definidas pelo usuário. Esta instância pode ser acessada por spark.udf.

Função de tabela definida pelo usuário (UDTF)

Funções de tabela definidas pelo usuário que retornam várias linhas para cada linha de entrada.

Registro UDTF

Wrapper para registro de funções de tabela definidas pelo usuário. Esta instância pode ser acessada por spark.udtf.

Valor da variante

Representa dados semiestruturados com esquema flexível, que suporta tipos dinâmicos e estruturas aninhadas.

Janela

Funções de janela para realizar cálculos em um conjunto de linhas de tabela relacionadas à linha atual.

Especificação da janela

Funções de janela para realizar cálculos em um conjunto de linhas de tabela relacionadas à linha atual.

Funções

Para obter uma lista completa das funções integradas disponíveis, consulte FunçõesPySpark.