Referência do PySpark

Esta página fornece uma visão geral da documentação disponível para PySpark, uma API Python para Spark. Para obter mais informações sobre PySpark, consulte PySpark no Databricks.

Tipos de dados

Para obter uma lista completa dos tipos de dados do PySpark, consulte Tipos de dados do PySpark.

Aulas

Referência	Descrição
AVRO	Suporte para leitura e gravação de dados no formato Apache Avro.
Catálogo	Interface para gerenciamento de bancos de dados, tabelas, funções e outros metadados de catálogo.
Coluna	operações para trabalhar com colunas DataFrame , incluindo transformações e expressões.
Tipos de dados	Tipos de dados disponíveis no PySpark SQL, incluindo tipos primitivos, tipos complexos e tipos definidos pelo usuário.
DataFrame	Coleção distribuída de dados organizados em colunas nomeadas, semelhante a uma tabela em um banco de dados relacional.
DataFrameNaFunctions	Funcionalidade para trabalhar com dados ausentes em um DataFrame.
Leitor de DataFrame	Interface utilizada para carregar um DataFrame de sistemas de armazenamento externos.
Funções de Estatística do DataFrame	Funcionalidade para funções estatísticas com um DataFrame.
Gravador de DataFrame	Interface utilizada para gravar um DataFrame em sistemas de armazenamento externos.
DataFrameWriterV2	Interface utilizada para gravar um DataFrame em armazenamento externo (versão 2).
Origem de dados	APIs para implementar fontes de dados personalizadas para leitura de sistemas externos. Para obter informações sobre fonte de dados personalizada, consulte Fonte de dados personalizadaPySpark.
DataSourceArrowWriter	Uma classe base para escritores de fontes de dados que processam o uso de dados do PyArrow `RecordBatch`.
Registro da fonte de dados	Um wrapper para registro de fonte de dados.
Leitor de fonte de dados	Uma classe base para leitores de fontes de dados.
DataSourceStreamArrowWriter	Uma classe base para gravadores de transmissão de dados que processam uso de dados do PyArrow `RecordBatch`.
DataSourceStreamReader	Uma classe base para leitores de transmissão de fonte de dados.
DataSourceStreamWriter	Uma classe base para escritores de transmissão de dados.
Dados agrupados	Métodos para agrupar dados e realizar operações de agregação em DataFrames agrupados.
Observação	Coleta métricas e observa DataFrames durante a execução de consultas para monitoramento e depuração.
Acesso ao gráfico	Acessador para funcionalidade gráfica DataFrame em PySpark.
ProtoBuf	Suporte para serialização e desserialização usando o formato Protocol Buffers.
Linha	Representa uma linha de dados em um DataFrame, fornecendo acesso aos valores de campos individuais.
Configuração de tempo de execução	Opções de configuração Runtime para Spark SQL, incluindo configurações de execução e otimização. Para obter informações sobre configurações disponíveis apenas no Databricks, consulte Definir propriedades de configuração Spark no Databricks.
SparkSession	Ponto de entrada para leitura de dados e execução de consultas SQL em aplicações PySpark.
Processador com estado	gerenciamento estatal através de lotes de transmissão para operações estaduais complexas em transmissão estruturada.
Função definida pelo usuário (UDF)	Funções definidas pelo usuário para aplicar lógica Python personalizada às colunas do DataFrame.
Registro UDF	Wrapper para registro de funções definidas pelo usuário. Esta instância pode ser acessada por `spark.udf`.
Função de tabela definida pelo usuário (UDTF)	Funções de tabela definidas pelo usuário que retornam várias linhas para cada linha de entrada.
Registro UDTF	Wrapper para registro de funções de tabela definidas pelo usuário. Esta instância pode ser acessada por `spark.udtf`.
Valor da variante	Representa dados semiestruturados com esquema flexível, que suporta tipos dinâmicos e estruturas aninhadas.
Janela	Funções de janela para realizar cálculos em um conjunto de linhas de tabela relacionadas à linha atual.
Especificação da janela	Funções de janela para realizar cálculos em um conjunto de linhas de tabela relacionadas à linha atual.

Funções

Para obter uma lista completa das funções integradas disponíveis, consulte FunçõesPySpark.

Tipos de dados​

Aulas​

Funções​

Tipos de dados

Aulas

Funções