Referência do PySpark
Esta página fornece uma visão geral da documentação disponível para PySpark, uma API Python para Spark. Para obter mais informações sobre PySpark, consulte PySpark no Databricks.
Tipos de dados
Para obter uma lista completa dos tipos de dados do PySpark, consulte Tipos de dados do PySpark.
Aulas
DataFrames
Referência | Descrição |
|---|---|
operações para trabalhar com colunas DataFrame , incluindo transformações e expressões. | |
Coleção distribuída de dados organizados em colunas nomeadas, semelhante a uma tabela em um banco de dados relacional. | |
Funcionalidade para trabalhar com dados ausentes em um DataFrame. | |
Interface utilizada para carregar um DataFrame de sistemas de armazenamento externos. | |
Funcionalidade para funções estatísticas com um DataFrame. | |
Interface utilizada para gravar um DataFrame em sistemas de armazenamento externos. | |
Interface utilizada para gravar um DataFrame em armazenamento externo (versão 2). | |
Métodos para agrupar dados e realizar operações de agregação em DataFrames agrupados. | |
Representa uma linha de dados em um DataFrame, fornecendo acesso aos valores de campos individuais. |
Fonte de dados personalizada
Referência | Descrição |
|---|---|
APIs para implementar fontes de dados personalizadas para leitura de sistemas externos. Para obter informações sobre fonte de dados personalizada, consulte Fonte de dados personalizadaPySpark. | |
Uma classe base para escritores de fontes de dados que processam o uso de dados do PyArrow | |
Um wrapper para registro de fonte de dados. | |
Uma classe base para leitores de fontes de dados. | |
Uma classe base para gravadores de transmissão de dados que processam uso de dados do PyArrow | |
Uma classe base para leitores de transmissão de fonte de dados. | |
Uma classe base para escritores de transmissão de dados. | |
Uma classe base para escritores de fontes de dados responsáveis por salvar dados em uma fonte de dados personalizada no modo lotes. | |
Uma classe base que representa uma partição de entrada retornada pelo método | |
Uma classe base para leitores simplificados de transmissão fonte de dados que lê dados e planeja o último deslocamento simultaneamente. | |
Uma mensagem de commit retornada por |
transmissão estructurada
Referência | Descrição |
|---|---|
Interface utilizada para carregar um DataFrame de transmissão a partir de sistemas de armazenamento externos. | |
Interface utilizada para gravar um DataFrame de transmissão em sistemas de armazenamento externos. | |
gerenciamento estatal através de lotes de transmissão para operações estaduais complexas em transmissão estruturada. | |
Um identificador para uma consulta que é executada continuamente em segundo plano à medida que novos dados chegam. | |
Classe abstrata para escutar eventos do ciclo de vida de consultas de transmissão. | |
gerenciar todas as instâncias |
Funções definidas pelo usuário
Referência | Descrição |
|---|---|
Funções definidas pelo usuário para aplicar lógica Python personalizada às colunas do DataFrame. | |
Wrapper para registro de funções definidas pelo usuário. Esta instância pode ser acessada por | |
Funções de tabela definidas pelo usuário que retornam várias linhas para cada linha de entrada. | |
Wrapper para registro de funções de tabela definidas pelo usuário. Esta instância pode ser acessada por |
Outras disciplinas básicas
Referência | Descrição |
|---|---|
Interface para gerenciamento de bancos de dados, tabelas, funções e outros metadados de catálogo. | |
Uma classe para representar um valor geográfico em Python. | |
Uma classe para representar um valor geométrico em Python. | |
Coleta métricas e observa DataFrames durante a execução de consultas para monitoramento e depuração. | |
Acessador para funcionalidade gráfica DataFrame em PySpark. | |
Suporte para serialização e desserialização usando o formato Protocol Buffers. | |
Opções de configuração Runtime para Spark SQL, incluindo configurações de execução e otimização. Para obter informações sobre configurações disponíveis apenas no Databricks, consulte Definir propriedades de configuração Spark no Databricks. | |
Ponto de entrada para leitura de dados e execução de consultas SQL em aplicações PySpark. | |
Representa dados semiestruturados com esquema flexível, que suporta tipos dinâmicos e estruturas aninhadas. | |
Funções de janela para realizar cálculos em um conjunto de linhas de tabela relacionadas à linha atual. | |
Funções de janela para realizar cálculos em um conjunto de linhas de tabela relacionadas à linha atual. |
Funções
Para obter uma lista completa das funções integradas disponíveis, consulte FunçõesPySpark.