Referência do PySpark
Esta página fornece uma visão geral da documentação disponível para PySpark, uma API Python para Spark. Para obter mais informações sobre PySpark, consulte PySpark no Databricks.
Tipos de dados
Para obter uma lista completa dos tipos de dados do PySpark, consulte Tipos de dados do PySpark.
Aulas
Referência | Descrição |
|---|---|
Suporte para leitura e gravação de dados no formato Apache Avro. | |
Interface para gerenciamento de bancos de dados, tabelas, funções e outros metadados de catálogo. | |
operações para trabalhar com colunas DataFrame , incluindo transformações e expressões. | |
Tipos de dados disponíveis no PySpark SQL, incluindo tipos primitivos, tipos complexos e tipos definidos pelo usuário. | |
Coleção distribuída de dados organizados em colunas nomeadas, semelhante a uma tabela em um banco de dados relacional. | |
Funcionalidade para trabalhar com dados ausentes em um DataFrame. | |
Interface utilizada para carregar um DataFrame de sistemas de armazenamento externos. | |
Funcionalidade para funções estatísticas com um DataFrame. | |
Interface utilizada para gravar um DataFrame em sistemas de armazenamento externos. | |
Interface utilizada para gravar um DataFrame em armazenamento externo (versão 2). | |
APIs para implementar fontes de dados personalizadas para leitura de sistemas externos. Para obter informações sobre fonte de dados personalizada, consulte Fonte de dados personalizadaPySpark. | |
Uma classe base para escritores de fontes de dados que processam o uso de dados do PyArrow | |
Um wrapper para registro de fonte de dados. | |
Uma classe base para leitores de fontes de dados. | |
Uma classe base para gravadores de transmissão de dados que processam uso de dados do PyArrow | |
Uma classe base para leitores de transmissão de fonte de dados. | |
Uma classe base para escritores de transmissão de dados. | |
Métodos para agrupar dados e realizar operações de agregação em DataFrames agrupados. | |
Coleta métricas e observa DataFrames durante a execução de consultas para monitoramento e depuração. | |
Acessador para funcionalidade gráfica DataFrame em PySpark. | |
Suporte para serialização e desserialização usando o formato Protocol Buffers. | |
Representa uma linha de dados em um DataFrame, fornecendo acesso aos valores de campos individuais. | |
Opções de configuração Runtime para Spark SQL, incluindo configurações de execução e otimização. Para obter informações sobre configurações disponíveis apenas no Databricks, consulte Definir propriedades de configuração Spark no Databricks. | |
Ponto de entrada para leitura de dados e execução de consultas SQL em aplicações PySpark. | |
gerenciamento estatal através de lotes de transmissão para operações estaduais complexas em transmissão estruturada. | |
Funções definidas pelo usuário para aplicar lógica Python personalizada às colunas do DataFrame. | |
Wrapper para registro de funções definidas pelo usuário. Esta instância pode ser acessada por | |
Funções de tabela definidas pelo usuário que retornam várias linhas para cada linha de entrada. | |
Wrapper para registro de funções de tabela definidas pelo usuário. Esta instância pode ser acessada por | |
Representa dados semiestruturados com esquema flexível, que suporta tipos dinâmicos e estruturas aninhadas. | |
Funções de janela para realizar cálculos em um conjunto de linhas de tabela relacionadas à linha atual. | |
Funções de janela para realizar cálculos em um conjunto de linhas de tabela relacionadas à linha atual. |
Funções
Para obter uma lista completa das funções integradas disponíveis, consulte FunçõesPySpark.