Referência do PySpark
Esta página fornece uma visão geral da documentação disponível para PySpark, uma API Python para Spark. Para obter mais informações sobre PySpark, consulte PySpark no Databricks.
Referência | Descrição |
|---|---|
Classes principais para trabalhar com PySpark SQL, incluindo os fundamentos de SparkSession e DataFrame. | |
Ponto de entrada para leitura de dados e execução de consultas SQL em aplicações PySpark. | |
Opções de configuração Runtime para Spark SQL, incluindo configurações de execução e otimização. Para obter informações sobre configurações disponíveis apenas no Databricks, consulte Definir propriedades de configuração Spark no Databricks. | |
Coleção distribuída de dados organizados em colunas nomeadas, semelhante a uma tabela em um banco de dados relacional. | |
Métodos para leitura e gravação de dados em diversos formatos de arquivo e fontes de dados. | |
operações para trabalhar com colunas DataFrame , incluindo transformações e expressões. | |
Tipos de dados disponíveis no PySpark SQL, incluindo tipos primitivos, tipos complexos e tipos definidos pelo usuário. | |
Representa uma linha de dados em um DataFrame, fornecendo acesso aos valores de campos individuais. | |
funções integradas para manipulação de dados, transformações e operações de agregação. | |
Funções de janela para realizar cálculos em um conjunto de linhas de tabela relacionadas à linha atual. | |
Métodos para agrupar dados e realizar operações de agregação em DataFrames agrupados. | |
Interface para gerenciamento de bancos de dados, tabelas, funções e outros metadados de catálogo. | |
Suporte para leitura e gravação de dados no formato Apache Avro. | |
Coleta métricas e observa DataFrames durante a execução de consultas para monitoramento e depuração. | |
Funções definidas pelo usuário para aplicar lógica Python personalizada às colunas do DataFrame. | |
Funções de tabela definidas pelo usuário que retornam várias linhas para cada linha de entrada. | |
Lida com dados semiestruturados com esquemas flexíveis, suportando tipos dinâmicos e estruturas aninhadas. | |
Suporte para serialização e desserialização usando o formato Protocol Buffers. | |
APIs para implementar fontes de dados personalizadas para leitura de sistemas externos. Para obter informações sobre fonte de dados personalizada, consulte Fonte de dados personalizadaPySpark. | |
gerenciamento estatal através de lotes de transmissão para operações estaduais complexas em transmissão estruturada. |