SparkSession
Ponto de partida para programação Spark com a API de conjuntos de dados e DataFrame . Uma SparkSession pode ser usada para criar DataFrames, registrar DataFrames como tabelas, executar SQL em tabelas, armazenar tabelas em cache e read.parquet arquivos .parquet.
Sintaxe
from pyspark.sql import SparkSession
spark = SparkSession.builder.getOrCreate()
Propriedades
Propriedade | Descrição |
|---|---|
A versão do Spark na qual este aplicativo está sendo executado. | |
Interface de configuração Runtime para Spark. | |
Interface através da qual o usuário pode criar, excluir, alterar ou consultar bancos de dados, tabelas, funções, etc. subjacentes. | |
Retorna um UDFRegistration para registro de UDF. | |
Retorna um UDTFRegistration para registro de UDTF. | |
Retorna um DataSourceRegistration para registro da fonte de dados. | |
Retorna um perfil para análise de desempenho/memória. | |
Retorna o SparkContext subjacente. Somente no modo clássico. | |
Retorna um DataFrameReader que pode ser usado para ler dados como um DataFrame. | |
Retorna um DataStreamReader que pode ser usado para ler dados transmitidos como um DataFrame de transmissão. | |
Retorna um StreamingQueryManager que permite gerenciar todas as consultas de transmissão ativas. | |
Retorna uma TableValuedFunction para chamar funções com valor de tabela (TVFs). |
Métodos
Método | Descrição |
|---|---|
Cria um DataFrame a partir de um RDD, uma lista, um DataFrame Pandas , um ndarray do NumPy ou uma tabela do Pyarrow. | |
Retorna um DataFrame representando o resultado da consulta fornecida. | |
Retorna a tabela especificada como um DataFrame. | |
Cria um DataFrame com uma única coluna do tipo LongType chamada | |
Retorna uma nova SparkSession com SQLConf separado, visualização temporária registrada e UDFs, mas com SparkContext e cache de tabela compartilhados. Somente no modo clássico. | |
Retorna a SparkSession ativa para a thread atual. | |
Retorna a SparkSession ativa ou default para a thread atual. | |
Interrompe o SparkContext subjacente. | |
Adiciona artefatos à sessão do cliente. | |
Interrompe todas as operações desta sessão que estão sendo executadas no servidor. | |
Interrompe todas as operações desta sessão com a tag especificada. | |
Interrompe uma operação desta sessão com o operationId fornecido. | |
Adiciona uma tag a ser atribuída a todas as operações iniciadas por esta thread nesta sessão. | |
Remove a tag adicionada anteriormente para operações iniciadas por esta thread. | |
Obtém as tags atualmente definidas para serem atribuídas a todas as operações iniciadas por esta thread. | |
Limpa tags de operações da thread atual. |
Construtor
Método | Descrição |
|---|---|
| Define uma opção de configuração. As opções são propagadas automaticamente tanto para a configuração do SparkConf quanto para a configuração própria do SparkSession. |
| Define a URL do servidor mestre Spark ao qual se conectar. |
| Define o URL remoto do Spark para conexão via Spark Connect. |
| Define um nome para a aplicação, que será exibido na interface web do Spark. |
| Habilita o suporte Hive , incluindo a conectividade com um Hive metastore. |
| Obtém uma SparkSession existente ou, se não houver nenhuma, cria uma nova com base nas opções definidas neste construtor. |
| Cria uma nova SparkSession. |
Exemplos
spark = (
SparkSession.builder
.master("local")
.appName("Word Count")
.config("spark.some.config.option", "some-value")
.getOrCreate()
)
spark.sql("SELECT * FROM range(10) where id > 7").show()
+---+
| id|
+---+
| 8|
| 9|
+---+
spark.createDataFrame([('Alice', 1)], ['name', 'age']).show()
+-----+---+
| name|age|
+-----+---+
|Alice| 1|
+-----+---+
spark.range(1, 7, 2).show()
+---+
| id|
+---+
| 1|
| 3|
| 5|
+---+