Pular para o conteúdo principal

criarDataFrame

Cria um DataFrame a partir de um RDD, uma lista, um pandas.DataFrame, um numpy.ndarray ou um pyarrow.Table.

Sintaxe

createDataFrame(data, schema=None, samplingRatio=None, verifySchema=True)

Parâmetros

Parâmetro

Tipo

Descrição

data

RDD ou iterável

Um RDD de qualquer tipo de representação de dados SQL (Row, tuple, int, bool, dict, etc.), ou um list, pandas.DataFrame, numpy.ndarray, ou pyarrow.Table.

schema

Tipo de dados: string ou lista (opcional)

Um DataType, um tipo de dados strings ou uma lista de nomes de colunas. Quando uma lista de nomes de colunas é fornecida, o tipo de cada coluna é inferido de data. Quando None, o esquema é inferido de data (requer Row, namedtuple ou dict). Quando um DataType ou strings de tipo de dados são fornecidos, eles devem corresponder aos dados reais.

samplingRatio

flutuar, opcional

A proporção de linhas da amostra usadas para inferência de esquema quando data é um RDD. Se None, as primeiras linhas são usadas.

verifySchema

booleano, opcional

Verificar os tipos de dados de cada linha em relação ao esquema. Ativado por default. Não é compatível com entrada pyarrow.Table ou conversão Pandas com suporte a setas.

Devoluções

DataFrame

Notas

O uso com spark.sql.execution.arrow.pyspark.enabled=True é experimental.

Exemplos

Python
# Create a DataFrame from a list of tuples.
spark.createDataFrame([('Alice', 1)]).show()
# +-----+---+
# | _1| _2|
# +-----+---+
# |Alice| 1|
# +-----+---+

# Create a DataFrame from a list of dictionaries.
spark.createDataFrame([{'name': 'Alice', 'age': 1}]).show()
# +---+-----+
# |age| name|
# +---+-----+
# | 1|Alice|
# +---+-----+

# Create a DataFrame with column names specified.
spark.createDataFrame([('Alice', 1)], ['name', 'age']).show()
# +-----+---+
# | name|age|
# +-----+---+
# |Alice| 1|
# +-----+---+

# Create a DataFrame with an explicit schema.
from pyspark.sql.types import StructType, StructField, StringType, IntegerType
schema = StructType([
StructField("name", StringType(), True),
StructField("age", IntegerType(), True)])
spark.createDataFrame([('Alice', 1)], schema).show()
# +-----+---+
# | name|age|
# +-----+---+
# |Alice| 1|
# +-----+---+

# Create a DataFrame with a DDL-formatted schema string.
spark.createDataFrame([('Alice', 1)], "name: string, age: int").show()
# +-----+---+
# | name|age|
# +-----+---+
# |Alice| 1|
# +-----+---+

# Create an empty DataFrame (schema is required when data is empty).
spark.createDataFrame([], "name: string, age: int").show()
# +----+---+
# |name|age|
# +----+---+
# +----+---+

# Create a DataFrame from Row objects.
from pyspark.sql import Row
Person = Row('name', 'age')
spark.createDataFrame([Person("Alice", 1)]).show()
# +-----+---+
# | name|age|
# +-----+---+
# |Alice| 1|
# +-----+---+