criarDataFrame

Cria um DataFrame a partir de um RDD, uma lista, um pandas.DataFrame, um numpy.ndarray ou um pyarrow.Table.

Sintaxe

createDataFrame(data, schema=None, samplingRatio=None, verifySchema=True)

Parâmetros

Parâmetro	Tipo	Descrição
`data`	RDD ou iterável	Um RDD de qualquer tipo de representação de dados SQL (`Row`, `tuple`, `int`, `bool`, `dict`, etc.), ou um `list`, `pandas.DataFrame`, `numpy.ndarray`, ou `pyarrow.Table`.
`schema`	Tipo de dados: string ou lista (opcional)	Um `DataType`, um tipo de dados strings ou uma lista de nomes de colunas. Quando uma lista de nomes de colunas é fornecida, o tipo de cada coluna é inferido de `data`. Quando `None`, o esquema é inferido de `data` (requer `Row`, `namedtuple` ou `dict`). Quando um `DataType` ou strings de tipo de dados são fornecidos, eles devem corresponder aos dados reais.
`samplingRatio`	flutuar, opcional	A proporção de linhas da amostra usadas para inferência de esquema quando `data` é um `RDD`. Se `None`, as primeiras linhas são usadas.
`verifySchema`	booleano, opcional	Verificar os tipos de dados de cada linha em relação ao esquema. Ativado por default. Não é compatível com entrada `pyarrow.Table` ou conversão Pandas com suporte a setas.

Parâmetro	Tipo	Descrição
`data`	RDD ou iterável	Um RDD de qualquer tipo de representação de dados SQL (`Row`, `tuple`, `int`, `bool`, `dict`, etc.), ou um `list`, `pandas.DataFrame`, `numpy.ndarray`, ou `pyarrow.Table`.
`schema`	Tipo de dados: string ou lista (opcional)	Um `DataType`, um tipo de dados strings ou uma lista de nomes de colunas. Quando uma lista de nomes de colunas é fornecida, o tipo de cada coluna é inferido de `data`. Quando `None`, o esquema é inferido de `data` (requer `Row`, `namedtuple` ou `dict`). Quando um `DataType` ou strings de tipo de dados são fornecidos, eles devem corresponder aos dados reais.
`samplingRatio`	flutuar, opcional	A proporção de linhas da amostra usadas para inferência de esquema quando `data` é um `RDD`. Se `None`, as primeiras linhas são usadas.
`verifySchema`	booleano, opcional	Verificar os tipos de dados de cada linha em relação ao esquema. Ativado por default. Não é compatível com entrada `pyarrow.Table` ou conversão Pandas com suporte a setas.

Devoluções

DataFrame

Notas

O uso com spark.sql.execution.arrow.pyspark.enabled=True é experimental.

Exemplos

Python
# Create a DataFrame from a list of tuples.
spark.createDataFrame([('Alice', 1)]).show()
# +-----+---+
# |   _1| _2|
# +-----+---+
# |Alice|  1|
# +-----+---+

# Create a DataFrame from a list of dictionaries.
spark.createDataFrame([{'name': 'Alice', 'age': 1}]).show()
# +---+-----+
# |age| name|
# +---+-----+
# |  1|Alice|
# +---+-----+

# Create a DataFrame with column names specified.
spark.createDataFrame([('Alice', 1)], ['name', 'age']).show()
# +-----+---+
# | name|age|
# +-----+---+
# |Alice|  1|
# +-----+---+

# Create a DataFrame with an explicit schema.
from pyspark.sql.types import StructType, StructField, StringType, IntegerType
schema = StructType([
    StructField("name", StringType(), True),
    StructField("age", IntegerType(), True)])
spark.createDataFrame([('Alice', 1)], schema).show()
# +-----+---+
# | name|age|
# +-----+---+
# |Alice|  1|
# +-----+---+

# Create a DataFrame with a DDL-formatted schema string.
spark.createDataFrame([('Alice', 1)], "name: string, age: int").show()
# +-----+---+
# | name|age|
# +-----+---+
# |Alice|  1|
# +-----+---+

# Create an empty DataFrame (schema is required when data is empty).
spark.createDataFrame([], "name: string, age: int").show()
# +----+---+
# |name|age|
# +----+---+
# +----+---+

# Create a DataFrame from Row objects.
from pyspark.sql import Row
Person = Row('name', 'age')
spark.createDataFrame([Person("Alice", 1)]).show()
# +-----+---+
# | name|age|
# +-----+---+
# |Alice|  1|
# +-----+---+

Sintaxe​

Parâmetros​

Devoluções​

Notas​

Exemplos​

Sintaxe

Parâmetros

Devoluções

Notas

Exemplos