createDataFrame

RDD 、リスト、 pandas.DataFrame 、 numpy.ndarray 、またはpyarrow.TableからDataFrameを作成します。

構文

createDataFrame(data, schema=None, samplingRatio=None, verifySchema=True)

パラメーター

パラメーター	Type	説明
`data`	RDDまたはイテラブル	任意の種類の SQL データ表現 ( `Row` 、 `tuple` 、 `int` 、 `bool` 、 `dict`など) の RDD、または`list` 、 `pandas.DataFrame` 、 `numpy.ndarray` 、 `pyarrow.Table` 。
`schema`	データ型（文字列またはリスト、省略可能）	`DataType` 、データ型文字列、または列名のリスト。列名のリストが指定されている場合、各列の型は`data`から推測されます。`None`の場合、スキーマは`data`から推論されます ( `Row` 、 `namedtuple` 、または`dict`が必要です)。`DataType`またはデータ型文字列が指定された場合、それは実際のデータと一致していなければなりません。
`samplingRatio`	float、オプション	`data`が`RDD`の場合の、スキーマ推論に使用される行のサンプル比率。`None`の場合、最初の数行が使用されます。
`verifySchema`	ブール値、オプション	各行のデータ型をスキーマと照合して確認してください。デフォルトで有効になっています。`pyarrow.Table`入力または Arrow 対応のPandas変換ではサポートされていません。

パラメーター	Type	説明
`data`	RDDまたはイテラブル	任意の種類の SQL データ表現 ( `Row` 、 `tuple` 、 `int` 、 `bool` 、 `dict`など) の RDD、または`list` 、 `pandas.DataFrame` 、 `numpy.ndarray` 、 `pyarrow.Table` 。
`schema`	データ型（文字列またはリスト、省略可能）	`DataType` 、データ型文字列、または列名のリスト。列名のリストが指定されている場合、各列の型は`data`から推測されます。`None`の場合、スキーマは`data`から推論されます ( `Row` 、 `namedtuple` 、または`dict`が必要です)。`DataType`またはデータ型文字列が指定された場合、それは実際のデータと一致していなければなりません。
`samplingRatio`	float、オプション	`data`が`RDD`の場合の、スキーマ推論に使用される行のサンプル比率。`None`の場合、最初の数行が使用されます。
`verifySchema`	ブール値、オプション	各行のデータ型をスキーマと照合して確認してください。デフォルトで有効になっています。`pyarrow.Table`入力または Arrow 対応のPandas変換ではサポートされていません。

戻り値

DataFrame

注意

spark.sql.execution.arrow.pyspark.enabled=Trueとの組み合わせは実験的な機能です。

例

Python
# Create a DataFrame from a list of tuples.
spark.createDataFrame([('Alice', 1)]).show()
# +-----+---+
# |   _1| _2|
# +-----+---+
# |Alice|  1|
# +-----+---+

# Create a DataFrame from a list of dictionaries.
spark.createDataFrame([{'name': 'Alice', 'age': 1}]).show()
# +---+-----+
# |age| name|
# +---+-----+
# |  1|Alice|
# +---+-----+

# Create a DataFrame with column names specified.
spark.createDataFrame([('Alice', 1)], ['name', 'age']).show()
# +-----+---+
# | name|age|
# +-----+---+
# |Alice|  1|
# +-----+---+

# Create a DataFrame with an explicit schema.
from pyspark.sql.types import StructType, StructField, StringType, IntegerType
schema = StructType([
    StructField("name", StringType(), True),
    StructField("age", IntegerType(), True)])
spark.createDataFrame([('Alice', 1)], schema).show()
# +-----+---+
# | name|age|
# +-----+---+
# |Alice|  1|
# +-----+---+

# Create a DataFrame with a DDL-formatted schema string.
spark.createDataFrame([('Alice', 1)], "name: string, age: int").show()
# +-----+---+
# | name|age|
# +-----+---+
# |Alice|  1|
# +-----+---+

# Create an empty DataFrame (schema is required when data is empty).
spark.createDataFrame([], "name: string, age: int").show()
# +----+---+
# |name|age|
# +----+---+
# +----+---+

# Create a DataFrame from Row objects.
from pyspark.sql import Row
Person = Row('name', 'age')
spark.createDataFrame([Person("Alice", 1)]).show()
# +-----+---+
# | name|age|
# +-----+---+
# |Alice|  1|
# +-----+---+

構文​

パラメーター​

戻り値​

注意​

例​

構文

パラメーター

戻り値

注意

例