JSON ファイル

read.jsonファイルは、単一行モードまたは複数行モードでできます。1 行モードでは、ファイルを多くの部分に分割し、並行して読み取ることができます。複数行モードでは、ファイルはエンティティ全体としてロードされ、分割 することはできません 。

詳細については、「 JSON ファイル」を参照してください。

オプション

サポートされている読み取り／書き込みオプションについては、次の Apache Spark 参照記事をご覧ください。

読み取り
- Python
- Scala
書き込み
- Python
- Scala

救出されたデータ列

注記

この機能は、 Databricks Runtime 8.2 (EoS) 以降でサポートされています。

レスキューされたデータ列により、ETL中にデータが失われたり見逃されたりすることはありません。救出されたデータ列には、指定されたスキーマに存在しなかったか、型の不一致があったか、レコードまたはファイル内の列の大文字と小文字がスキーマの大文字と小文字が一致しなかったために、解析されなかったデータが含まれています。救出されたデータ列は、救出された列とレコードのソースファイルパスを含む JSON blob として返されます。レスキューされたデータ列からソース・ファイル・パスを削除するには、SQL 構成を spark.conf.set("spark.databricks.sql.rescuedDataColumn.filePath.enabled", "false")に設定します。レスキューされたデータ列を有効にするには、オプション rescuedDataColumn を列名 ( _rescued_data with spark.read.option("rescuedDataColumn", "_rescued_data").format("json").load(<path>)など) に設定します。

JSON パーサーは、レコードを解析するときに、 PERMISSIVE、 DROPMALFORMED、 FAILFASTの 3 つのモードをサポートします。 rescuedDataColumnと一緒に使用すると、データ型の不一致によって、DROPMALFORMED モードでレコードがドロップされたり、FAILFAST モードでエラーがスローされたりすることはありません。破損したレコード (つまり、不完全な JSON や不正な形式の JSON) のみがドロップされるか、エラーがスローされます。 JSON の解析時にオプション badRecordsPath を使用する場合、 rescuedDataColumnの使用時にデータ型の不一致は不良レコードとは見なされません。不完全で不正な形式の JSON レコードのみが badRecordsPathに格納されます。

例

シングルラインモード

この例では、1 行に 1 つの JSON オブジェクトがあります。

JSON
{"string":"string1","int":1,"array":[1,2,3],"dict": {"key": "value1"}}
{"string":"string2","int":2,"array":[2,4,6],"dict": {"key": "value2"}}
{"string":"string3","int":3,"array":[3,6,9],"dict": {"key": "value3", "extra_key": "extra_value3"}}

JSON データを読み取るには、次を使用します。

Scala
val df = spark.read.format("json").load("example.json")

Spark はスキーマを自動的に推論します。

Scala
df.printSchema

root
 |-- array: array (nullable = true)
 |    |-- element: long (containsNull = true)
 |-- dict: struct (nullable = true)
 |    |-- extra_key: string (nullable = true)
 |    |-- key: string (nullable = true)
 |-- int: long (nullable = true)
 |-- string: string (nullable = true)

複数行モード

この JSON オブジェクトは複数の行を占めます。

JSON
[
  { "string": "string1", "int": 1, "array": [1, 2, 3], "dict": { "key": "value1" } },
  { "string": "string2", "int": 2, "array": [2, 4, 6], "dict": { "key": "value2" } },
  {
    "string": "string3",
    "int": 3,
    "array": [3, 6, 9],
    "dict": {
      "key": "value3",
      "extra_key": "extra_value3"
    }
  }
]

このオブジェクトを読み取るには、複数行モードを有効にします。

SQL
Scala

SQL
CREATE TEMPORARY VIEW multiLineJsonTable
USING json
OPTIONS (path="/tmp/multi-line.json",multiline=true)

Scala
val mdf = spark.read.option("multiline", "true").format("json").load("/tmp/multi-line.json")
mdf.show(false)

文字セットの自動検出

デフォルトでは、入力ファイルの文字セットは自動的に検出されます。文字セットは、 charset オプションを使用して明示的に指定できます。

Python
spark.read.option("charset", "UTF-16BE").format("json").load("fileInUTF16.json")

サポートされている文字セットには、 UTF-8、 UTF-16BE、 UTF-16LE、 UTF-16、 UTF-32BE、 UTF-32LE、 UTF-32などがあります。 Oracle Java SEでサポートされている文字セットの完全なリストは、サポートされているエンコーディングを参照してください。

ノートブックの例: read.json ファイル

次のノートブックは、単一行モードと複数行モードを示しています。

read.json files ノートブック

Open notebook in new tab

オプション​

救出されたデータ列​

例​

シングルラインモード​

複数行モード​

文字セットの自動検出​

ノートブックの例: read.json ファイル​