from_avro
Avro形式のバイナリ列を、対応するCatalyst値に変換します。指定されたスキーマは読み取ったデータと一致していなければなりません。一致しない場合、動作は未定義となり、失敗するか、任意の結果が返される可能性があります。
jsonFormatSchemaが指定されておらず、 subjectとschemaRegistryAddressの両方が指定されている場合、この関数はスキーマレジストリAvro形式のバイナリ列を対応するCatalyst値に変換します。
構文
from pyspark.sql.avro.functions import from_avro
from_avro(data, jsonFormatSchema=None, options=None, subject=None, schemaRegistryAddress=None)
パラメーター
パラメーター | Type | 説明 |
|---|---|---|
|
| Avroエンコードされたデータを含むバイナリ列。 |
| 文字列、オプション | JSON文字列形式のAvroスキーマ。 |
| 辞書、オプション | Avroレコードの解析方法を制御するオプションと、スキーマレジストリクライアントの設定。 |
| 文字列、オプション | スキーマレジストリにおける、データが属する主体。 |
| 文字列、オプション | スキーマレジストリのアドレス(ホスト名とポート番号)。 |
オプション
オプション | 値 | 説明 |
|---|---|---|
|
| エラー処理モード。デフォルト: |
|
| Avroデータをエンコードするための圧縮コーデック。 |
|
| スキーマ進化モード。デフォルト: |
| 範囲: | 単一の再帰パスに沿った最大再帰深度。デフォルト値: 共有型が複数の異なるスキーマパスからアクセス可能な場合、このオプションは深さを1つのパスのみに制限するため、スキーマ展開によってドライバがメモリ不足になることがあります。 回避策:
|
戻り値
pyspark.sql.Column: 対応する触媒値として、逆シリアル化された Avro データを含む新しい列。
例
例1 :JSONスキーマを使用してAvroバイナリ列を逆シリアル化する
from pyspark.sql import Row
from pyspark.sql.avro.functions import from_avro, to_avro
data = [(1, Row(age=2, name='Alice'))]
df = spark.createDataFrame(data, ("key", "value"))
avro_df = df.select(to_avro(df.value).alias("avro"))
json_format_schema = '''{"type":"record","name":"topLevelRecord","fields":
[{"name":"avro","type":[{"type":"record","name":"value",
"namespace":"topLevelRecord","fields":[{"name":"age","type":["long","null"]},
{"name":"name","type":["string","null"]}]},"null"]}]}'''
avro_df.select(from_avro(avro_df.avro, json_format_schema).alias("value")).show(truncate=False)
+------------------+
|value |
+------------------+
|{{2, Alice}} |
+------------------+