Apache Spark DataFrames を TFRecord ファイルとして保存する
この記事では、spark-tensor-flow-connector を使用して Apache Spark DataFrames を TFRecord ファイルに保存し、TensorFlow を使用して TFRecord を読み込む方法について説明します。
TFRecord ファイル形式は、機械学習トレーニング データ用の単純なレコード指向バイナリ形式です。 tf.data.TFRecordDataset クラスを使用すると、入力パイプラインの一部として 1 つ以上の TFRecord ファイルの内容をストリームでオーバーできます。
ライブラリ spark-tensorflow-connector
を使用する
spark-tensor-flow-connector を使用して、Apache Spark DataFrames を TFRecord ファイルに保存できます。
spark-tensorflow-connector
は、Spark DataFrames と TFRecords (TensorFlow のデータを格納するための一般的な形式) 間の変換を可能にする TensorFlow エコシステム 内のライブラリです。spark-tensorflow-connector を使用すると、Spark DataFrame APIs を使用して TFRecords ファイルを DataFrames に読み込み、 DataFrames TFRecords として書き込むことができます。
注
spark-tensorflow-connector
ライブラリは、Databricks Runtime for Machine Learning に含まれています。Databricks Runtime リリースノートのバージョンと互換性で spark-tensorflow-connector
を使用するには、Maven からライブラリをインストールする必要があります。詳細については、「 Maven または Spark パッケージ 」を参照してください。
例: TensorFlowを使用して TFRecord ファイルからデータをロードする
サンプル ノートブックでは、Apache Spark DataFrames から TFRecord ファイルにデータを保存し、機械学習トレーニング用に TFRecord ファイルを読み込む方法を示します。
TFRecord ファイルは、 tf.data.TFRecordDataset
クラスを使用して読み込むことができます。 詳細については、「TensorFlow からの TFRecord ファイルの読み込み 」を参照してください。