Apache Spark DataFrames を TFRecord ファイルとして保存する
この記事では、spark-tensorflow-connector を使用して Apache Spark DataFrames を TFRecord ファイルに保存し、TensorFlow で TFRecord を読み込む方法について説明します。
TFRecord ファイル形式は、ML トレーニング データ用の単純なレコード指向のバイナリ形式です。 tf.data.TFRecordDataset クラスを使用すると、入力パイプラインの一部として 1 つ以上の TFRecord ファイルの内容をストリームできます。
spark-tensorflow-connector
ライブラリを使用する
spark-tensorflow-connector を使用して、Apache Spark DataFrames を TFRecord ファイルに保存できます。
spark-tensorflow-connector
は TensorFlow エコシステム内のライブラリです
これにより、Spark DataFrames と TFRecords (TensorFlow のデータを格納するための一般的な形式) 間の変換が可能になります。を使用すると、
spark-tensorflow-connector SparkDataFrameAPIsTFRecords ファイルを に読み込み、DataFrames DataFramesTFRecords として書き込む 。
spark-tensorflow-connector
ライブラリは、Databricks Runtime for Machine Learning に含まれています。Databricks Runtimeリリースノートのバージョンと互換性でspark-tensorflow-connector
を使用するには、Mavenからライブラリをインストールする必要があります。詳細については、 Maven または Spark パッケージ を参照してください。
例: TensorFlow を使用して TFRecord ファイルからデータを読み込む
サンプル ノートブックは、 Apache Spark DataFrames から TFRecord ファイルへのデータの保存方法と、 MLの TFRecord ファイルの読み込み方法を示しています トレーニング.
TFRecord ファイルは、 tf.data.TFRecordDataset
クラスを使用して読み込むことができます。 詳細については、TensorFlow からの TFRecord ファイルの読み取り を参照してください。