メインコンテンツまでスキップ

Apache Spark DataFrames を TFRecord ファイルとして保存する

この記事では、spark-tensorflow-connector を使用して Apache Spark DataFrames を TFRecord ファイルに保存し、TensorFlow で TFRecord を読み込む方法について説明します。

TFRecord ファイル形式は、ML トレーニング データ用の単純なレコード指向のバイナリ形式です。 tf.data.TFRecordDataset クラスを使用すると、入力パイプラインの一部として 1 つ以上の TFRecord ファイルの内容をストリームできます。

spark-tensorflow-connectorライブラリを使用する

spark-tensorflow-connector を使用して、Apache Spark DataFrames を TFRecord ファイルに保存できます。

spark-tensorflow-connector は TensorFlow エコシステム内のライブラリです これにより、Spark DataFrames と TFRecords (TensorFlow のデータを格納するための一般的な形式) 間の変換が可能になります。を使用すると、 spark-tensorflow-connector SparkDataFrameAPIsTFRecords ファイルを に読み込み、DataFrames DataFramesTFRecords として書き込む 。

注記

spark-tensorflow-connector ライブラリは、Databricks Runtime for Machine Learning に含まれています。Databricks Runtimeリリースノートのバージョンと互換性spark-tensorflow-connectorを使用するには、Mavenからライブラリをインストールする必要があります。詳細については、 Maven または Spark パッケージ を参照してください。

例: TensorFlow を使用して TFRecord ファイルからデータを読み込む

サンプル ノートブックは、 Apache Spark DataFrames から TFRecord ファイルへのデータの保存方法と、 MLの TFRecord ファイルの読み込み方法を示しています トレーニング.

TFRecord ファイルは、 tf.data.TFRecordDataset クラスを使用して読み込むことができます。 詳細については、TensorFlow からの TFRecord ファイルの読み取り を参照してください。

Distributed DL ノートブック用の画像データを用意します

Open notebook in new tab