Apache Spark DataFrames を TFRecord ファイル として保存する

この記事では、spark-tensor-flow-connector を使用して Apache Spark DataFrames を TFRecord ファイルに保存し、TensorFlow を使用して TFRecord を読み込む方法について説明します。

TFRecord ファイル形式は、機械学習トレーニング データ用の単純なレコード指向バイナリ形式です。 tf.data.TFRecordDataset クラスを使用すると、入力パイプラインの一部として 1 つ以上の TFRecord ファイルの内容をストリームでオーバーできます。

ライブラリ spark-tensorflow-connector を使用する

spark-tensor-flow-connector を使用して、Apache Spark DataFrames を TFRecord ファイルに保存できます。

spark-tensorflow-connector は、Spark DataFrames と TFRecords (TensorFlow のデータを格納するための一般的な形式) 間の変換を可能にする TensorFlow エコシステム 内のライブラリです。spark-tensorflow-connector を使用すると、Spark DataFrame APIs を使用して TFRecords ファイルを DataFrames に読み込み、 DataFrames TFRecords として書き込むことができます。

spark-tensorflow-connector ライブラリは、Databricks Runtime for Machine Learning に含まれています。Databricks Runtime リリースノートのバージョンと互換性spark-tensorflow-connector を使用するには、Maven からライブラリをインストールする必要があります。詳細については、「 Maven または Spark パッケージ 」を参照してください。

例: TensorFlow を使用して TFRecord ファイルからデータをロードする

サンプル ノートブックでは、Apache Spark DataFrames から TFRecord ファイルにデータを保存し、機械学習トレーニング用に TFRecord ファイルを読み込む方法を示します。

TFRecord ファイルは、 tf.data.TFRecordDataset クラスを使用して読み込むことができます。 詳細については、「TensorFlow からの TFRecord ファイルの読み込み 」を参照してください。

分散DL用の画像データの準備 ノートブック

ノートブックを新しいタブで開く