メインコンテンツまでスキップ

Apache Spark データフレーム を TFRecord ファイルとして保存する

この記事では、spark-tensorflow-connector を使用して Apache Spark データフレーム を TFRecord ファイルに保存し、TensorFlow で TFRecord を読み込む方法について説明します。

TFRecord ファイル形式は、ML トレーニング データ用の単純なレコード指向のバイナリ形式です。 tf.data.TFRecordDataset クラスを使用すると、入力パイプラインの一部として 1 つ以上の TFRecord ファイルの内容をストリームできます。

spark-tensorflow-connectorライブラリを使用する

spark-tensorflow-connector を使用して、Apache Spark データフレーム を TFRecord ファイルに保存できます。

spark-tensorflow-connector は TensorFlow エコシステム内のライブラリです これにより、Spark データフレーム と TFRecords (TensorFlow のデータを格納するための一般的な形式) 間の変換が可能になります。spark-tensorflow-connectorを使用すると、TFRecords ファイルをデータフレームに読み込み、データフレーム データフレームTFRecords として書き込むためにSparkデータフレームAPIを活用できます。

注記

spark-tensorflow-connector ライブラリは、Databricks Runtime for Machine Learning に含まれています。Databricks Runtimeリリースノートのバージョンと互換性spark-tensorflow-connectorを使用するには、Mavenからライブラリをインストールする必要があります。詳細については、 Maven または Spark パッケージ を参照してください。

例: TensorFlow を使用して TFRecord ファイルからデータを読み込む

サンプル ノートブックは、 MLトレーニングのためにApache Spark データフレーム から TFRecord ファイルへのデータを保存する方法と、 TFRecord ファイルの読み込み方法を示しています。

TFRecord ファイルは、 tf.data.TFRecordDataset クラスを使用して読み込むことができます。 詳細については、TensorFlow からの TFRecord ファイルの読み取り を参照してください。

分散DL向け画像データ準備ノートブック

Open notebook in new tab