分散トレーニング用のデータの準備

この記事では、分散トレーニング用のデータを準備する方法である Mosaic ストリーミングと TFRecords について説明します。

モザイクストリーミング(推奨)

Mosaic ストリーミングは、クラウドストレージから大規模なデータセットを効率的にストリーミングできるオープンソースデータロードライブラリです。このライブラリは、大規模なモデルのマルチノード分散トレーニング用に特別に設計されているため、メモリに収まらない大規模なデータセットの処理に優れています。Mosaic ストリーミングは、 PyTorch および MosaicML エコシステムとのシームレスな統合を提供します。次の記事では、この使用例について説明します。

Mosaic ストリーミングを使用したデータの読み込み

TFレコード

また、TFRecord形式を分散型ディープラーニングのデータソースとして使用することもできます。TFRecord 形式は、多くの TensorFlow アプリケーションが使用している単純なレコード指向のバイナリ形式ですトレーニングデータ。

tf.data.TFRecordDataset は TensorFlow データセットは、TFRecords ファイルのレコードで構成されています。TFRecord データの使用方法の詳細については、TensorFlow ガイドを参照してください TFRecord データの使用。

次の記事では、データを TFRecord ファイルに保存し、TFRecord ファイルを読み込むための推奨される方法について説明します。

Apache Spark データフレームを TFRecord ファイルとして保存する

モザイクストリーミング(推奨)​

TFレコード​

モザイクストリーミング(推奨)

TFレコード