分散トレーニング用のデータの準備
この記事では、分散トレーニング用のデータを準備する方法である Mosaic ストリーミングと TFRecords について説明します。
モザイクストリーミング(推奨)
Mosaic ストリーミング は、クラウドストレージから大規模なデータセットを効率的にストリーミングできるオープンソース データ ロード ライブラリです。 このライブラリは、大規模なモデルのマルチノード分散トレーニング用に特別に設計されているため、メモリに収まらない大規模なデータセットの処理に優れています。 Mosaic ストリーミングは、 PyTorch および MosaicML エコシステムとのシームレスな統合を提供します。 次の記事では、この使用例について説明します。
TFレコード
また、TFRecord形式を分散型ディープラーニングのデータソースとして使用することもできます。TFRecord 形式は、多くの TensorFlow アプリケーションが使用している単純なレコード指向のバイナリ形式です トレーニング データ。
tf.data.TFRecordDataset は TensorFlow データセットは、TFRecords ファイルのレコードで構成されています。TFRecord データの使用方法の詳細については、TensorFlow ガイドを参照してください TFRecord データの使用。
次の記事では、データを TFRecord ファイルに保存し、TFRecord ファイルを読み込むための推奨される方法について説明します。