分散トレーニング用のデータを準備する
この記事では、分散トレーニング用のデータを準備する方法である Mosaic ストリーミングと TFRecords について説明します。
モザイクストリーミング(推奨)
Mosaic ストリーミングは、クラウド ストレージから大規模なデータセットを効率的にストリーミングできるようにするオープンソースのデータ読み込みライブラリです。 このライブラリは、大規模モデルのマルチノード分散トレーニング用に特別に設計されているため、メモリに収まらない大規模なデータセットの処理に優れています。 Mosaic ストリーミングは、 PyTorchおよび MosaicML エコシステムとのシームレスな統合を提供します。 次の記事では、このユースケースについて説明します。
TFレコード
TFRecord 形式を分散ディープラーニングの Data として使用することもできます。 TFRecord 形式は、多くの TensorFlow アプリケーションがデータのトレーニングに使用する単純なレコード指向のバイナリ形式です。
tf.data.TFRecordDataset は TensorFlow データセットで、TFRecords ファイルのレコードで構成されています。 TFRecord データを使用する方法の詳細については、TensorFlow ガイド の「TFRecord データの使用」を参照してください。
次の記事では、データを TFRecord ファイルに保存し、TFRecord ファイルを読み込むための推奨される方法について説明します。