分散トレーニング用のデータの準備
この記事では、分散トレーニング用のデータ準備方法について説明します。
メモリに収まらない非常に大規模なデータセットの場合は、ストリーミングアプローチを使用します。
- カスタム ストリーミングロジック用のPyTorch IterableDataset。
- Hub またはボリュームにホストされているデータセット向けのストリーミングに対応したHugging Face データセット
- 分散バッチデータ処理のためのRay Data。
TFレコード
また、TFRecord形式を分散型ディープラーニングのデータソースとして使用することもできます。TFRecord 形式は、多くの TensorFlow アプリケーションが使用している単純なレコード指向のバイナリ形式です トレーニング データ。
tf.data.TFRecordDataset は TensorFlow データセットは、TFRecords ファイルのレコードで構成されています。TFRecord データの使用方法の詳細については、TensorFlow ガイドを参照してください TFRecord データの使用。
次の記事では、データを TFRecord ファイルに保存し、TFRecord ファイルを読み込むための推奨される方法について説明します。