分散トレーニング用のデータを準備する
この記事では、分散トレーニング用のデータを準備する 3 つの方法 (Mosaic ストリーミング、 Petastorm 、TFRecords) について説明します。
モザイクストリーミング(推奨)
Mosaic ストリーミングは、クラウド ストレージから大規模なデータセットを効率的にストリーミングできるようにするオープンソースのデータ読み込みライブラリです。 このライブラリは、大規模モデルのマルチノード分散トレーニング用に特別に設計されているため、メモリに収まらない大規模なデータセットの処理に優れています。 Mosaic ストリーミングは、 PyTorchおよび MosaicML エコシステムとのシームレスな統合を提供します。 次の記事では、このユースケースについて説明します。
Petastorm
Petastorm は、Apache Parquet 形式で保存されたデータを直接読み込むことができる オープンソース データ アクセス ライブラリです。 これは、Parquet が推奨されるデータ形式であるため、Databricks および Apache Spark ユーザーにとって便利です。 次の記事では、このユース ケースについて説明します。
TFレコード
TFRecord 形式を分散ディープラーニングの Data として使用することもできます。 TFRecord 形式は、多くの TensorFlow アプリケーションがデータのトレーニングに使用する単純なレコード指向のバイナリ形式です。
tf.data.TFRecordDataset は TensorFlow データセットで、TFRecords ファイルのレコードで構成されています。 TFRecord データを使用する方法の詳細については、TensorFlow ガイド の「TFRecord データの使用」を参照してください。
次の記事では、データを TFRecord ファイルに保存し、TFRecord ファイルを読み込むための推奨される方法について説明します。