Preparar dados para treinamento distribuído
Este artigo descreve métodos para preparar dados para treinamento distribuído.
Para datasets muito grandes que não cabem na memória, use abordagens de transmissão:
- PyTorch IterableDataset para lógica de transmissão personalizada.
- Conjuntos de dados do Hugging Face com transmissão para datasets hospedados no Hub ou em volumes.
- Ray Data para processamento distribuído de dados em lotes.
Registro TF
O senhor também pode usar o formato TFRecord como fonte de dados para a aprendizagem profunda distribuída. O formato TFRecord é um formato binário simples orientado a registros que muitos aplicativos do TensorFlow usam para dados de treinamento.
tf.data.TFRecordDataset é o TensorFlow dataset, que é composto de registros de arquivos TFRecords. Para obter mais detalhes sobre como consumir dados TFRecord, consulte o guia do TensorFlow Consuming TFRecord data.
Os artigos a seguir descrevem e ilustram as maneiras recomendadas de salvar seus dados em arquivos TFRecord e carregar arquivos TFRecord: