Preparar dados para treinamento distribuído

Este artigo descreve os métodos de preparação de dados para treinamento distribuído: Transmissão em mosaico e TFRecords.

Transmissão em mosaico (recomendado)

A transmissão Mosaic é uma biblioteca de carregamento de dados de código aberto que permite a transmissão eficiente de grandes conjuntos de dados do armazenamento em nuvem. Essa biblioteca é excelente para lidar com conjuntos de dados maciços que não cabem na memória, pois foi projetada especificamente para o treinamento distribuído e com vários nós de modelos grandes. A transmissão do Mosaic oferece integração perfeita com o site PyTorch e o ecossistema MosaicML. Os artigos a seguir ilustram esse caso de uso:

Carregar uso de dados Transmissão em mosaico

Registro TF

O senhor também pode usar o formato TFRecord como fonte de dados para a aprendizagem profunda distribuída. O formato TFRecord é um formato binário simples orientado a registros que muitos aplicativos do TensorFlow usam para dados de treinamento.

tf.data.TFRecordDataset é o TensorFlow dataset, que é composto de registros de arquivos TFRecords. Para obter mais detalhes sobre como consumir dados TFRecord, consulte o guia do TensorFlow Consuming TFRecord data.

Os artigos a seguir descrevem e ilustram as maneiras recomendadas de salvar seus dados em arquivos TFRecord e carregar arquivos TFRecord:

Salvar Apache Spark DataFrames como arquivos TFRecord

Transmissão em mosaico (recomendado)​

Registro TF​

Transmissão em mosaico (recomendado)

Registro TF