Preparar dados para treinamento distribuído

Este artigo descreve três métodos de preparação de dados para treinamento distribuído: Transmissão em mosaico, Petastorm e TFRecords.

Petastorm

Petastorm é uma biblioteca de acesso a dados de código aberto que permite o carregamento direto de dados armazenados no formato Apache Parquet. Isso é conveniente para usuários de Databricks e Apache Spark porque Parquet é o formato de dados recomendado. Os artigos a seguir ilustram esse caso de uso:

TFRecord

Você também pode usar o formato TFRecord como fonte de dados para aprendizagem profunda distribuída. O formato TFRecord é um formato binário orientado a registro simples que muitos aplicativos do TensorFlow usam para dados de treinamento.

tf.data.TFRecordDataset é o dataset TensorFlow , que é composto por registros de arquivos TFRecords. Para obter mais detalhes sobre como consumir dados TFRecord, consulte o guia TensorFlow Consuming TFRecord data.

Os artigos a seguir descrevem e ilustram as formas recomendadas de salvar seus dados em arquivos TFRecord e carregar arquivos TFRecord: