Pular para o conteúdo principal

Salvar Apache Spark DataFrames como arquivos TFRecord

Este artigo mostra como usar o spark-tensorflow-connector para salvar Apache Spark DataFrames em arquivos TFRecord e carregar TFRecord com TensorFlow.

O formato de arquivo TFRecord é um formato binário simples orientado a registros para dados de treinamento de ML. A classe tf.data.TFRecordDataset permite que o senhor transmita o conteúdo de um ou mais arquivos TFRecord como parte de uma entrada pipeline.

Use a biblioteca spark-tensorflow-connector

Você pode usar o spark-tensorflow-connector para salvar Apache Spark DataFrames em arquivos TFRecord.

spark-tensorflow-connector é uma biblioteca dentro do ecossistema TensorFlow que permite a conversão entre Spark DataFrames e TFRecords (um formato popular para armazenar dados para TensorFlow). Com o spark-tensorflow-connector, você pode usar APIs Spark DataFrame para ler arquivos TFRecords em DataFrames e gravar DataFrames como TFRecords.

nota

A biblioteca spark-tensorflow-connector está incluída no Databricks Runtime for Machine Learning. Para usar o spark-tensorflow-connector em Databricks Runtime notas sobre versões e compatibilidade, o senhor precisa instalar a biblioteca de Maven. Consulte o pacote Maven ou Spark para obter detalhes.

Exemplo: Carregar dados de arquivos TFRecord com o TensorFlow

O exemplo do Notebook demonstra como salvar dados de Apache Spark DataFrames em arquivos TFRecord e carregar arquivos TFRecord para ML treinamento.

Você pode carregar os arquivos TFRecord usando a classe tf.data.TFRecordDataset. Consulte Leitura de um arquivo TFRecord do TensorFlow para obter detalhes.

Preparar dados de imagem para o Distributed DL Notebook

Open notebook in new tab