Salvar Apache Spark DataFrames como arquivos TFRecord
Este artigo mostra como usar o spark-tensorflow-connector para salvar Apache Spark DataFrames em arquivos TFRecord e carregar TFRecord com TensorFlow.
O formato de arquivo TFRecord é um formato binário orientado a registro simples para dados de treinamento de ML. A classe tf.data.TFRecordDataset permite que você transmita o conteúdo de um ou mais arquivos TFRecord como parte de um pipeline de entrada.
Usar biblioteca spark-tensorflow-connector
Você pode usar o spark-tensorflow-connector para salvar Apache Spark DataFrames em arquivos TFRecord.
spark-tensorflow-connector
é uma biblioteca dentro do ecossistema TensorFlow que permite a conversão entre Spark DataFrames e TFRecords (um formato popular para armazenar dados para TensorFlow). Com o spark-tensorflow-connector, você pode usar APIs Spark DataFrame para ler arquivos TFRecords em DataFrames e gravar DataFrames como TFRecords.
Observação
A biblioteca spark-tensorflow-connector
está incluída no Databricks Runtime for Machine Learning. Para usar spark-tensorflow-connector
no Databricks Runtime notas sobre a versão versões e compatibilidade, você precisa instalar a biblioteca do Maven. Consulte o pacote Maven ou Spark para obter detalhes.
Exemplo: carregar dados de arquivos TFRecord com TensorFlow
O Notebook de exemplo demonstra como salvar dados de Apache Spark DataFrames em arquivos TFRecord e carregar arquivos TFRecord para treinamento de ML.
Você pode carregar os arquivos TFRecord usando a classe tf.data.TFRecordDataset
. Consulte Lendo um arquivo TFRecord do TensorFlow para obter detalhes.