Pular para o conteúdo principal

Soluções de referência para aplicações de imagem

Aprenda a fazer inferência de modelo de imagem distribuída a partir do Notebook de soluções de referência usando Pandas UDF, PyTorch e TensorFlow em uma configuração comum compartilhada por muitos aplicativos de imagem do mundo real. Essa configuração pressupõe que você armazene muitas imagens em um armazenamento de objetos e, opcionalmente, receba novas imagens continuamente.

fluxo de trabalho para inferência de modelos de imagem

Suponhamos que o senhor tenha vários modelos de aprendizagem profunda (DL) treinados para classificação de imagens e detecção de objetos - por exemplo, o MobileNetV2 para detectar objetos humanos em fotos carregadas pelo usuário para ajudar a proteger a privacidade - e queira aplicar esses modelos DL às imagens armazenadas.

Você pode treinar novamente os modelos e atualizar as previsões compute anteriores. No entanto, carregar muitas imagens e aplicar modelos DL é pesado para E/S e computepesada. Felizmente, a carga de trabalho de inferência é embaraçosamente paralela e, em teoria, pode ser distribuída facilmente. Este guia orienta você através de soluções práticas que contém duas passos principais:

  1. Imagens ETL em uma tabela Delta usando o Auto Loader
  2. Realizar inferência distribuída usando Pandas UDF

Imagens ETL em uma tabela Delta usando o Auto Loader

Para aplicativos de imagem, incluindo treinamento e tarefa de inferência, o site Databricks recomenda que o senhor coloque as imagens ETL em uma tabela Delta com o Auto Loader. O site Auto Loader ajuda na gestão de dados e lida automaticamente com as novas imagens que chegam continuamente.

ETL imagem dataset em uma tabela Delta Notebook

Open notebook in new tab

Realizar inferência distribuída usando Pandas UDF

O Notebook a seguir usa PyTorch e TensorFlow tf.Keras para demonstrar as soluções de referência.

Inferência distribuída via PyTorch e Pandas UDF Notebook

Open notebook in new tab

Inferência distribuída via Keras e Pandas UDF Notebook

Open notebook in new tab

Limitações: Tamanhos de arquivos de imagem

Para arquivos de imagem grandes (tamanho médio da imagem superior a 100 MB), a Databricks recomenda usar a tabela Delta apenas para gerenciar os metadados (lista de nomes de arquivos) e carregar as imagens do armazenamento de objetos usando seus caminhos quando necessário.