Inferência de modelo usando TensorFlow e TensorRT
O Notebook de exemplo neste artigo demonstra o fluxo de trabalho de inferência de aprendizagem profunda recomendado pelo Databricks com TensorFlow e TensorFlowRT. Este exemplo mostra como otimizar um modelo ResNet-50 treinado com TensorRT para inferência de modelo.
NVIDIA TensorRT é um otimizador de inferência e tempo de execução de alto desempenho que oferece baixa latência e alta taxa de transferência para aplicativos de inferência de aprendizagem profunda. O TensorRT é instalado na versão habilitada para GPU do Databricks Runtime for Machine Learning.
A Databricks recomenda que você use a série de tipo de instância G4, que é otimizada para aprimorar o modelo do machine learning em produção.