Inferência de modelos usando TensorFlow e TensorRT
O Notebook de exemplo neste artigo demonstra o Databricks fluxo de trabalho de inferência profunda de aprendizagem recomendado com TensorFlow e TensorFlowRT. Este exemplo mostra como otimizar um modelo ResNet-50 treinado com o TensorRT para inferência de modelo.
O NVIDIA TensorRT é um otimizador de inferência e tempo de execução de alto desempenho que oferece baixa latência e alta taxa de transferência para aplicativos de inferência profunda de aprendizagem. O TensorRT é instalado na versão habilitada para GPU do Databricks Runtime for Machine Learning.
Databricks recomenda que o senhor use a série de tipos de instância G4, que é otimizada para implantar o modelo de aprendizado de máquina na produção.