Pular para o conteúdo principal

Criar um endpoint de modelo de serviço personalizado

Este artigo descreve como criar um endpoint servindo modelo que serve modelos personalizados usando Databricks servindo modelo.

O servindo modelo oferece as seguintes opções para servir a criação do endpoint:

  • A interface de usuário de serviço
  • API REST
  • SDK de implantações do MLflow

Para criar um endpoint que atenda aos modelos generativos do AI, consulte Criar um endpoint que atenda ao modelo.

Requisitos

Python
import mlflow.deployments

client = mlflow.deployments.get_deploy_client("databricks")

Controle de acesso

Para entender as opções de controle de acesso para o ponto de extremidade do modelo de abastecimento para gerenciamento endpoint , consulte gerenciar permissões em um endpointdo modelo de abastecimento.

A identidade sob a qual a execução de um modelo endpoint está vinculada ao criador original do endpoint. Após a criação do endpoint, a identidade associada não pode ser alterada ou atualizada no endpoint. Essa identidade e suas permissões associadas são usadas para acessar o recurso Unity Catalog para implantações. Se a identidade não tiver as permissões apropriadas para acessar o recurso necessário Unity Catalog , você deverá excluir o endpoint e recriá-lo sob um usuário ou entidade de serviço que possa acessar esses recursos Unity Catalog .

Você também pode:

Criar um endpoint

O senhor pode criar um endpoint para servir o modelo com a Serving UI.

  1. Clique em Serving na barra lateral para exibir a Serving UI.

  2. Clique em Criar endpoint de serviço .

    Servindo o modelo pane em Databricks UI

Para modelos registrados no espaço de trabalho registro de modelo ou modelos em Unity Catalog:

  1. No campo Name (Nome ), forneça um nome para seu endpoint.

    • Os nomes de endpoints não podem usar o prefixo databricks- . Este prefixo é reservado para endpoints pré-configurados Databricks .
  2. Na seção Entidades atendidas

    1. Clique no campo Entidade para abrir o formulário Selecionar entidade servida .

    2. Selecione " Meus modelos Unity Catalog ou "Meus modelos Model Registry dependendo de onde seu modelo está registrado. O formulário é atualizado dinamicamente com base na sua seleção.

    3. Selecione qual modelo e versão do modelo você deseja servir.

    4. Selecione a porcentagem de tráfego a ser direcionada para seu modelo atendido.

    5. Selecione o tamanho do site compute a ser usado. O senhor pode usar a computação de CPU ou GPU para suas cargas de trabalho. Consulte Tipos de carga de trabalho de GPU para obter mais informações sobre a computação de GPU disponível.

    6. Em "Compute Escalate Out" , selecione o tamanho do compute Escalate Out" que corresponde ao número de solicitações que este modelo de serviço pode processar simultaneamente. Esse número deve ser aproximadamente igual a QPS x tempo de execução do modelo. Para configurações compute definidas pelo cliente, consulte limites do modelo de serviço.

      1. Os tamanhos disponíveis são pequeno para 0 a 4 solicitações, médio para 8 a 16 solicitações e grande para 16 a 64 solicitações.
    7. Especifique se o endpoint deve ser zerado quando não estiver em uso. A escalabilidade para zero não é recomendada para endpoints de produção, pois a capacidade não é garantida quando reduzida a zero. Quando um endpoint escala para zero, há uma latência adicional, também conhecida como inicialização a frio, enquanto o endpoint volta a escalar para atender às solicitações.

    8. Em Configuração avançada, você pode:

    9. (Opcional) Para adicionar entidades adicionais ao seu endpoint, clique em Adicionar entidade e repita os passos de configuração acima. Você pode disponibilizar vários modelos ou versões de modelos a partir de um único endpoint e controlar a divisão do tráfego entre eles. Consulte servir vários modelos para obter mais informações.

  3. Na seção Otimização de rotas , você pode habilitar a otimização de rotas para seu endpoint. Recomenda-se a otimização de rotas para endpoints com alta demanda de QPS e Taxa de transferência. Consulte Otimização de rotas no ponto de extremidade de serviço.

  4. Na seção AI Gateway , o senhor pode selecionar o recurso de governança a ser ativado no seu endpoint. Consulte a introdução do Mosaic AI Gateway.

  5. Clique em Criar . A página Serving endpoint é exibida com o estado Serving endpoint mostrado como Not Ready.

    Criar um modelo de serviço endpoint

Você também pode:

Tipos de carga de trabalho de GPU

A implementação da GPU é compatível com as seguintes versões do pacote:

  • PyTorch 1.13.0 - 2.0.1
  • TensorFlow 2.5.0 - 2.13.0
  • MLflow 2.4.0 e acima

Os exemplos a seguir mostram como criar um endpoint de GPU usando diferentes métodos.

Para configurar seu endpoint para cargas de trabalho de GPU com a interface de usuário Serving , selecione o tipo de GPU desejado na dropdown Tipo de computação ao criar seu endpoint. Siga os mesmos passos descritos em Criar um endpoint, mas selecione um tipo de carga de trabalho de GPU em vez de CPU.

A tabela a seguir resume os tipos de carga de trabalho de GPU disponíveis suportados.

Tipo de carga de trabalho da GPU

Instância de GPU

Memória GPU

GPU_SMALL

1xT4

16GB

GPU_MEDIUM

1 x A10g

24 GB

MULTIGPU_MEDIUM

4xA10G

96 GB

GPU_MEDIUM_8

8xA10g

192 GB

Modificar um endpoint de modelo personalizado

Depois de ativar um modelo personalizado endpoint, o senhor pode atualizar a configuração do compute conforme desejar. Essa configuração é particularmente útil se o senhor precisar de recurso adicional para o seu modelo. O tamanho da carga de trabalho e a compute configuração key do site desempenham um papel importante em quais recursos são alocados para atender ao seu modelo.

nota

As atualizações na configuração do endpoint podem falhar. Quando ocorrem falhas, a configuração ativa existente permanece efetiva como se a atualização não tivesse ocorrido.

Verifique se a atualização foi aplicada com sucesso, revisando o status do seu endpoint.

Até que a nova configuração esteja pronta, a configuração antiga continua fornecendo tráfego de previsão. Enquanto houver uma atualização em andamento, outra atualização não poderá ser feita. No entanto, você pode cancelar uma atualização em andamento na Serving UI.

Depois que o senhor habilitar um modelo endpoint, selecione Edit endpoint para modificar a configuração compute do seu endpoint.

Botão Editar endpoint

Você pode alterar a maioria dos aspectos da configuração do endpoint, exceto o nome do endpoint e certas propriedades imutáveis.

Você pode cancelar uma atualização de configuração em andamento selecionando "Cancelar atualização" na página de detalhes do endpoint.

Pontuação de um modelo endpoint

Para pontuar seu modelo, envie solicitações para o servindo modelo endpoint.

Recurso adicional

Notebook exemplos

O Notebook a seguir inclui diferentes Databricks modelos registrados que o senhor pode usar para começar a trabalhar com o endpoint modelo servindo. Para obter exemplos adicionais, consulte o tutorial: implantar e consultar um modelo personalizado.

Os exemplos de modelos podem ser importados para o site workspace seguindo as instruções em Import a Notebook. Depois de escolher e criar um modelo a partir de um dos exemplos, registre-o em Unity Catalog e siga as etapas do fluxo de trabalho da interface do usuário para servir o modelo.

Treine e registre um modelo scikit-learn para o servindo modelo Notebook

Open notebook in new tab

Treine e registre um modelo HuggingFace para servir o modelo Notebook

Open notebook in new tab