Tutorial: implantar e consultar um modelo personalizado

Este artigo fornece os passos básicos para implantar e consultar um modelo personalizado, que é um modelo ML tradicional, usando Mosaic AI Model Serving. O modelo deve ser registrado em Unity Catalog ou no workspace registro de modelo.

Para saber como servir e implantar modelos generativos de AI, consulte os artigos a seguir:

o passo 1: registrar o modelo

Existem diferentes maneiras de logs seu modelo para modelo de atividade:

Técnica de registro

Descrição

Registro automático

Isso é ativado automaticamente quando você usa o Databricks Runtime para machine learning. É a maneira mais fácil, mas oferece menos controle.

Registro usando sabores integrados do MLflow

Você pode logs manualmente o modelo com os tipos de modelo integrados do MLflow.

Registro personalizado com pyfunc

Use isto se você tiver um modelo personalizado ou se precisar de passos extras antes ou depois da inferência.

O exemplo a seguir mostra como logs seu modelo MLflow usando o tipo transformer e especificar os parâmetros necessários para seu modelo.

with mlflow.start_run():
    model_info = mlflow.transformers.log_model(
        transformers_model=text_generation_pipeline,
        artifact_path="my_sentence_generator",
        inference_config=inference_config,
        registered_model_name='gpt2',
        input_example=input_example,
        signature=signature
    )

Depois que o modelo for registrado, certifique-se de verificar se ele está registrado em Unity Catalog ou no site MLflow Model Registry.

o passo 2: Criar endpoint usando a IU do Serving

Depois que seu modelo registrado for logs e você estiver pronto para servi-lo, você poderá criar um endpoint de modelo instalado usando a IU de serviço .

  1. Clique em Envio na barra lateral para exibir a IU do Envio .

  2. Clique em Criar endpoint de serviço.

    painel de modelo integrado na interface do usuário do Databricks
  3. No campo Nome , forneça um nome para seu endpoint.

  4. Na seção Entidades atendidas

    1. Clique no campo Entidade para abrir o formulário Selecionar entidade atendida .

    2. Selecione o tipo de modelo que você deseja servir. O formulário é atualizado dinamicamente com base na sua seleção.

    3. Selecione qual modelo e versão do modelo você deseja veicular.

    4. Selecione a porcentagem de tráfego a ser encaminhada para seu modelo atendido.

    5. Selecione o tamanho do site compute a ser usado.

    6. Em escalonamentocompute , selecione o tamanho do escalonamento compute que corresponde ao número de solicitações que esse modelo atendido pode processar ao mesmo tempo. Este número deve ser aproximadamente igual ao QPS x tempo de execução do modelo.

      1. Os tamanhos disponíveis são Pequeno para 0 a 4 solicitações, Médio 8 a 16 solicitações e Grande para 16 a 64 solicitações.

    7. Especifique se o endpoint deve escalar para zero quando não estiver em uso.

  5. Clique em Criar. A página Servindo endpoints aparece com o estado do endpoint de veiculação mostrado como Não pronto.

    Crie um endpoint de modelo de atividade

Se o senhor preferir criar um endpoint programaticamente com a API de serviço da Databricks, consulte Criar endpoints de modelo de serviço personalizados.

o passo 3: Consulte o endpoint

A maneira mais fácil e rápida de testar e enviar solicitações de pontuação ao seu modelo atendido é usar a IU do Serving .

  1. Na página de exibição endpoint query endpoint, selecione .

  2. Insira os dados de entrada do modelo no formato JSON e clique em Enviar Solicitação. Se o modelo tiver sido logs com um exemplo de entrada, clique em Mostrar Exemplo para carregar o exemplo de entrada.

       {
       "inputs" : ["Hello, I'm a language model,"],
       "params" : {"max_new_tokens": 10, "temperature": 1}
       }
    

Para enviar solicitações de pontuação, construa um JSON com uma das chaves compatíveis e um objeto JSON correspondente ao formato de entrada. Consulte Ponto de extremidade de serviço de consulta para modelos personalizados para obter os formatos compatíveis e orientações sobre como enviar solicitações de pontuação usando a API.

Se o senhor planeja acessar o endpoint de veiculação fora da UI do Databricks Serving, precisará de um DATABRICKS_API_TOKEN.

Importante

Como prática recomendada de segurança para cenários de produção, a Databricks recomenda que o senhor use tokens OAuth máquina a máquina para autenticação durante a produção.

Para testes e desenvolvimento, o Databricks recomenda o uso de um access token pessoal pertencente à entidade de serviço em vez de usuários do workspace. Para criar o site tokens para uma entidade de serviço, consulte gerenciar tokens para uma entidade de serviço.

Notebook de Exemplo

Consulte o Notebook a seguir para servir um modelo MLflow transformers com modelo de navegação.

implantado a Hugging Face `transformers` modelo Notebook

Abra o bloco de anotações em outra guia

Veja o Notebook a seguir para servir um modelo MLflow pyfunc com servindo modelo. Para obter mais detalhes sobre a personalização de suas implantações de modelo, consulte implantado Python code with servindo modelo.

implantado a MLflow `pyfunc` model Notebook

Abra o bloco de anotações em outra guia