Tutorial: implantar e consultar um modelo personalizado

Este artigo fornece os passos básicos para implantar e consultar um modelo personalizado, ou seja, um modelo tradicional de ML, instalado no Unity Catalog ou registrado no workspace registro de modelo usando o Databricks servindo modelo.

A seguir, apresentamos um guia que descreve como servir e implantar um modelo básico para IA generativa e LLM:

o passo 1: logs o modelo no registro de modelo

Existem diferentes maneiras de logs seu modelo para modelo de atividade:

Técnica de registro

Descrição

Registro automático

Isso é ativado automaticamente quando você usa o Databricks Runtime para machine learning. É a maneira mais fácil, mas oferece menos controle.

Registro usando sabores integrados do MLflow

Você pode logs manualmente o modelo com os tipos de modelo integrados do MLflow.

Registro personalizado com pyfunc

Use isto se você tiver um modelo personalizado ou se precisar de passos extras antes ou depois da inferência.

O exemplo a seguir mostra como logs seu modelo MLflow usando o tipo transformer e especificar os parâmetros necessários para seu modelo.

with mlflow.start_run():
    model_info = mlflow.transformers.log_model(
        transformers_model=text_generation_pipeline,
        artifact_path="my_sentence_generator",
        inference_config=inference_config,
        registered_model_name='gpt2',
        input_example=input_example,
        signature=signature
    )

Depois que o modelo for registrado, certifique-se de verificar se ele está registrado no MLflow Unity Catalog ou no Model Registry.

o passo 2: Criar endpoint usando a IU do Serving

Depois que seu modelo registrado for logs e você estiver pronto para servi-lo, você poderá criar um endpoint de modelo instalado usando a IU de serviço .

  1. Clique em Envio na barra lateral para exibir a IU do Envio .

  2. Clique em Criar endpoint de serviço.

    painel de modelo integrado na interface do usuário do Databricks
  3. No campo Nome , forneça um nome para seu endpoint.

  4. Na seção Entidades atendidas

    1. Clique no campo Entidade para abrir o formulário Selecionar entidade atendida .

    2. Selecione o tipo de modelo que você deseja servir. O formulário é atualizado dinamicamente com base na sua seleção.

    3. Selecione qual modelo e versão do modelo você deseja veicular.

    4. Selecione a porcentagem de tráfego a ser encaminhada para seu modelo atendido.

    5. Selecione o tamanho compute a ser usada. Você pode usar computação de CPU ou GPU para suas cargas de trabalho. O suporte para modelo de atividade em GPU está em Visualização Pública. Consulte Tipos de carga de trabalho de GPU para obter mais informações sobre a computação de GPU disponível.

    6. Em escalonamentocompute , selecione o tamanho do escalonamento compute que corresponde ao número de solicitações que esse modelo atendido pode processar ao mesmo tempo. Este número deve ser aproximadamente igual ao QPS x tempo de execução do modelo.

      1. Os tamanhos disponíveis são Pequeno para 0 a 4 solicitações, Médio 8 a 16 solicitações e Grande para 16 a 64 solicitações.

    7. Especifique se o endpoint deve escalar para zero quando não estiver em uso.

  5. Clique em Criar. A página Servindo endpoints aparece com o estado do endpoint de veiculação mostrado como Não pronto.

    Crie um endpoint de modelo de atividade

Se o senhor preferir criar um endpoint programaticamente com a API de serviço da Databricks, consulte Criar endpoints de modelo de serviço personalizados.

o passo 3: Consulte o endpoint

A maneira mais fácil e rápida de testar e enviar solicitações de pontuação ao seu modelo atendido é usar a IU do Serving .

  1. Na página de exibição endpoint query endpoint, selecione .

  2. Insira os dados de entrada do modelo no formato JSON e clique em Enviar Solicitação. Se o modelo tiver sido logs com um exemplo de entrada, clique em Mostrar Exemplo para carregar o exemplo de entrada.

       {
       "inputs" : ["Hello, I'm a language model,"],
       "params" : {"max_new_tokens": 10, "temperature": 1}
       }
    

Para enviar solicitações de pontuação, construa um JSON com uma das chaves compatíveis e um objeto JSON correspondente ao formato de entrada. Consulte Ponto de extremidade de serviço de consulta para modelos personalizados para obter os formatos compatíveis e orientações sobre como enviar solicitações de pontuação usando a API.

Se o senhor planeja acessar o endpoint de veiculação fora da UI do Databricks Serving, precisará de um DATABRICKS_API_TOKEN.

Importante

Como prática recomendada de segurança para cenários de produção, a Databricks recomenda que o senhor use tokens OAuth máquina a máquina para autenticação durante a produção.

Para testes e desenvolvimento, o Databricks recomenda o uso de um access token pessoal pertencente à entidade de serviço em vez de usuários do workspace. Para criar o site tokens para uma entidade de serviço, consulte gerenciar tokens para uma entidade de serviço.

Notebook de Exemplo

Consulte o Notebook a seguir para servir um modelo MLflow transformers com modelo de navegação.

implantei um Notebookmodelo transformadores Hugging Face

Abra o bloco de anotações em outra guia

Consulte o Notebook a seguir para servir um modelo MLflow pyfunc com modelo de navegação. Para obter detalhes adicionais sobre como personalizar as implantações do seu modelo, consulte Código Python implantado com modelo instalado.

implantou um Notebookmodelo MLflow pyfunc

Abra o bloco de anotações em outra guia