Tutorial: Criar e implantar um Foundation Model Execução de ajuste fino

info

Visualização

Esse recurso está em Public Preview em us-east-1 e us-west-2.

Este artigo descreve como criar e configurar uma execução usando o Foundation Model Fine-tuning (agora parte do Mosaic AI Model treinamento) API e, em seguida, analisar os resultados e implantar o modelo usando a UI Databricks e Mosaic AI Model Serving.

Requisitos

Um workspace na região us-east-1 ou us-west-2 da AWS.
Databricks Runtime 12.2 LTS ML ou superior.
Este tutorial deve ser executado em um NotebookDatabricks.
Dados de treinamento no formato aceito. Consulte Preparar dados para o ajuste fino do Foundation Model.

Etapa 1: Prepare seus dados para treinamento

Consulte Preparar dados para o ajuste fino do Foundation Model.

Etapa 2: Instale o SDK do `databricks_genai`

Use o seguinte para instalar o SDK databricks_genai.

Python

%pip install databricks_genai

Depois, importe a biblioteca foundation_model:

Python
dbutils.library.restartPython()
from databricks.model_training import foundation_model as fm

Etapa 3: Criar um treinamento execução

Crie uma execução de treinamento usando a função Foundation Model Fine-tuning create(). Os seguintes parâmetros são obrigatórios:

model: o modelo que você deseja treinar.
train_data_path: a localização do dataset de treinamento.
register_to: o catálogo e o esquema do Unity Catalog em que você deseja que os pontos de verificação sejam salvos.

Por exemplo:

Python
run = fm.create(model='meta-llama/Meta-Llama-3.1-8B-Instruct',
                train_data_path='dbfs:/Volumes/main/my-directory/ift/train.jsonl', # UC Volume with JSONL formatted data
                register_to='main.my-directory',
                training_duration='1ep')

run

Etapa 4: visualizar o status de uma execução

O tempo necessário para conclusão da execução de treinamento depende do número de tokens, do modelo e da disponibilidade da GPU. Para agilizar o treinamento, o Databricks recomenda usar computação reservada. Entre em contato com a equipe do Databricks responsável pela sua conta para saber os detalhes.

Quando tiver iniciado sua execução, você pode monitorar o status dela usando get_events().

Python
run.get_events()

Etapa 5: visualizar as métricas e os resultados

Siga estas etapas para ver os resultados na interface do usuário do Databricks:

No workspace do Databricks, clique em Experimentos na barra de navegação esquerda.
Selecione seu experimento na lista.
Analise os gráficos métricos em Charts tab. As métricas de treinamento são geradas para cada execução de treinamento e as métricas de avaliação são geradas somente se for fornecido um caminho de dados de avaliação.
1. O principal treinamento métrico que mostra progresso é a perda. A perda de avaliação pode ser usada para verificar se o modelo está se ajustando demais aos dados de treinamento. No entanto, não se deve confiar totalmente na perda porque, em instruction treinamento tarefa, a perda de avaliação pode parecer um ajuste excessivo enquanto o modelo continua a melhorar.
2. Quanto maior a precisão, melhor será o modelo, mas lembre-se de que uma precisão próxima a 100% pode demonstrar excesso de ajuste.
3. As métricas a seguir são exibidas no MLflow após sua execução:
  - LanguageCrossEntropy calcular a entropia cruzada nos resultados de modelagem de linguagem. Uma pontuação mais baixa é melhor.
  - LanguagePerplexity mede o quão bem um modelo de linguagem prediz a próxima palavra ou caractere em um bloco de texto com base em palavras ou caracteres anteriores. Uma pontuação mais baixa é melhor.
  - TokenAccuracy calcular a precisão em nível de tokens para modelagem de linguagem. Uma pontuação maior é melhor.
4. Nessa tab, aparece também o resultado das suas instruções de avaliação, caso as tenha especificado.

Etapa 6: Avalie vários modelos personalizados com o Mosaic AI Agent Evaluation antes de implantá-lo

Consulte O que é Mosaic AI Agent Evaluation (legacy)?

Etapa 7: implante seu modelo

A execução do treinamento registra automaticamente o modelo no Unity Catalog após a conclusão. O modelo é registrado com base no que você especificou no campo register_to no método de de execução create().

Para implantar o modelo para servir, siga essas etapas:

Navegue até o modelo no Unity Catalog.
Clique em Servir este modelo .
Clique em Criar endpoint de serviço .
No campo Nome , informe um nome para o seu endpoint.
Clique em Criar .

Recurso adicional

Criar uma execução de treinamento usando a API de ajuste fino do Foundation Model
Ajuste fino do modelo básico
modelos implantados usando Mosaic AI Model Serving
Consulte o notebook de demonstração Ajuste fino de instruções: reconhecimento de entidade nomeada para ver um exemplo de ajuste fino de instruções que descreve a preparação de dados, a configuração e a implantação da execução de treinamento de ajuste fino.

Requisitos​

Etapa 1: Prepare seus dados para treinamento​

Etapa 2: Instale o SDK do databricks_genai​

Etapa 3: Criar um treinamento execução​

Etapa 4: visualizar o status de uma execução​

Etapa 5: visualizar as métricas e os resultados​

Etapa 6: Avalie vários modelos personalizados com o Mosaic AI Agent Evaluation antes de implantá-lo​

Etapa 7: implante seu modelo​

Recurso adicional​