Introdução ao Mosaic AI Model treinamento
Importante
Esse recurso está em Public Preview. Entre em contato com a equipe do Databricks account para se inscrever no Public Preview.
Com o Mosaic AI Model treinamento (anteriormente Foundation Model treinamento), o senhor pode usar seus próprios dados para personalizar um modelo de fundação e otimizar seu desempenho para sua aplicação específica. Ao fazer o ajuste fino ou continuar o treinamento de um modelo básico, o senhor pode ensinar seu próprio modelo usando significativamente menos dados, tempo e compute recurso do que treinar um modelo do zero.
Com o Databricks, o senhor tem tudo em uma única plataforma: seus próprios dados para usar no treinamento, o modelo de fundação para ensinar, pontos de verificação salvos em MLflow e o modelo registrado em Unity Catalog e pronto para ser implantado.
O que é o Mosaic AI Model treinamento?
Mosaic AI O treinamento de modelos permite que o senhor use o site Databricks API ou a interface do usuário para ajustar ou ensinar ainda mais um modelo básico.
Usando o Mosaic AI Model treinamento, o senhor pode:
Ensine um modelo com seus dados personalizados, com os pontos de controle salvos em MLflow. O senhor mantém controle total sobre o modelo treinado.
Registre automaticamente o modelo em Unity Catalog, permitindo fácil implementação com o servindo modelo.
Ensinar ainda mais um modelo proprietário completo, carregando os pesos de um modelo treinado anteriormente.
Databricks recomenda que o senhor experimente o Mosaic AI Model treinamento se:
O senhor já tentou aprender com poucos disparos e deseja obter melhores resultados.
O senhor tentou a engenharia imediata em um modelo existente e deseja obter melhores resultados.
O senhor deseja ter total propriedade sobre um modelo personalizado de privacidade de dados.
O senhor é sensível à latência ou ao custo e deseja usar um modelo menor e mais barato com seus dados específicos da tarefa.
Tarefa suportada
Mosaic AI O modelo de treinamento é compatível com os seguintes casos de uso:
Conclusão do chat: Tarefa recomendada. Ensine seu modelo no chat logs entre um usuário e um assistente de IA. Esse formato pode ser usado tanto para o bate-papo real logs, quanto como um formato padrão para respostas a perguntas e texto de conversação. O texto é formatado automaticamente no formato apropriado para o modelo específico. Consulte o exemplo de padrão de bate-papo na documentação do HuggingFace para obter mais informações sobre modelos.
Ajuste fino supervisionado: ensine seu modelo em dados estruturados de resposta rápida. Use isso para adaptar seu modelo a uma nova tarefa, alterar seu estilo de resposta ou adicionar recursos de acompanhamento de instruções. Essa tarefa não aplica automaticamente nenhuma formatação aos seus dados e é recomendada apenas quando é necessária uma formatação personalizada dos dados.
Pré-treinamento contínuo: ensine seu modelo com dados de texto adicionais. Use isso para adicionar novos conhecimentos a um modelo ou concentrar um modelo em um domínio específico.
Requisitos
Um Databricks workspace em uma das seguintes regiões AWS:
us-east-1
,us-west-2
.Mosaic AI Modelo de treinamento APIs instalado usando
pip install databricks_genai
.Databricks Runtime 12.2 LTS ML ou acima se seus dados estiverem em uma tabela Delta.
Consulte Preparar dados para Mosaic AI Model treinamento para obter informações sobre os formatos de dados de entrada necessários.
Tamanho de dados recomendado para o treinamento do modelo
Para o ajuste fino supervisionado e o preenchimento do chat, o senhor deve fornecer tokens suficientes para pelo menos um comprimento de contexto completo do modelo. Por exemplo, 4096 tokens para meta-llama/Llama-2-7b-chat-hf
ou 32768 tokens para mistralai/Mistral-7B-v0.1
.
Para um pré-treinamento contínuo, a Databricks recomenda um mínimo de 1,5 milhão de amostras para obter um modelo de maior qualidade que aprenda seus dados personalizados.
Modelos suportados
Para obter os modelos suportados mais recentes e seus comprimentos de contexto associados, use a função get_models()
.
Importante
Llama 3 está licenciado sob a Licença da comunidade LLAMA 3, Copyright © Meta Platforms, Inc. Todos os direitos reservados. Os clientes são responsáveis por garantir o compliance com as licenças de modelo aplicáveis.
Llama 2 e Code Llama estão licenciados sob a LLAMA 2 comunidade License, Copyright © Meta Platforms, Inc. Todos os direitos reservados. Os clientes são responsáveis por garantir o compliance com as licenças de modelo aplicáveis.
O DBRX é fornecido sob e sujeito à Licença de Modelo Aberto da Databricks, Copyright © Databricks, Inc. Todos os direitos reservados. Os clientes são responsáveis por garantir que o compliance esteja em conformidade com as licenças de modelo aplicáveis, incluindo a política de uso aceitável doDatabricks .
from databricks.model_training import foundation_model
foundation_model.get_models()
A tabela a seguir é um exemplo de saída e não se destina a ser uma lista exaustiva dos modelos compatíveis.
Modelo |
Comprimento máximo do contexto |
---|---|
|
4096 |
|
4096 |
|
8192 |
|
8192 |
|
8192 |
|
8192 |
|
4096 |
|
4096 |
|
4096 |
|
4096 |
|
4096 |
|
4096 |
|
16384 |
|
16384 |
|
16384 |
|
16384 |
|
16384 |
|
16384 |
|
16384 |
|
16384 |
|
16384 |
|
32768 |
|
32768 |
|
32768 |
Use Mosaic AI Model treinamento
Mosaic AI O modelo de treinamento pode ser acessado usando o databricks_genai
SDK. O exemplo a seguir cria e inicia uma execução de treinamento que usa dados do Unity Catalog Volumes. Consulte Criar um treinamento execução usando o Mosaic AI Model treinamento API para obter detalhes sobre a configuração.
from databricks.model_training import foundation_model as fm
model = 'meta-llama/Llama-2-7b-chat-hf'
# UC Volume with JSONL formatted data
train_data_path = 'dbfs:/Volumes/main/mydirectory/ift/train.jsonl'
register_to = 'main.mydirectory'
run = fm.create(
model=model,
train_data_path=train_data_path,
register_to=register_to,
)
Consulte a demonstração de ajuste fino de instruções: Named Entity Recognition demo Notebook para obter um exemplo de ajuste fino de instruções que percorre a preparação de dados, a configuração e a implementação do treinamento de ajuste fino.
Limitações
Conjuntos de dados grandes (10B+ tokens) não são compatíveis devido à disponibilidade do site compute.
Não há suporte para o PrivateLink.
Para o pré-treinamento contínuo, as cargas de trabalho são limitadas a arquivos de 60 a 256 MB. Arquivos maiores que 1 GB podem causar tempos de processamento mais longos.
Databricks se esforça para disponibilizar os mais recentes modelos de última geração para personalização usando o Mosaic AI Model treinamento. À medida que disponibilizamos novos modelos, podemos remover a capacidade de acessar modelos mais antigos da API e/ou da interface do usuário, descontinuar modelos mais antigos ou atualizar modelos compatíveis. Se um modelo da fundação for removido do site API e/ou da interface do usuário ou obsoleto, o site Databricks tomará os seguintes passos para notificar os clientes pelo menos três meses antes da data de remoção e/ou obsoletismo:
Exibir uma mensagem de aviso no cartão do modelo na página Experimentos > Mosaic AI Model treinamento do seu Databricks workspace indicando que o modelo está programado para ser descontinuado.
Atualizar nossa documentação para incluir um aviso indicando que o modelo está programado para ser descontinuado.