view, gerenciar e analisar Mosaic AI Modelo de treinamento execução
Importante
Esse recurso está em Public Preview. Entre em contato com a equipe do Databricks account para se inscrever no Public Preview.
Este artigo descreve como view, gerenciar e analisar a execução do Mosaic AI Model treinamento (anteriormente Foundation Model treinamento) usando APIs ou a UI.
Para obter informações sobre a criação de execução, consulte Criar um treinamento execução usando o Mosaic AI Model treinamento API e Criar um treinamento execução usando o Mosaic AI Model treinamento UI.
Use o modelo Mosaic AI treinamento APIs para view e gerenciar treinamento execução
O treinamento Mosaic AI Model APIs oferece as seguintes funções para gerenciar seu treinamento execução.
Obter uma execução
Use a função get()
para retornar uma execução por nome ou objeto de execução que o senhor tenha iniciado.
from databricks.model_training import foundation_model as fm
fm.get('<your-run-name>')
Lista de execução
Use a função list()
para ver a execução que o senhor iniciou. A tabela a seguir lista os filtros opcionais que o senhor pode especificar.
Filtro opcional |
Definição |
---|---|
|
Uma lista de execuções a serem obtidas. padrão para selecionar todas as execuções. |
|
Se a execução compartilhada estiver habilitada para o seu workspace, o senhor poderá filtrar os resultados pelo usuário que enviou o treinamento execução. padrão para nenhum filtro de usuário. |
|
Uma datetime ou strings de datetime para filtrar a execução antes. padrão para todas as execuções. |
|
Uma datetime ou strings de datetime para filtrar a execução após. padrão para todas as execuções. |
from databricks.model_training import foundation_model as fm
fm.list()
# filtering example
fm.list(before='01012023', limit=50)
Revisão do status do treinamento execução
A tabela a seguir lista os eventos criados por uma execução de treinamento. Use a função get_events()
a qualquer momento durante a execução para ver o andamento da execução.
Tipo de evento |
Exemplo de mensagem de evento |
Definição |
---|---|---|
|
execução criada. |
treinamento execução foi criado. Se os recursos estiverem disponíveis, a execução começará. Caso contrário, ele entra no estado |
|
execução começar. |
recurso foram alocados, e a execução começou. |
|
Dados de treinamento validados. |
Validou que os dados de treinamento estão formatados corretamente. |
|
Os dados do modelo são baixados e inicializados para o modelo básico |
Os pesos do modelo básico foram baixados e o treinamento está pronto para começar. |
|
[epoch=1/1][lotes=50/56][ETA=5min] Perda de ensino: 1.71 |
Informa os lotes de treinamento, a época ou os tokens atuais, o tempo estimado para o término do treinamento (não incluindo o tempo do ponto de verificação upload ) e a perda de treinamento. Esse evento é atualizado quando cada lote termina. Se a configuração de execução especificar |
|
treinamento concluído. |
O treinamento foi concluído. Começa o upload do ponto de controle. |
|
execução concluída. Carregamento dos pesos finais. |
O ponto de controle foi carregado e a execução foi concluída. |
|
execução cancelada. |
A execução é cancelada se |
|
Uma ou mais amostras do ensinar dataset têm chave desconhecida. Consulte a documentação para saber quais são os formatos de dados compatíveis. |
A execução falhou. Verifique |
from databricks.model_training import foundation_model as fm
fm.get_events()
Use a UI para view e gerenciar a execução
Para view execução na UI:
Clique em Experiments (Experimentos ) na barra de navegação esquerda para exibir a página Experiments (Experimentos).
Na tabela, clique no nome do seu experimento para exibir a página do experimento. A página do experimento lista todas as execuções associadas ao experimento.
Para exibir informações ou métricas adicionais na tabela, clique em e selecione os itens a serem exibidos no menu:
Informações adicionais sobre a execução estão disponíveis no gráfico tab:
O senhor também pode clicar no nome da execução para exibir a tela de execução. Essa tela lhe dá acesso a detalhes adicionais sobre a execução.
Pontos de controle
Para acessar a pasta do ponto de verificação, clique em Artifacts tab na tela de execução. Abra o nome do experimento e, em seguida, abra a pasta de pontos de controle. Esses pontos de verificação de artefatos não são iguais ao modelo registrado no final de uma execução de treinamento.
Há alguns diretórios nessa pasta:
As pastas de época (denominadas
ep<n>-xxx
) contêm os pesos e os estados do modelo em cada ponto de verificação do Composer. Os pontos de verificação do Composer são salvos periodicamente durante o treinamento, e são usados para retomar uma execução de treinamento de ajuste fino e para continuar o ajuste fino. Esse ponto de verificação é o que o senhor passa comocustom_weights_path
para começar outro treinamento execução a partir desses pesos, consulte Construir pesos de modelos personalizados.Na pasta
huggingface
, os pontos de verificação do Hugging Face também são salvos periodicamente durante o treinamento. Depois de download o conteúdo dessa pasta, o senhor pode carregar esses pontos de verificação como faria com qualquer outro ponto de verificação de Hugging Face usandoAutoModelForCausalLM.from_pretrained(<downloaded folder>)
.O
checkpoints/latest-sharded-rank0.symlink
é um arquivo que contém o caminho para o último ponto de verificação, que o senhor pode usar para retomar o treinamento.