Visualização, gerenciamento e análise de execuções do Mosaic AI Model Training
Importante
Este recurso está em prévia pública em us-east-1
e us-west-2
.
Este artigo descreve como visualizar, gerenciar e analisar execuções do Mosaic AI Model Training (antigo Foundation Model Training) usando APIs ou a interface do usuário.
Para obter informações sobre como criar execuções, consulte Criação de uma execução de treinamento usando a API do Mosaic AI Model Training e Criação de uma execução de treinamento usando a interface do usuário do Mosaic AI Model Training.
Uso das APIs do Mosaic AI Model Training para visualizar e gerenciar execuções de treinamento
As APIs do Mosaic AI Model Training fornecem as seguintes funções para gerenciar suas execuções de treinamento.
Faça uma execução
Use a função get()
para retornar uma execução por nome ou um objeto de execução que você iniciou.
from databricks.model_training import foundation_model as fm
fm.get('<your-run-name>')
Listar execuções
Use a função list()
para ver as execuções que você iniciou. A tabela a seguir lista os filtros opcionais que você pode especificar.
Filtro opcional |
Definição |
---|---|
|
Uma lista de execuções a usar. O padrão é selecionar todas as execuções. |
|
Se as execuções compartilhadas estiverem ativadas para o seu workspace, você poderá filtrar os resultados pelo usuário que enviou a execução de treinamento. O default é nenhum filtro de usuário. |
|
Uma data e hora ou string de data e hora para filtrar execuções anteriores. O default é todas as execuções. |
|
Uma data e hora ou string de data e hora para filtrar execuções posteriores. O default é todas as execuções. |
from databricks.model_training import foundation_model as fm
fm.list()
# filtering example
fm.list(before='01012023', limit=50)
Ver o status das execuções de treinamento
A tabela a seguir lista os eventos criados por uma execução de treinamento. Use a função get_events()
a qualquer momento durante a execução para ver o progresso da sua execução.
Tipo de evento |
Exemplo de mensagem de evento |
Definição |
---|---|---|
|
Execução criada. |
A execução de treinamento foi criada. Se houver recursos disponíveis, a execução é iniciada. Caso contrário, ela entrará no estado |
|
A execução começou. |
Os recursos foram alocados e a execução começou. |
|
Dados de treinamento validados. |
Foi validado que os dados de treinamento estão formatados corretamente. |
|
Dados do modelo baixados e inicializados para o modelo base |
Os pesos para o modelo base foram baixados e o treinamento está pronto para começar. |
|
[epoch=1/1][batch=50/56][ETA=5min] Perda de treinamento loss: 1,71 |
Relata o lote, a época ou o token do treinamento atual, o tempo estimado para a conclusão do treinamento (sem incluir o tempo de upload do ponto de verificação) e a perda de treinamento. Esse evento é atualizado quando cada lote termina. Se a configuração de execução especificar |
|
Treinamento concluído. |
O treinamento terminou. O upload do ponto de verificação é iniciado. |
|
Execução concluída. Os pesos finais foram carregados. |
O ponto de verificação foi carregado e a execução foi concluída. |
|
Execução cancelada. |
A execução será cancelada se ela chamar |
|
Uma ou mais amostras de conjuntos de dados de treinamento têm chaves desconhecidas. Consulte a documentação para saber os formatos de dados compatíveis. |
A execução falhou. Consulte |
from databricks.model_training import foundation_model as fm
fm.get_events()
Use a interface do usuário para ver e gerenciar execuções
Para ver execuções na interface do usuário:
Clique em Experimentos na barra de navegação esquerda para exibir a página Experimentos.
Na tabela, clique no nome do seu experimento para exibir a página do experimento. A página do experimento lista todas as execuções associadas ao experimento.
Para exibir mais informações ou métricas na tabela, clique em
e selecione os itens a serem exibidos no menu:
Há mais informações sobre a execução disponíveis na tab Gráfico:
Você pode clicar também no nome da execução para exibir a tela de execução. Essa tela dá acesso a mais detalhes sobre a execução.
Pontos de verificação
Para acessar a pasta de pontos de verificação, clique na guia Artefatos na tela de execução. Abra o nome do experimento e depois a pasta de pontos de verificação. Esses pontos de verificação de artefatos não são os mesmos que o modelo registrado no final de uma execução de treinamento.
![pasta de pontos de verificação na tab de artefatos](../../_images/checkpoint-folder.png)
Existem alguns diretórios nesta pasta:
As pastas de época (denominadas
ep<n>-xxx
) contêm os pesos e os estados do modelo em cada ponto de verificação do Composer. Os pontos de verificação do Composer são salvos periodicamente durante o treinamento e são usados para retomar uma execução de treinamento de ajuste fino e para continuar o ajuste fino. Esse ponto de verificação é o que o você passa comocustom_weights_path
para iniciar outra execução de treinamento com base nesses pesos. Consulte Construir sobre os pesos dos modelos personalizados.Na pasta
huggingface
, os pontos de verificação do Hugging Face também são salvos periodicamente por meio de treinamento. Após baixar o conteúdo dessa pasta, você pode carregar esses pontos de verificação como faria com qualquer outro ponto de verificação do Hugging Face usandoAutoModelForCausalLM.from_pretrained(<downloaded folder>)
.O
checkpoints/latest-sharded-rank0.symlink
é um arquivo que contém o caminho para o último ponto de verificação, que você pode usar para retomar o treinamento.
O senhor também pode obter os pontos de controle do Composer para uma execução depois que eles forem salvos usando get_checkpoints(run)
. Essa função recebe o objeto execução como entrada. Se os pontos de verificação ainda não existirem, o senhor será solicitado a tentar novamente depois que os pontos de verificação forem salvos.