Visualização, gerenciamento e análise de execuções do Mosaic AI Model Training

Importante

Este recurso está em prévia pública em us-east-1 e us-west-2.

Este artigo descreve como visualizar, gerenciar e analisar execuções do Mosaic AI Model Training (antigo Foundation Model Training) usando APIs ou a interface do usuário.

Para obter informações sobre como criar execuções, consulte Criação de uma execução de treinamento usando a API do Mosaic AI Model Training e Criação de uma execução de treinamento usando a interface do usuário do Mosaic AI Model Training.

Uso das APIs do Mosaic AI Model Training para visualizar e gerenciar execuções de treinamento

As APIs do Mosaic AI Model Training fornecem as seguintes funções para gerenciar suas execuções de treinamento.

Faça uma execução

Use a função get() para retornar uma execução por nome ou um objeto de execução que você iniciou.

from databricks.model_training import foundation_model as fm

fm.get('<your-run-name>')

Listar execuções

Use a função list() para ver as execuções que você iniciou. A tabela a seguir lista os filtros opcionais que você pode especificar.

Filtro opcional

Definição

finetuning_runs

Uma lista de execuções a usar. O padrão é selecionar todas as execuções.

user_emails

Se as execuções compartilhadas estiverem ativadas para o seu workspace, você poderá filtrar os resultados pelo usuário que enviou a execução de treinamento. O default é nenhum filtro de usuário.

before

Uma data e hora ou string de data e hora para filtrar execuções anteriores. O default é todas as execuções.

after

Uma data e hora ou string de data e hora para filtrar execuções posteriores. O default é todas as execuções.

from databricks.model_training import foundation_model as fm

fm.list()

# filtering example
fm.list(before='01012023', limit=50)

Cancelar execuções de treinamento

Para cancelar uma execução, use a função cancel() e passe a execução ou uma lista das execuções de treinamento.

from databricks.model_training import foundation_model as fm

run_to_cancel = '<name-of-run-to-cancel>'
fm.cancel(run_to_cancel)

Excluir execuções de treinamento

Use delete() para excluir as execuções de treinamento passando uma única execução ou uma lista de execuções.

from databricks.model_training import foundation_model as fm

fm.delete('<name-of-run-to-delete>')

Ver o status das execuções de treinamento

A tabela a seguir lista os eventos criados por uma execução de treinamento. Use a função get_events() a qualquer momento durante a execução para ver o progresso da sua execução.

Tipo de evento

Exemplo de mensagem de evento

Definição

CREATED

Execução criada.

A execução de treinamento foi criada. Se houver recursos disponíveis, a execução é iniciada. Caso contrário, ela entrará no estado Pending.

STARTED

A execução começou.

Os recursos foram alocados e a execução começou.

DATA_VALIDATED

Dados de treinamento validados.

Foi validado que os dados de treinamento estão formatados corretamente.

MODEL_INITIALIZED

Dados do modelo baixados e inicializados para o modelo base meta-llama/Llama-2-7b-chat-hf.

Os pesos para o modelo base foram baixados e o treinamento está pronto para começar.

TRAIN_UPDATED

[epoch=1/1][batch=50/56][ETA=5min] Perda de treinamento loss: 1,71

Relata o lote, a época ou o token do treinamento atual, o tempo estimado para a conclusão do treinamento (sem incluir o tempo de upload do ponto de verificação) e a perda de treinamento. Esse evento é atualizado quando cada lote termina. Se a configuração de execução especificar max_duration em unidades tok , o progresso será relatado em tokens.

TRAIN_FINISHED

Treinamento concluído.

O treinamento terminou. O upload do ponto de verificação é iniciado.

COMPLETED

Execução concluída. Os pesos finais foram carregados.

O ponto de verificação foi carregado e a execução foi concluída.

CANCELED

Execução cancelada.

A execução será cancelada se ela chamar fm.cancel().

FAILED

Uma ou mais amostras de conjuntos de dados de treinamento têm chaves desconhecidas. Consulte a documentação para saber os formatos de dados compatíveis.

A execução falhou. Consulte event_message para ver os detalhes práticos ou entre em contato com o suporte.

from databricks.model_training import foundation_model as fm

fm.get_events()

Use a interface do usuário para ver e gerenciar execuções

Para ver execuções na interface do usuário:

  1. Clique em Experimentos na barra de navegação esquerda para exibir a página Experimentos.

  2. Na tabela, clique no nome do seu experimento para exibir a página do experimento. A página do experimento lista todas as execuções associadas ao experimento.

    página do experimento
  3. Para exibir mais informações ou métricas na tabela, clique em sinal de mais e selecione os itens a serem exibidos no menu:

    adicionar métricas ao gráfico
  4. Há mais informações sobre a execução disponíveis na tab Gráfico:

    tab do gráfico
  5. Você pode clicar também no nome da execução para exibir a tela de execução. Essa tela dá acesso a mais detalhes sobre a execução.

    executar página

Pontos de verificação

Para acessar a pasta de pontos de verificação, clique na guia Artefatos na tela de execução. Abra o nome do experimento e depois a pasta de pontos de verificação. Esses pontos de verificação de artefatos não são os mesmos que o modelo registrado no final de uma execução de treinamento.

pasta de pontos de verificação na tab de artefatos

Existem alguns diretórios nesta pasta:

  • As pastas de época (denominadas ep<n>-xxx) contêm os pesos e os estados do modelo em cada ponto de verificação do Composer. Os pontos de verificação do Composer são salvos periodicamente durante o treinamento e são usados para retomar uma execução de treinamento de ajuste fino e para continuar o ajuste fino. Esse ponto de verificação é o que o você passa como custom_weights_path para iniciar outra execução de treinamento com base nesses pesos. Consulte Construir sobre os pesos dos modelos personalizados.

  • Na pasta huggingface, os pontos de verificação do Hugging Face também são salvos periodicamente por meio de treinamento. Após baixar o conteúdo dessa pasta, você pode carregar esses pontos de verificação como faria com qualquer outro ponto de verificação do Hugging Face usando AutoModelForCausalLM.from_pretrained(<downloaded folder>).

  • O checkpoints/latest-sharded-rank0.symlink é um arquivo que contém o caminho para o último ponto de verificação, que você pode usar para retomar o treinamento.

O senhor também pode obter os pontos de controle do Composer para uma execução depois que eles forem salvos usando get_checkpoints(run). Essa função recebe o objeto execução como entrada. Se os pontos de verificação ainda não existirem, o senhor será solicitado a tentar novamente depois que os pontos de verificação forem salvos.