view, gerenciar e analisar Mosaic AI Modelo de treinamento execução

Importante

Esse recurso está em Public Preview. Entre em contato com a equipe do Databricks account para se inscrever no Public Preview.

Este artigo descreve como view, gerenciar e analisar a execução do Mosaic AI Model treinamento (anteriormente Foundation Model treinamento) usando APIs ou a UI.

Para obter informações sobre a criação de execução, consulte Criar um treinamento execução usando o Mosaic AI Model treinamento API e Criar um treinamento execução usando o Mosaic AI Model treinamento UI.

Use o modelo Mosaic AI treinamento APIs para view e gerenciar treinamento execução

O treinamento Mosaic AI Model APIs oferece as seguintes funções para gerenciar seu treinamento execução.

Obter uma execução

Use a função get() para retornar uma execução por nome ou objeto de execução que o senhor tenha iniciado.

from databricks.model_training import foundation_model as fm

fm.get('<your-run-name>')

Lista de execução

Use a função list() para ver a execução que o senhor iniciou. A tabela a seguir lista os filtros opcionais que o senhor pode especificar.

Filtro opcional

Definição

finetuning_runs

Uma lista de execuções a serem obtidas. padrão para selecionar todas as execuções.

user_emails

Se a execução compartilhada estiver habilitada para o seu workspace, o senhor poderá filtrar os resultados pelo usuário que enviou o treinamento execução. padrão para nenhum filtro de usuário.

before

Uma datetime ou strings de datetime para filtrar a execução antes. padrão para todas as execuções.

after

Uma datetime ou strings de datetime para filtrar a execução após. padrão para todas as execuções.

from databricks.model_training import foundation_model as fm

fm.list()

# filtering example
fm.list(before='01012023', limit=50)

Cancelar treinamento execução

Para cancelar uma execução, use a função cancel() e passe a execução ou uma lista da execução do treinamento.

from databricks.model_training import foundation_model as fm

run_to_cancel = '<name-of-run-to-cancel>'
fm.cancel(run_to_cancel)

Excluir treinamento execução

Use delete() para excluir o treinamento execução, passando uma única execução ou uma lista de execuções.

from databricks.model_training import foundation_model as fm

fm.delete('<name-of-run-to-delete>')

Revisão do status do treinamento execução

A tabela a seguir lista os eventos criados por uma execução de treinamento. Use a função get_events() a qualquer momento durante a execução para ver o andamento da execução.

Tipo de evento

Exemplo de mensagem de evento

Definição

CREATED

execução criada.

treinamento execução foi criado. Se os recursos estiverem disponíveis, a execução começará. Caso contrário, ele entra no estado Pending.

STARTED

execução começar.

recurso foram alocados, e a execução começou.

DATA_VALIDATED

Dados de treinamento validados.

Validou que os dados de treinamento estão formatados corretamente.

MODEL_INITIALIZED

Os dados do modelo são baixados e inicializados para o modelo básico meta-llama/Llama-2-7b-chat-hf.

Os pesos do modelo básico foram baixados e o treinamento está pronto para começar.

TRAIN_UPDATED

[epoch=1/1][lotes=50/56][ETA=5min] Perda de ensino: 1.71

Informa os lotes de treinamento, a época ou os tokens atuais, o tempo estimado para o término do treinamento (não incluindo o tempo do ponto de verificação upload ) e a perda de treinamento. Esse evento é atualizado quando cada lote termina. Se a configuração de execução especificar max_duration em tok unidades, o progresso será relatado em tokens.

TRAIN_FINISHED

treinamento concluído.

O treinamento foi concluído. Começa o upload do ponto de controle.

COMPLETED

execução concluída. Carregamento dos pesos finais.

O ponto de controle foi carregado e a execução foi concluída.

CANCELED

execução cancelada.

A execução é cancelada se fm.cancel() for chamado nela.

FAILED

Uma ou mais amostras do ensinar dataset têm chave desconhecida. Consulte a documentação para saber quais são os formatos de dados compatíveis.

A execução falhou. Verifique event_message para obter detalhes acionáveis ou entre em contato com o suporte.

from databricks.model_training import foundation_model as fm

fm.get_events()

Use a UI para view e gerenciar a execução

Para view execução na UI:

  1. Clique em Experiments (Experimentos ) na barra de navegação esquerda para exibir a página Experiments (Experimentos).

  2. Na tabela, clique no nome do seu experimento para exibir a página do experimento. A página do experimento lista todas as execuções associadas ao experimento.

    página de experimentos
  3. Para exibir informações ou métricas adicionais na tabela, clique em sinal de mais e selecione os itens a serem exibidos no menu:

    adicionar métricas ao gráfico
  4. Informações adicionais sobre a execução estão disponíveis no gráfico tab:

    gráfico tab
  5. O senhor também pode clicar no nome da execução para exibir a tela de execução. Essa tela lhe dá acesso a detalhes adicionais sobre a execução.

    página de execução

Pontos de controle

Para acessar a pasta do ponto de verificação, clique em Artifacts tab na tela de execução. Abra o nome do experimento e, em seguida, abra a pasta de pontos de controle. Esses pontos de verificação de artefatos não são iguais ao modelo registrado no final de uma execução de treinamento.

pasta de pontos de verificação em artefatos tab

Há alguns diretórios nessa pasta:

  • As pastas de época (denominadas ep<n>-xxx) contêm os pesos e os estados do modelo em cada ponto de verificação do Composer. Os pontos de verificação do Composer são salvos periodicamente durante o treinamento, e são usados para retomar uma execução de treinamento de ajuste fino e para continuar o ajuste fino. Esse ponto de verificação é o que o senhor passa como custom_weights_path para começar outro treinamento execução a partir desses pesos, consulte Construir pesos de modelos personalizados.

  • Na pasta huggingface, os pontos de verificação do Hugging Face também são salvos periodicamente durante o treinamento. Depois de download o conteúdo dessa pasta, o senhor pode carregar esses pontos de verificação como faria com qualquer outro ponto de verificação de Hugging Face usando AutoModelForCausalLM.from_pretrained(<downloaded folder>).

  • O checkpoints/latest-sharded-rank0.symlink é um arquivo que contém o caminho para o último ponto de verificação, que o senhor pode usar para retomar o treinamento.