viewgerenciar e analisar o Foundation Model treinamento execução

Importante

Esse recurso está em Public Preview. Entre em contato com a equipe do Databricks account para se inscrever no Public Preview.

Este artigo descreve como view, gerenciar e analisar a execução do treinamento do Founation Model usando APIs ou usando a UI Databricks.

Para obter informações sobre a criação de execução, consulte Criar um treinamento execução usando o Foundation Model treinamento API e Criar um treinamento execução usando o Foundation Model treinamento UI.

Use o treinamento do Foundation Model APIs para view e gerenciar a execução do treinamento

O Foundation Model treinamento APIs oferece as seguintes funções para gerenciar seu treinamento execução.

Obter uma execução

Use a função get() para retornar uma execução por nome ou objeto de execução que o senhor tenha iniciado.

from databricks.model_training import foundation_model as fm

fm.get('<your-run-name>')

Lista de execução

Use a função list() para ver a execução que o senhor iniciou. A tabela a seguir lista os filtros opcionais que o senhor pode especificar.

Filtro opcional

Definição

finetuning_runs

Uma lista de execuções a serem obtidas. padrão para selecionar todas as execuções.

user_emails

Se a execução compartilhada estiver habilitada para o seu workspace, o senhor poderá filtrar os resultados pelo usuário que enviou o treinamento execução. padrão para nenhum filtro de usuário.

before

Uma datetime ou strings de datetime para filtrar a execução antes. padrão para todas as execuções.

after

Uma datetime ou strings de datetime para filtrar a execução após. padrão para todas as execuções.

from databricks.model_training import foundation_model as fm

fm.list()

# filtering example
fm.list(before='01012023', limit=50)

Cancelar treinamento execução

Para cancelar uma execução, use a função cancel() e passe a execução ou uma lista da execução do treinamento.

from databricks.model_training import foundation_model as fm

run_to_cancel = '<name-of-run-to-cancel>'
fm.cancel(run_to_cancel)

Excluir treinamento execução

Use delete() para excluir o treinamento execução, passando uma única execução ou uma lista de execuções.

from databricks.model_training import foundation_model as fm

fm.delete('<name-of-run-to-delete>')

Revisão do status do treinamento execução

A tabela a seguir lista os eventos criados por uma execução de treinamento. Use a função get_events() a qualquer momento durante a execução para ver o andamento da execução.

Tipo de evento

Exemplo de mensagem de evento

Definição

CREATED

execução criada.

treinamento execução foi criado. Se os recursos estiverem disponíveis, a execução começará. Caso contrário, ele entra no estado Pending.

STARTED

execução começar.

recurso foram alocados, e a execução começou.

DATA_VALIDATED

Dados de treinamento validados.

Validou que os dados de treinamento estão formatados corretamente.

MODEL_INITIALIZED

Os dados do modelo são baixados e inicializados para o modelo básico meta-llama/Llama-2-7b-chat-hf.

Os pesos do modelo básico foram baixados e o treinamento está pronto para começar.

TRAIN_UPDATED

[epoch=1/1][lotes=50/56][ETA=5min] Perda de ensino: 1.71

Informa os lotes de treinamento, a época ou os tokens atuais, o tempo estimado para o término do treinamento (não incluindo o tempo do ponto de verificação upload ) e a perda de treinamento. Esse evento é atualizado quando cada lote termina. Se a configuração de execução especificar max_duration em tok unidades, o progresso será relatado em tokens.

TRAIN_FINISHED

treinamento concluído.

O treinamento foi concluído. Começa o upload do ponto de controle.

COMPLETED

execução concluída. Carregamento dos pesos finais.

O ponto de controle foi carregado e a execução foi concluída.

CANCELED

execução cancelada.

A execução é cancelada se fm.cancel() for chamado nela.

FAILED

Uma ou mais amostras do ensinar dataset têm chave desconhecida. Consulte a documentação para saber quais são os formatos de dados compatíveis.

A execução falhou. Verifique event_message para obter detalhes acionáveis ou entre em contato com o suporte.

from databricks.model_training import foundation_model as fm

fm.get_events()

Use a UI para view e gerenciar a execução

Para view execução na UI:

  1. Clique em Experiments (Experimentos ) na barra de navegação esquerda para exibir a página Experiments (Experimentos).

  2. Na tabela, clique no nome do seu experimento para exibir a página do experimento. A página do experimento lista todas as execuções associadas ao experimento.

    página de experimentos
  3. Para exibir informações ou métricas adicionais na tabela, clique em sinal de mais e selecione os itens a serem exibidos no menu:

    adicionar métricas ao gráfico
  4. Informações adicionais sobre a execução estão disponíveis no gráfico tab:

    gráfico tab
  5. O senhor também pode clicar no nome da execução para exibir a tela de execução. Essa tela lhe dá acesso a detalhes adicionais sobre a execução.

    página de execução

Pasta de pontos de controle

Para acessar a pasta do ponto de verificação, clique em Artifacts tab na tela de execução. Abra o nome do experimento e, em seguida, abra a pasta de pontos de controle.

pasta de pontos de verificação em artefatos tab

As pastas de época (denominadas ep<n>-xxx) contêm os pesos em cada ponto de verificação e podem ser usadas para iniciar outro treinamento execução a partir desses pesos.

O senhor pode fazer download do conteúdo da pasta huggingface e usá-lo como modelo do Hugging Face.