Mosaic AI モデルトレーニングの実行を表示、管理、分析する

重要

この機能は パブリック プレビュー段階です。 パブリック プレビューに登録するには、Databricks アカウント チームにお問い合わせください。

この記事では、 または UI を使用して Mosaic AIモデル トレーニング (旧基盤モデル トレーニング) 実行を表示、管理、分析する方法について説明します。APIs

実行の作成に関する情報については、 「 Mosaic AIモデル トレーニングAPIを使用してトレーニング実行を作成する」およびMosaic AIモデル トレーニング UI を使用してトレーニング実行を作成する」を参照してください。

Mosaic AI Model トレーニングAPIsを使用してトレーニング実行を表示および管理する

Mosaic AI Model トレーニングAPIs 、トレーニング実行を管理するための次の機能を提供します。

実行を取得する

get()関数を使用して、起動した名前による実行または実行オブジェクトを返します。

from databricks.model_training import foundation_model as fm

fm.get('<your-run-name>')

リスト実行

開始した実行を確認するには、 list()関数を使用します。 次の表に、指定できるオプションのフィルターを示します。

オプションのフィルター

定義

finetuning_runs

取得する実行のリスト。 デフォルトではすべての実行が選択されます。

user_emails

ワークスペースで共有実行が有効になっている場合は、トレーニング実行を送信したユーザー別に結果をフィルタリングできます。 デフォルトではユーザー フィルターはありません。

before

実行前にフィルター処理する datetime または datetime 文字列。 デフォルトではすべての実行になります。

after

実行をフィルター処理する datetime または datetime 文字列。 デフォルトではすべての実行になります。

from databricks.model_training import foundation_model as fm

fm.list()

# filtering example
fm.list(before='01012023', limit=50)

キャンセル トレーニング 実行

実行をキャンセルするには、 cancel()関数を使用して、実行またはトレーニング実行のリストを渡します。

from databricks.model_training import foundation_model as fm

run_to_cancel = '<name-of-run-to-cancel>'
fm.cancel(run_to_cancel)

トレーニング実行を削除する

トレーニング 実行 を 1 つまたは実行のリストを渡して削除するには、 delete()を使用します。

from databricks.model_training import foundation_model as fm

fm.delete('<name-of-run-to-delete>')

トレーニング実行のステータスを確認する

次の表は、トレーニング実行によって作成されたイベントの一覧です。 実行中はいつでもget_events()関数を使用して、実行の進行状況を確認できます。

イベントタイプ

イベントメッセージの例

定義

CREATED

実行が作成されました。

トレーニング 実行が作成されました。 リソースが利用可能な場合は、実行が開始されます。 それ以外の場合は、 Pending 状態になります。

STARTED

実行が開始されました。

リソースが割り当てられ、実行が開始されました。

DATA_VALIDATED

トレーニングデータが検証されました。

トレーニング データが正しくフォーマットされていることを検証しました。

MODEL_INITIALIZED

モデルデータがダウンロードされ、基本モデル meta-llama/Llama-2-7b-chat-hf用に初期化されました。

ベースモデルの重みがダウンロードされ、トレーニングを開始する準備が整いました。

TRAIN_UPDATED

[epoch=1/1][バッチ=50/56][ETA=5分] トレーニングする loss: 1.71

現在のバッチ、エポック、トークン、トレーニングが完了するまでの推定時間 (チェックポイントのアップロード時間は含みません)、および損失を報告します。 このイベントは、各バッチが終了するたびに更新されます。 実行構成でtok単位でmax_durationが指定されている場合、進行状況はトークンで報告されます。

TRAIN_FINISHED

トレーニングが完了しました。

トレーニングは終了しました。 チェックポイントのアップロードが開始されます。

COMPLETED

実行が完了しました。 最終的な重みがアップロードされました。

チェックポイントがアップロードされ、実行が完了しました。

CANCELED

ランがキャンセルされました。

fm.cancel()が呼び出されると実行はキャンセルされます。

FAILED

1 つ以上の トレーニング する データセット サンプルに不明なキーがあります。 サポートされているデータ形式については、ドキュメントを確認してください。

実行に失敗しました。 event_messageで実用的な詳細を確認するか、サポートにお問い合わせください。

from databricks.model_training import foundation_model as fm

fm.get_events()

UIを使用して実行を表示および管理する

UI で実行を表示するには:

  1. 左のナビゲーションバーの「エクスペリメント」をクリックすると、「エクスペリメント」ページが表示されます。

  2. 表内でエクスペリメントの名前をクリックすると、エクスペリメント ページが表示されます。 エクスペリメント ページには、エクスペリメントに関連付けられているすべての実行がリストされます。

    エクスペリメントページ
  3. 表に追加の情報やメトリクスを表示するには、正号メニューから表示する項目を選択します。

    グラフにメトリックスを追加
  4. 追加の実行情報はチャートタブで確認できます。

    チャートタブ
  5. 実行名をクリックして実行画面を表示することもできます。 この画面では、実行に関する追加の詳細にアクセスできます。

    ページを実行

チェックポイント

チェックポイント フォルダーにアクセスするには、実行画面の[アーティファクト]タブをクリックします。 エクスペリメント名を開き、チェックポイントフォルダを開きます。 これらのアーティファクト チェックポイントは、トレーニング実行の終了時に登録されたモデルと同じではありません。

アーティファクトタブのチェックポイントフォルダ

このフォルダにはいくつかのディレクトリがあります。

  • エポックフォルダ( ep<n>-xxx)には、各Composerチェックポイントの重みとモデル状態が含まれています。 Composer チェックポイントはトレーニングを通じて定期的に保存され、ファインチューニング トレーニング 実行の再開とファインチューニングの継続に使用されます。 このチェックポイントは、それらの重みから別のトレーニング実行を開始するためにcustom_weights_pathとして渡すものです。 「カスタム モデルの重みに基づいて構築する」を参照してください。

  • huggingfaceフォルダーには、トレーニングを通じて定期的に Hugging Face チェックポイントも保存されます。 このフォルダー内のコンテンツをダウンロードした後、 AutoModelForCausalLM.from_pretrained(<downloaded folder>)を使用して他の Hugging Face チェックポイントと同様にこれらのチェックポイントを読み込むことができます。

  • checkpoints/latest-sharded-rank0.symlinkは、トレーニングを再開するために使用できる最新のチェックポイントへのパスを保持するファイルです。