チュートリアル: Mosaic AI モデルトレーニングの実行を作成してデプロイする
重要
この機能は パブリック プレビュー段階です。 パブリック プレビューに登録するには、Databricks アカウント チームにお問い合わせください。
この記事では、 Mosaic AI Model Training (旧基盤モデル トレーニング) APIを使用して実行を作成および構成し、結果を確認し、 Databricks UI とMosaic AI Model Servingを使用してモデルをデプロイする方法について説明します。
要件
us-east-1
またはus-west-2
AWS リージョンのワークスペース。Databricks Runtime 12.2 LTS ML 以上。
このチュートリアルは、 Databricks ノートブックで実行する必要があります。
受け入れられる形式のトレーニング データ。 「Mosaic AI モデルトレーニング用のデータの準備」を参照してください。
ステップ1: トレーニング用のデータを準備する
「Mosaic AI モデルトレーニング用のデータの準備」を参照してください。
ステップ 2: databricks_genai
SDK をインストールする
databricks_genai
SDK をインストールするには、以下を使用します。
%pip install databricks_genai
次に、 foundation_model
ライブラリをインポートします。
dbutils.library.restartPython()
from databricks.model_training import foundation_model as fm
ステップ3: トレーニング実行を作成する
Mosaic AIモデル トレーニングの create()
関数を使用してトレーニング実行を作成します。 次の事項が必要です。
model
: トレーニングするモデル。train_data_path
: トレーニング データセットの場所です。register_to
: チェックポイントを保存する Unity Catalog カタログとスキーマ。
例えば:
run = fm.create(model='meta-llama/Llama-2-7b-chat-hf',
train_data_path='dbfs:/Volumes/main/my-directory/ift/train.jsonl', # UC Volume with JSONL formatted data
register_to='main.my-directory',
training_duration='1ep')
run
ステップ4: 実行のステータスを表示する
トレーニング実行を完了するのにかかる時間は、トークンの数、モデル、GPU の可用性によって異なります。 トレーニングを高速化するために、 Databricksでは予約済みのコンピュートを使用することをお勧めします。 詳細については、Databricks アカウント チームにお問い合わせください。
実行を開始した後、 get_events()
を使用して実行のステータスを監視できます。
run.get_events()
ステップ5: メトリックと出力を表示する
Databricks UI で結果を表示するには、次の手順に従います。
Databricksワークスペースで、左側のナビゲーション バーの[拡張機能]をクリックします。
リストからエクスペリメントを選択してください。
[チャート]タブでメトリック チャートを確認します。
進捗状況を示す主なトレーニング指標は損失です。 評価損失を使用すると、モデルがトレーニング データに過剰適合しているかどうかを確認できます。 ただし、教師ありトレーニング タスクでは、モデルが改善し続ける一方で評価損失が過剰適合しているように見える可能性があるため、損失に完全に依存すべきではありません。
精度が高いほどモデルは優れていますが、精度が 100% に近いと過学習を示す可能性があることに注意してください。
このタブでは、評価プロンプトを指定した場合、その出力も表示できます。
ステップ6: MLflow LLMを使用して複数のカスタマイズされたモデルを評価する デプロイ前に評価する
「 MLflowを使用して大規模言語モデルを評価する」を参照してください。
ステップ7: モデルをデプロイする
トレーニングの実行が完了すると、モデルがUnity Catalogに自動的に登録されます。 モデルは、実行create()
メソッドのregister_to
フィールドに指定した内容に基づいて登録されます。
モデルをデプロイして提供するには、次の手順に従います。
Unity Catalog内のモデルに移動します。
[ このモデルを提供する] をクリックします。
[ 配信エンドポイントを作成] をクリックします。
[ 名前 ] フィールドに、エンドポイントの名前を入力します。
[作成]をクリックします。
関連リソース
データの準備、構成、およびデプロイメントの手順を説明する手順の例については、「手順 ファインチューニング: Named Entity Recognitionデモ」を参照してください。