AI Runtime を使用して Llama 3.2 1B をファインチューニングする

Open in Databricks

Databricks AI Runtime上で、教師ありファインチューニング（SFT）を使用して大規模言語モデルを完全にファインチューニングします。このノートブックは、Transformers Reinforcement Learning (TRL) ライブラリとDeepSpeed ZeRO Stage 3最適化を使用して、8つのH100 GPUを搭載したシングルノードでLlama 3.2 1Bを効率的にトレーニングする。

主要概念：

TRL (Transformers Reinforcement Learning) : 強化学習と教師付きファインチューニングを使用して言語モデルをトレーニングするためのツールを提供するライブラリ。
DeepSpeed ZeRO Stage 3 : モデルの欠点、勾配、およびオプティマイザーの状態を GPU 全体に分割して、大規模なモデルのトレーニングを可能にするメモリ最適化手法。
AI Runtime : Databricksで管理された GPU コンピュート。トレーニングワークロードのプロビジョニングと GPU リソースのスケーリングを自動的に行います。

詳細については、 AI Runtimeを参照してください。

要件

このノートブックには以下のものが必要です。

AI Runtime : ノートブックは、分散トレーニング用に 8 個の H100 GPU を備えたDatabricks AI Runtimeを使用します。クラスター構成は必要ありません。
Unity Catalog : モデルのチェックポイントを保存し、トレーニング済みモデルを登録するためのUnity Catalogカタログとスキーマ。
HuggingFace トークン : ベースモデルとデータセットをダウンロードするための HuggingFace アクセスライセンスはDatabricksシークレットに保存されます。
Pythonパッケージ：AI Runtime は、ほとんどの必要なライブラリをプレインストールしています。以下のセットアップセクションでは、deepspeedをインストールします。

サーバレス GPU コンピュートの接続

このノートブックにはサーバレス GPU コンピュートが必要です。接続するには

ノートブックの右上にあるコンピュートセレクターをクリックし、**サーバレスGPU**を選択します。
右側にある環境ボタンをクリックします。
アクセラレータとして 8xH100 を選択します。
このノートブックの例を実行するために必要なすべてのライブラリが含まれている右側のパネルから、AI v5環境を選択してください。
[適用] をクリックします。

トレーニング関数は、分散トレーニングのために8基のH100 GPUを自動的にプロビジョニングします。

必要なパッケージをインストールします

AI Runtimeには、必要なライブラリのほとんどがすでにプリインストールされています。この例では、deepspeedのみをインストールする必要があります。

Python
%pip install deepspeed==0.19.1
%restart_python

Unity Catalogと環境変数を構成する

モデルのチェックポイントを保存し、トレーニング済みモデルを登録するためのUnity Catalog場所を設定します。ノートブックはクエリを使用して次の設定を行います。

カタログとスキーマ ：モデルとチェックポイントを整理するためのUnity Catalog名前空間
モデル名 ： Unity Catalogに登録されたモデルの名前
Volume : トレーニング中にモデルのチェックポイントを保存するためのUnity Catalogボリューム

この構成では、 Databricksシークレットから HuggingFace を取得し、トレーニングメトリクスを追跡するためのMLflowエクスペリメントも設定します。

Python
dbutils.widgets.text("uc_catalog", "main")
dbutils.widgets.text("uc_schema", "default")
dbutils.widgets.text("uc_model_name", "llama3_2-1b")
dbutils.widgets.text("uc_volume", "checkpoints")

UC_CATALOG = dbutils.widgets.get("uc_catalog")
UC_SCHEMA = dbutils.widgets.get("uc_schema")
UC_MODEL_NAME = dbutils.widgets.get("uc_model_name")
UC_VOLUME = dbutils.widgets.get("uc_volume")

# Get HuggingFace token and username
hf_token = dbutils.secrets.get(scope="sgc-nightly-notebook", key="hf_token")
username = spark.sql("SELECT session_user()").collect()[0][0]

REGISTERED_MODEL_NAME = f"{UC_CATALOG}.{UC_SCHEMA}.{UC_MODEL_NAME}"
CHECKPOINT_DIR = f"/Volumes/{UC_CATALOG}/{UC_SCHEMA}/{UC_VOLUME}/{UC_MODEL_NAME}"
MLFLOW_EXPERIMENT_NAME = f"/Users/{username}/{UC_MODEL_NAME}"

# Create the Unity Catalog volume if it doesn't exist
spark.sql(f"CREATE VOLUME IF NOT EXISTS {UC_CATALOG}.{UC_SCHEMA}.{UC_VOLUME}")

print(f"👤 Username: {username}")
print("🔑 HuggingFace token configured")
print(f"UC_CATALOG: {UC_CATALOG}")
print(f"UC_SCHEMA: {UC_SCHEMA}")
print(f"UC_MODEL_NAME: {UC_MODEL_NAME}")
print(f"UC_VOLUME: {UC_VOLUME}")
print(f"CHECKPOINT_DIR: {CHECKPOINT_DIR}")
print(f"MLFLOW_EXPERIMENT_NAME: {MLFLOW_EXPERIMENT_NAME}")

Python
import os
import json
import tempfile
import torch
import mlflow
from huggingface_hub import constants
from datasets import load_dataset
from transformers import AutoTokenizer, AutoModelForCausalLM
from trl import SFTTrainer

DeepSpeed ZeRO Stage 3構成を作成する

DeepSpeed ZeRO (Zero Redundancy Optimizer) ステージ 3 は、モデル、勾配、およびオプティマイザの状態をすべての GPU に分割して、GPU ごとのメモリ消費量を削減します。これにより、単一の GPU のメモリに収まらない大規模なモデルのトレーニングが可能になります。

主要設定項目：

bf16有効 ：bfloat16精度を使用して、トレーニングを高速化し、メモリ使用量を削減します。
ステージ3の最適化 ：すべてのモデル状態をGPUに分割します
CPUオフロードなし ：H100ハードウェアでのパフォーマンスを最大限に高めるため、すべてのデータをGPU上に保持します。
オーバーラップ通信 ：効率化のために勾配通信と計算をオーバーラップさせる

Python
def create_deepspeed_config(stage: int):
    """Create a DeepSpeed ZeRO configuration for single-node 8xH100 training."""

    deepspeed_config = {
        "fp16": {
            "enabled": False
        },
        "bf16": {
            "enabled": True
        },
        "zero_optimization": {
            "stage": stage,
            "offload_optimizer": {
                "device": "none"
            },
            "offload_param": {
                "device": "none"
            },
            "overlap_comm": True,
            "contiguous_gradients": True,
            "sub_group_size": 1e9,
            "reduce_bucket_size": "auto",
            "stage3_prefetch_bucket_size": "auto",
            "stage3_param_persistence_threshold": 0,
            "stage3_max_live_parameters": 1e9,
            "stage3_max_reuse_distance": 1e9,
            "stage3_gather_16bit_weights_on_model_save": True
        },
        "gradient_accumulation_steps": 1,
        "gradient_clipping": "auto",
        "steps_per_print": 2000,
        "train_batch_size": "auto",
        "train_micro_batch_size_per_gpu": "auto",
        "wall_clock_breakdown": False
    }

    return deepspeed_config


# Create DeepSpeed configuration
zero_stage = 3
deepspeed_config = create_deepspeed_config(zero_stage)
print(f"⚙️  DeepSpeed ZeRO Stage {zero_stage} configuration created")

トレーニングパラメーターを定義する

監視付きファインチューニングを設定します。

モデル ：Llama 3.2 1B Instruct、H100 GPUに適したコンパクトモデル
データセット : 会話型AIトレーニング用の TRL ライブラリからの Capybara データセット
バッチサイズ : デバイスあたり 2、有効バッチサイズ 64 の 4 勾配累積ステップ
学習率 ：コサインスケジューラとウォームアップを使用した場合、2e-4
トレーニング ステップ : デモンストレーション用 60 ステップ (完全なトレーニング用に増加)

この構成では、メモリ使用量を最適化するために、bfloat16精度と勾配チェックポイントを使用しています。

Python
def create_training_config():
    """Create training configuration for TRL SFT."""

    # Model and dataset configuration (not part of TrainingArguments)
    model_config = {
        "model_name": "meta-llama/Llama-3.2-1B-Instruct",  # Small Llama model suitable for 8xH100
        "dataset_name": "trl-lib/Capybara"
    }

    # Training arguments that will be passed directly to TrainingArguments
    training_args_config = {
        "output_dir": CHECKPOINT_DIR,
        "per_device_train_batch_size": 2,
        "per_device_eval_batch_size": 2,
        "gradient_accumulation_steps": 1,
        "learning_rate": 2e-4,
        "max_steps": 60,   # TO DO remove when fine-tuning on full dataset. Demo purposes only.
        "logging_steps": 10,
        "save_steps": 30,
        "eval_steps": 30,
        "eval_strategy": "steps",
        "warmup_steps": 10,
        "lr_scheduler_type": "cosine",
        "gradient_checkpointing": False,
        "fp16": False,
        "bf16": True,
        "optim": "adamw_torch",
        "remove_unused_columns": False,
        "run_name": f"llama3.2-1b-fft-zero3",
        "report_to": "mlflow",
        "save_total_limit": 2,
        "load_best_model_at_end": True,
        "metric_for_best_model": "eval_loss",
        "greater_is_better": False,
    }

    return model_config, training_args_config

# Create training configuration
model_config, training_args_config = create_training_config()

print("📊 Training Configuration:")
print(f"  🤖 Model: {model_config['model_name']}")
print(f"  📚 Dataset: {model_config['dataset_name']}")
print(f"  🎯 Batch size: {training_args_config['per_device_train_batch_size']}")
print(f"  📈 Learning rate: {training_args_config['learning_rate']}")

分散トレーニング関数を定義する

serverless_gpuライブラリの@distributedデコレーターは、Databricks AI RuntimeでのGPUワークロードの実行を可能にします。デコレーターは8基のH100 GPUをプロビジョニングし、分散トレーニングのセットアップを自動的に処理します。

鍵となる問題:

gpus=8 : 分散トレーニング用に8つのGPUを要求します
gpu_type='H100' : H100 GPUハードウェアを指定します

トレーニング機能：

HuggingFaceから基本モデルとトークナイザーをロードします
会話型AIのチャットフォーマットを設定します
トレーニングデータセットを読み込みます
TRL SFTTrainerをDeepSpeed最適化で初期化します。
モデルをトレーニングしてチェックポイントを保存します
トレーニング結果とMLflow実行IDを返します。

詳細については、 AI Runtime APIドキュメントを参照してください。

Python
from serverless_gpu import distributed

mlflow.set_experiment(MLFLOW_EXPERIMENT_NAME)
@distributed(
    gpus=8,
    gpu_type='H100',
)
def run_distributed_trl_sft():
    """
    Distributed TRL SFT training function using AI Runtime.

    This function will be executed on the H100 GPU with DeepSpeed optimization.
    """

    # Set up environment variables for remote jobs
    import os
    import tempfile
    import json
    from huggingface_hub import constants
    from datasets import load_dataset
    from transformers import AutoTokenizer
    from trl import SFTTrainer, SFTConfig

    # HuggingFace configuration
    os.environ["HUGGING_FACE_HUB_TOKEN"] = hf_token
    os.environ['HF_TOKEN'] = hf_token
    constants.HF_HUB_ENABLE_HF_TRANSFER = True

    # Set up temporary directories
    temp_dir = tempfile.mkdtemp()

    print("🚀 Starting TRL SFT training on H100 GPU...")

    try:
        # Load tokenizer
        print(f"📥 Loading tokenizer from model: {model_config['model_name']}")
        tokenizer = AutoTokenizer.from_pretrained(model_config['model_name'])

        # Add pad token if not present
        if tokenizer.pad_token is None:
            tokenizer.pad_token = tokenizer.eos_token

        # Load dataset
        print(f"📚 Loading dataset: {model_config['dataset_name']}")
        dataset = load_dataset(model_config['dataset_name'])

        # Create temporary DeepSpeed config file
        deepspeed_config_path = os.path.join(temp_dir, "deepspeed_config.json")
        with open(deepspeed_config_path, "w") as f:
            json.dump(deepspeed_config, f, indent=2)

        # Training arguments - dynamically pass all config parameters
        training_args = SFTConfig(
            **training_args_config,
            deepspeed=deepspeed_config_path,  # Override deepspeed with the config file path
        )

        # Initialize SFT Trainer
        print("🏋️ Initializing SFT Trainer with DeepSpeed...")
        trainer = SFTTrainer(
            model=model_config["model_name"],
            args=training_args,
            train_dataset=dataset["train"],
            eval_dataset=dataset["test"] if "test" in dataset else None,
            processing_class=tokenizer,
        )

        # Start training
        print("🎯 Starting training...")
        trainer.train()

        # Save the model
        print("💾 Saving trained model...")
        trainer.save_model()

        # Get training results
        train_results = trainer.state.log_history
        final_loss = train_results[-1].get('train_loss', 'N/A') if train_results else 'N/A'

        print("✅ Training completed successfully!")
        print(f"📊 Final training loss: {final_loss}")

        mlflow_run_id = None
        if mlflow.last_active_run() is not None:
            mlflow_run_id = mlflow.last_active_run().info.run_id

        return {
            "status": "success",
            "final_loss": final_loss,
            "output_dir": training_args_config['output_dir'],
            "model_name": model_config['model_name'],
            "mlflow_run_id": mlflow_run_id,
        }

    except Exception as e:
        print(f"❌ Training failed: {e}")
        import traceback
        traceback.print_exc()
        return {
            "status": "failed",
            "error": str(e)
        }

分散トレーニングジョブを実行します

デコレートされた関数で .distributed() を呼び出し、トレーニング関数を実行します。これにより、AI Runtimeリソースをプロビジョニングし、DeepSpeed最適化を使用して8基のH100 GPUでトレーニングを実行し、結果を返します。

トレーニングプロセス:

8つのH100 GPUを自動的にプロビジョニングします
HuggingFaceからモデルとデータセットをダウンロードします
モデルをフルファインチューニングでトレーニングします。
チェックポイントをUnity Catalogボリュームに保存します
MLflowにメトリクスをログ記録する
トレーニングステータス、最終損失、 MLflow実行 ID を返します。

Python
# Execute the distributed training
results = run_distributed_trl_sft.distributed()

print("🏁 Training execution completed!")
print(f"📊 Results: {results}")

if results and results[0].get('status') == 'success':
    print("✅ Training completed successfully!")
    print(f"💾 Model saved to: {results[0].get('output_dir', 'N/A')}")
    print(f"📈 Final loss: {results[0].get('final_loss', 'N/A')}")
    print(f"🎉 MLflow run ID: {results[0].get('mlflow_run_id', 'N/A')}")
else:
    print("❌ Training failed!")
    if results and 'error' in results:
        print(f"🔍 Error: {results['error']}")

微調整したモデルを保存し、推論をテストする

このオプションのステップでは、ファインチューニングされたモデルをロードし、サンプルプロンプトでテストして結果を検証します。

プロセス：

保存されたモデルを読み込みます
サンプル会話プロンプトを使用してモデルをテストします

Python
def save_and_load_trained_model():
    """Load the fully fine-tuned model from the Unity Catalog volume."""

    import torch
    from transformers import AutoModelForCausalLM, AutoTokenizer

    print(f"📥 Loading fine-tuned model from: {training_args_config['output_dir']}")

    # Load the fully fine-tuned model directly from the checkpoint directory
    model = AutoModelForCausalLM.from_pretrained(
        training_args_config['output_dir'],
        torch_dtype=torch.bfloat16,
        trust_remote_code=True,
        device_map={&quot;&quot;:0}
    )
    tokenizer = AutoTokenizer.from_pretrained(training_args_config['output_dir'], trust_remote_code=True)

    print("✅ Model loaded successfully!")
    return model, tokenizer

def test_trained_model(model, tokenizer):
    """Test the trained model with simple inference."""

    try:
        import torch
        # Test prompt
        # Create a conversation following the schema
        conversation = [
            {
                "content": "What is machine learning?",
                "role": "user"
            }
        ]

        # Convert conversation to chat format
        prompt = ""
        for message in conversation:
            if message["role"] == "user":
                prompt += f"### User: {message['content']}\n### Response:"
            else:
                prompt += f" {message['content']}\n\n"

        # Tokenize
        inputs = tokenizer(prompt, return_tensors="pt").to("cuda")

        # Generate
        with torch.no_grad():
            outputs = model.generate(
                **inputs,
                max_new_tokens=500,
                temperature=0.7,
                do_sample=True,
                pad_token_id=tokenizer.eos_token_id
            )

        # Decode
        response = tokenizer.decode(outputs[0], skip_special_tokens=True)
        print("🤖 Model Response:")
        print(response)
        return response

    except Exception as e:
        print(f"❌ Model testing failed: {e}")

# Save and load the trained model
model, tokenizer = save_and_load_trained_model()

# Test the trained model
test_trained_model(model, tokenizer)

Unity Catalogにモデルを登録する

微調整されたモデルをMLflowに記録し、デプロイと提供のためにUnity Catalogに登録します。モデルは以下のようにログに記録されます。

モデルとトークナイザー ：推論に必要な両方のコンポーネント
タスクタイプ ：会話型AI用にllm/v1/chatとして設定
入力例 ：テスト用のサンプルチャットメッセージ形式
Unity Catalog登録 : 設定したカタログとスキーマにモデルを自動的に登録します

登録すると、モデルをモデルサービングエンドポイントにデプロイしたり、バッチ推論に使用したりできます。

Python
run_id = results[0].get('mlflow_run_id')
mlflow.set_registry_uri("databricks-uc")

# log the model to mlflow using the latest run id and register to Unity Catalog
with mlflow.start_run(run_id=run_id) as run:
    components = {
        "model": model,
        "tokenizer": tokenizer
    }
    logged_model = mlflow.transformers.log_model(
        transformers_model=components,
        name="model",
        task="llm/v1/chat",
        input_example={
            &quot;messages&quot;: [
                {&quot;role&quot;: &quot;user&quot;, &quot;content&quot;: &quot;What is machine learning?&quot;}
            ]
        },
        registered_model_name=REGISTERED_MODEL_NAME
        )
    print(f"🔍 Model logged to: {logged_model}")

次のステップ

サンプルノートブック

AI Runtime を使用して Llama 3.2 1B をファインチューンする

ノートブックを新しいタブで開く Open in Databricks

要件​

サーバレス GPU コンピュートの接続​

必要なパッケージをインストールします​

Unity Catalogと環境変数を構成する​

DeepSpeed ZeRO Stage 3構成を作成する​

トレーニングパラメーターを定義する​

分散トレーニング関数を定義する​

分散トレーニングジョブを実行します​

微調整したモデルを保存し、推論をテストする​

Unity Catalogにモデルを登録する​

次のステップ​

サンプルノートブック​