メインコンテンツまでスキップ

ディープラーニングベースのレコメンダーシステム

備考

ベータ版

この機能は ベータ版です。

サーバレス GPU コンピュートを用いたレコメンデーションシステム構築のノートブックの例をご紹介します。 これらの例は、最新のディープラーニングアプローチを使用して効率的なレコメンデーションモデルを作成する方法を示しています。

2タワー推奨モデル

これらのノートブックは、レコメンデーションデータをモザイクデータシャード (MDS) 形式に変換し、そのデータを使用して 2 タワーのレコメンデーションモデルを作成する方法を示しています。このアプローチは、大規模なレコメンデーション システムに特に効果的です。

データ準備: レコメンデーションモデルデータセットをMDS形式に変換する

まず、効率的なデータ読み込みのために、レコメンデーションデータセットをMDS形式に変換します。

データを変換する

Open notebook in new tab

モデルトレーニング: PyTorch Lightning を使用した 2 タワー レコメンデーション モデル

準備されたデータセットとPyTorch Lightning Trainer API複数の GPU ノード (A10 または H100 GPU) 上で使用して、2 タワー レコメンダー モデルをトレーニングします。

PyTorchレコメンダー

Open notebook in new tab

例: サーバレス GPU コンピュートで llm-foundry を使用して埋め込みモデルを微調整する

埋め込みモデルは、特に何百万ものアイテムにわたる効率的な類似性検索を可能にする検索段階において、現代の推奨システムの重要なコンポーネントです。2 タワー モデルはタスク固有の埋め込みを生成しますが、事前トレーニング済みの埋め込みモデルはドメイン固有のアプリケーションに合わせて微調整して、検索品質を向上させることができます。

次のノートブックの例は、対照学習を使用して、サーバレス GPU コンピュート (SGC) で BERT スタイルの埋め込みモデルを微調整する方法を示しています。 Composer のトレーナーを備えた llm-foundry フレームワークを使用して、Delta テーブルに保存されたデータを操作しながら、gte-large-en-v1.5 などのモデルを微調整します。この例では、分散データ読み込みのために Mosaic ストリーミングを使用してデータを Mosaic Data Shard (MDS) 形式に変換し、モデルの追跡とログ記録のためにMLflow使用します。

埋め込みモデルノートブックの微調整

Open notebook in new tab
注記
  • 埋め込みモデルでは、 query_textpositive_passage 、オプションでnegative_passagesの列を含むデータが必要です。
  • 微調整された埋め込みは、類似性検索操作のベクトル ストアで使用でき、推奨システムに関連するアイテムを効率的に検索できます。
  • このアプローチは、汎用埋め込みモデルを特定のドメインまたはユースケースに適合させる必要がある場合に特に役立ちます。