Databricks上の大規模言語モデル (LLM)

Databricks を使用すると、公開されている大規模な言語モデルに簡単にアクセスして構築できます。

Databricks Runtime for Machine Learning には Hugging Face Transformersや LangChain などのライブラリが含まれており、既存の事前トレーニング済みモデルやその他のオープンソース ライブラリをワークフローに統合できます。 ここから、Databricks プラットフォーム機能を活用し、独自のデータを使用して LLM をファインチューニングし、ドメイン パフォーマンスを向上させることができます。

さらに、Databricks には、SQL ユーザーが AI 関数を使用して Azure OpenAI や OpenAI などの LLM にアクセスし、エクスペリメントするための組み込み機能が用意されています。

Mosaic AIモデルトレーニング

重要

この機能は パブリック プレビュー段階です。 パブリック プレビューに登録するには、Databricks アカウント チームにお問い合わせください。

Mosaic AIモデル トレーニング (以前の基盤モデル トレーニング) は、完全なモデルの微調整を実行するためのDatabricksトレーニング スタックへのシンプルなインターフェイスです。

Mosaic AI モデル トレーニングを使用すると、次のことができます。

  • チェックポイントを MLflow に保存して、カスタム データでモデルを微調整します。 微調整されたモデルを完全に制御できます。

  • モデルをUnity Catalogに自動登録し、モデルサービングで簡単にデプロイできるようにします。

  • 以前に微調整したモデルの重みを読み込むことで、完成した独自のモデルを微調整します。

Mosaic AI モデルトレーニングの概要を参照してください。

Hugging Face Transformers

Databricks の Hugging Face Transformersを使用すると、自然言語処理 (NLP) バッチ アプリケーションをスケールアウトし、大規模な言語モデル アプリケーション用にモデルをファインチューニングできます。

Hugging Face transformers ライブラリは、 Databricks Runtime LTS ML以降にプレインストールされています。一般的なNLPモデルの多くはGPUハードウェアで最適に機能するため、CPUでの使用に特別に最適化されたモデルを使用しない限り、最新のGPUハードウェアを使用して最高のパフォーマンスが得られる可能性があります。

LangChain

LangChain は実験的な MLflow フレーバーとして利用できるため、LangChain のお客様は Databricks 環境から直接 MLflow の堅牢なツールとエクスペリメント追跡機能を活用できます。

LangChainは、大規模な言語モデル(LLM)を利用し、それらを外部データと組み合わせて、LLMのトレーニングコンテキストを増やすアプリケーションの作成を支援するように設計されたソフトウェアフレームワークです。

Databricks Runtime 機械学習には、 Databricks Runtime 13.1 機械学習以降のlangchainが含まれています。

Databricks 固有の LangChain 統合について説明します。

AI関数

プレビュー

この機能はパブリックプレビュー段階です。

AI 関数は 、SQL ユーザーが次の操作を実行できるようにする組み込みの SQL 関数です。

  • Databricks 基盤モデルAPIsを使用して、貴社のデータに関するさまざまなタスクを完了します。

  • OpenAI から GPT-4 などの外部モデルにアクセスし、それらを体験します。

  • Mosaic AI Model ServingSQLクエリから、 エンドポイントによってホストされているモデルをクエリします。