Databricks上の大規模言語モデル (LLM)

Databricks を使用すると、公開されている大規模な言語モデルに簡単にアクセスして構築できます。

Databricks Runtime for Machine Learning には Hugging Face Transformersや LangChain などのライブラリが含まれており、既存の事前トレーニング済みモデルやその他のオープンソース ライブラリをワークフローに統合できます。 ここから、Databricks プラットフォーム機能を活用し、独自のデータを使用して LLM をファインチューニングし、ドメイン パフォーマンスを向上させることができます。

さらに、Databricks には、SQL ユーザーが AI 関数を使用して Azure OpenAI や OpenAI などの LLM にアクセスし、エクスペリメントするための組み込み機能が用意されています。

基盤モデル ファインチューニング

重要

この機能は パブリック プレビュー段階です。 パブリック プレビューに登録するには、Databricks アカウント チームにお問い合わせください。

基盤モデル ファインチューニング (現在は Mosaic AI Model トレーニングの一部) は、フルモデル ファインチューニングを実行するための Databricks トレーニング スタックへのシンプルなインターフェイスです。

基盤モデル ファインチューニングを使用して、以下の操作を行うことができます。

  • チェックポイントを MLflow に保存して、カスタム データでモデルをファインチューンします。 ファインチューンされたモデルを完全に制御できます。

  • モデルをUnity Catalogに自動登録し、モデルサービングで簡単にデプロイできるようにします。

  • 以前にファインチューニングしたモデルの重みを読み込むことで、完成した独自のモデルをファインチューニングします。

基盤モデル ファインチューニングを参照してください。

Hugging Face Transformers

Databricks の Hugging Face Transformersを使用すると、自然言語処理 (NLP) バッチ アプリケーションをスケールアウトし、大規模な言語モデル アプリケーション用にモデルをファインチューニングできます。

Hugging Face transformers ライブラリは、 Databricks Runtime LTS ML以降にプレインストールされています。一般的なNLPモデルの多くはGPUハードウェアで最適に機能するため、CPUでの使用に特別に最適化されたモデルを使用しない限り、最新のGPUハードウェアを使用して最高のパフォーマンスが得られる可能性があります。

DSPyの

DSPy は、ユーザー定義の自然言語シグネチャを完全な命令と数ショットの例に変換することにより、プロンプトチューニングを自動化します。

DSPy の使用方法の例については、「 Databricks で DSPy を使用して genAI アプリを構築する 」を参照してください。

LangChain

LangChain は実験的な MLflow フレーバーとして利用できるため、LangChain のお客様は Databricks 環境から直接 MLflow の堅牢なツールとエクスペリメント追跡機能を活用できます。

LangChainは、大規模な言語モデル(LLM)を利用し、それらを外部データと組み合わせて、LLMのトレーニングコンテキストを増やすアプリケーションの作成を支援するように設計されたソフトウェアフレームワークです。

Databricks Runtime 機械学習には、 Databricks Runtime 13.1 機械学習以降のlangchainが含まれています。

Databricks 固有の LangChain 統合について説明します。

AI関数

プレビュー

この機能はパブリックプレビュー段階です。

AI 関数は 、SQL ユーザーが次の操作を実行できるようにする組み込みの SQL 関数です。

  • Databricks 基盤モデルAPIを使用して、貴社のデータに関するさまざまなタスクを完了します。

  • OpenAI から GPT-4 などの外部モデルにアクセスし、それらを体験します。

  • SQLクエリから、Mosaic AI Model Servingエンドポイントによってホストされているモデルをクエリします。