Databricks の大規模言語モデル (LLM)

Databricks を使用すると、公開されている大規模言語モデルに簡単にアクセスして構築できます。

Databricks機械学習ランタイムには Hugging Face Transformersや LangChain などのライブラリが含まれており、既存の事前トレーニング済みモデルやその他のオープンソースライブラリをワークフローに統合できます。ここから、Databricks プラットフォーム機能を活用し、独自のデータを使用して LLM をファインチューニングし、ドメインパフォーマンスを向上させることができます。

また、 Databricks では、 SQL ユーザーがアクセスするための組み込み機能や、 Azure OpenAIや AI 機能を利用したOpenAIなどのLLMとのエクスペリメントを提供しています。

基盤モデルのファインチューニング

important

この機能はパブリックプレビュー段階です。 Databricks アカウントチームに連絡して、パブリックプレビューに登録してください。

基盤モデルファインチューニング (現在は Mosaic AI Model トレーニングの一部) は、フルモデルファインチューニングを実行するための Databricks トレーニングスタックへのシンプルなインターフェイスです。

基盤モデルファインチューニングを使用して、以下の操作を行うことができます。

チェックポイントを MLflow に保存して、カスタムデータでモデルをファインチューンします。ファインチューンされたモデルを完全に制御できます。
モデルを Unity Catalog に自動的に登録し、モデルサービングによる簡単なデプロイを可能にします。
以前にファインチューニングしたモデルの重みを読み込むことで、完成した独自のモデルをファインチューニングします。

基盤モデルファインチューニングを参照してください。

Hugging Face トランスフォーマー

Databricks で Hugging Face Transformersを使用すると、自然言語処理 (NLP) バッチアプリケーションをスケールアウトし、大規模な言語モデルアプリケーション用にモデルをファインチューニングできます。

Hugging Face transformers ライブラリは、 Databricks Runtime LTS ML以降にプレインストールされています。一般的なNLPモデルの多くはGPUハードウェアで最適に機能するため、CPUでの使用に特別に最適化されたモデルを使用しない限り、最新のGPUハードウェアを使用して最高のパフォーマンスが得られる可能性があります。

DSPy

DSPy は、ユーザー定義の自然言語シグネチャを完全な命令と数ショットの例に変換することにより、プロンプトチューニングを自動化します。

DSPy の使用例については、DatabricksにおけるDSPyを使用した生成AIアプリの構築を参照してください。

LangChain

LangChainの利用者がDatabricks環境から直接MLflowの堅牢なツールとエクスペリメント追跡機能を活用できる、実験的なMLflowフレーバーとしてLangChainを利用することができます。

LangChainは、大規模言語モデル(LLM)を利用し、それらを外部データと組み合わせてLLMのトレーニングコンテキストを増やすアプリケーションの作成を支援するように設計されたソフトウェアフレームワークです。

Databricks Runtime ML には、Databricks Runtime 13.1 ML 以降の langchain が含まれています。

Databricks 固有の LangChain 統合について学習します。

AI関数

備考

プレビュー

この機能はパブリックプレビュー段階です。

AI 関数は、SQL ユーザーが次の操作を行えるようにする組み込みの SQL 関数です。

Databricks基盤モデルAPIを使用して、会社のデータに対するさまざまなタスクを完了します。
OpenAIのGPT-4などの外部モデルにアクセスして実験を行います。
SQLクエリから、Mosaic AI Model Servingエンドポイントによってホストされているモデルをクエリします。

基盤モデルのファインチューニング​

Hugging Face トランスフォーマー​

DSPy​

LangChain​

AI関数​

基盤モデルのファインチューニング

Hugging Face トランスフォーマー

DSPy

LangChain

AI関数