Databricksの生成AIと大規模言語モデル(LLM)
この記事では、Databricks での生成型 AI の概要について説明し、サンプル ノートブックとデモへのリンクを示します。
生成AI とは
生成AIは、コンピューターがモデルを使用して画像、テキスト、コード、合成データなどのコンテンツを作成する機能に焦点を当てた人工知能の一種です。
生成AI アプリケーションは、大規模言語モデル (LLM) と基盤モデルの上に構築されています。
LLMは 、言語処理タスクに優れているために、大量のデータセットを使用してトレーニングするディープラーニングモデルです。 トレーニングデータに基づいて、自然言語を模倣するテキストの新しい組み合わせを作成します。
ファウンデーションモデルは 、より具体的な言語理解と生成タスクに合わせて微調整することを意図して事前にトレーニングされた大規模な機械学習モデルです。 これらのモデルは、入力データ内のパターンを識別するために使用されます。
これらのモデルが学習プロセスを完了すると、プロンプトが表示されたときに統計的に可能性の高い出力が生成され、次のようなさまざまなタスクを実行するために使用できます。
既存の画像に基づいて画像を生成するか、1つの画像のスタイルを利用して新しい画像を変更または作成します。
テキストの文字起こし、翻訳、質問/回答の生成、テキストの意図や意味の解釈などの音声タスク。
重要
多くのLLMやその他の生成AIモデルには安全対策が講じられていますが、それでも有害または不正確な情報を生成する可能性があります。
生成 AI には、次の設計パターンがあります。
プロンプトエンジニアリング:LLMの動作を導くための特殊なプロンプトの作成
検索拡張世代(RAG):LLMと外部知識検索の組み合わせ
ファインチューニング:事前学習済みのLLMをドメインの特定のデータセットに適合させる
事前トレーニング:LLMをゼロからトレーニングする
Databricks上で生成型 AI と LLM を開発する
Databricks は、データの収集と準備から、モデル開発と LLMOps、サービス提供とモニタリングまで、AI ライフサイクルを統合します。 次の機能は、生成AI アプリケーションの開発を容易にするために特別に最適化されています。
データ、機能、モデル、および関数のガバナンス、検出、バージョン管理、およびアクセス制御のためのUnity Catalog。
モデル開発の追跡と LLM 評価 のための MLflow 。
Databricks モデルサービング (LLM をデプロイするためのもの)。 モデルサービングエンドポイントは、基盤モデルへのアクセス専用に構成できます。
Databricks の外部でホストされているサードパーティ モデル。 「Databricks モデルサービング」の「外部モデル」を参照してください。
Databricks Vector Search は、埋め込みベクターを格納し、ナレッジ ベースに自動的に同期するように構成できるクエリ可能なベクター データベースを提供します。
レイクハウスモニタリング : 推論テーブルによる自動ペイロードロギングを使用して、データモニタリングとモデルの予測品質とドリフトの追跡を行います。
Databricks ワークスペースから基盤モデルをテストするための AI Playground。プロンプトを表示、比較、およびシステム プロンプトや推論パラメーターなどの設定を調整できます。
関連リソース
「Databricks での Retrieval Augmented Generation (RAG)」を参照してください。
Databricks での Hugging Face モデルの使用に関する情報については、「 Hugging Face トランスフォーマー」を参照してください。
Github の databricks-ml-example repo には、最先端の (SOTA) LLM の実装例が含まれています。