Databricksの生成AIと大規模言語モデル(LLM)
この記事では、Databricks での生成型 AI の概要について説明し、サンプル ノートブックとデモへのリンクを示します。
生成AI とは
生成AIは、コンピューターがモデルを使用して画像、テキスト、コード、合成データなどのコンテンツを作成する機能に焦点を当てた人工知能の一種です。
生成AIアプリケーションは、生成AIモデル (大規模言語モデル (LLM) と基盤モデル) の上に構築されます。
LLMは 、言語処理タスクに優れているために、大量のデータセットを使用してトレーニングするディープラーニングモデルです。 トレーニングデータに基づいて、自然言語を模倣するテキストの新しい組み合わせを作成します。
ファウンデーションモデルは 、より具体的な言語理解と生成タスクに合わせて微調整することを意図して事前にトレーニングされた大規模な機械学習モデルです。 これらのモデルは、入力データ内のパターンを識別するために使用されます。
これらのモデルが学習プロセスを完了すると、プロンプトが表示されたときに統計的に可能性の高い出力が生成され、次のようなさまざまなタスクを実行するために使用できます。
既存の画像に基づいて画像を生成するか、1つの画像のスタイルを利用して新しい画像を変更または作成します。
テキストの文字起こし、翻訳、質問/回答の生成、テキストの意図や意味の解釈などの音声タスク。
重要
多くのLLMやその他の生成AIモデルには安全対策が講じられていますが、それでも有害または不正確な情報を生成する可能性があります。
生成 AI には、次の設計パターンがあります。
プロンプトエンジニアリング:LLMの動作を導くための特殊なプロンプトの作成
検索拡張世代(RAG):LLMと外部知識検索の組み合わせ
ファインチューニング:事前学習済みのLLMをドメインの特定のデータセットに適合させる
事前トレーニング:LLMをゼロからトレーニングする
Databricks上で生成型 AI と LLM を開発する
Databricks は、データの収集と準備から、モデル開発と LLMOps、サービス提供とモニタリングまで、AI ライフサイクルを統合します。 次の機能は、生成AI アプリケーションの開発を容易にするために特別に最適化されています。
データ、機能、モデル、および関数のガバナンス、検出、バージョン管理、およびアクセス制御のためのUnity Catalog。
モデル開発の追跡と LLM 評価 のための MLflow 。
LLM を展開するためのMosaic AI Model Serving 。 生成AIモデルにアクセスするためのモデル サービング エンドポイントを特別に構成できます。
基盤モデルAPIsを使用した最先端のオープン LLM。
Databricks の外部でホストされるサードパーティ モデル。 Mosaic AI Model Serving の外部モデルを参照してください。
Mosaic AI Vector Search は、埋め込みベクトルを保存し、ナレッジ ベースに自動的に同期するように構成できる、クエリ可能なベクトル データベースを提供します。
レイクハウスモニタリング : 推論テーブルによる自動ペイロードロギングを使用して、データモニタリングとモデルの予測品質とドリフトの追跡を行います。
AI Playgroundから生成されたAI モデルをテストするためのDatabricks 。システムプロンプトや推論などの設定をプロンプト、比較、調整できます。
Mosaic AIモデル トレーニング(旧基盤モデル トレーニング) は、独自のデータを使用して基盤モデルをカスタマイズし、特定のアプリケーションに合わせてパフォーマンスを最適化します。
関連リソース
「Mosaic AI エージェント フレームワークとは何ですか?」を参照してください。
Databricks での Hugging Face モデルの使用に関する情報については、「 Hugging Face Transformers」を参照してください。
Github の databricks-ml-example repo には、最先端の (SOTA) LLM の実装例が含まれています。