Databricksにおける生成AIアプリの紹介

Mosaic AIは、RAG(Retrieval Augmented Generation)チャットボットからツールコールエージェントまで、単純な生成AIアプリケーションと複雑な生成AIアプリケーションの両方をサポートしています。生成AI アプリとエージェントシステムの背後にある主要な概念を学習し、一般的な設計パターンを探索し、生成AI アプリの構築、評価、スケーリングに関するチュートリアルを実践的に体験します。

生成AI アプリの概念を学ぶ

基本的な生成AI アプリの概念について理解します。

生成AIアプリとは?

Mosaic AIが生成AI開発における主要な課題にどのように対処するかをご覧ください。

Mosaic AIで生成AIアプリを構築してみる

次のノートブックチュートリアルから開始します。

さらに複雑になる準備ができたら、高度なガイドとチュートリアルを参照してください。

生成AIアプリとは?

ジェネレーションアプリ AI は、生成AI モデル (LLM、画像生成モデル、テキスト読み上げモデルなど) を使用して、新しい出力を作成したり、複雑なタスクを自動化したり、ユーザー入力に基づいてインテリジェントな対話を行ったりするアプリケーションです。生成AIアプリではさまざまなモデルを使用できますが、このガイドではLLMを搭載したアプリケーションに焦点を当てています。

LLMで駆動する生成アプリ AI はさまざまな方法で組み込みできますが、通常は次の 2 つのアーキテクチャパターンのいずれかに分類されます。

	タイプ 1: モノリシック LLM + プロンプト	タイプ 2 (推奨): エージェントシステム
それはなんですか。	慎重に設計されたプロンプトを備えた 1 つの LLM。	複数の相互作用するコンポーネント(LLMコール、レトリーバー、APIコール)が連携してオーケストレーションされ、単純なチェーンから高度なマルチエージェントシステムまで多岐にわたります。
ユースケースの例	コンテンツ分類: LLMを使用して、顧客サポートチケットを事前定義されたトピックに分類します。	インテリジェントアシスタント: ドキュメントの取得、複数の LLM コール、外部 API を組み合わせて、包括的なレポートを調査、分析、生成します。
どのようなタスクにベストなのか	シンプルで焦点を絞ったタスク、迅速なプロトタイプ、明確で明確に定義されたプロンプト。	複雑なワークフロー、複数の機能を必要とするタスク、前の手順を振り返る必要があるタスク。
主なメリット	実装の簡素化、開発の迅速化、運用の複雑さの軽減。	信頼性と保守性の向上、制御と柔軟性の向上、テストと検証の容易さ、コンポーネント・レベルの最適化。
制限事項	柔軟性が低く、最適化が難しく、機能が制限されます。	より複雑な実装、より多くの初期設定、およびコンポーネントの調整が必要です。

ほとんどのエンタープライズユースケースでは、Databricks はエージェントシステムを推奨しています。 システムを小さく、明確に定義されたコンポーネントに分割することで、開発者は、エンタープライズ・アプリケーションに必要な高レベルの制御とコンプライアンスを維持しながら、複雑さをより適切に管理できます。

Mosaic AI には、モノリシックシステムとエージェントシステムの両方で動作するツールと機能があり、このドキュメントの残りの部分では、両方のタイプの生成AI アプリの構築について説明します。

エージェントシステムとモノリシックモデルの背後にある理論の詳細については、 Databricksの創設者のブログ記事を参照してください。

エージェントシステムとは?

エージェントシステムとは、 目標を達成するための環境を自律的に認識し、決定し、行動することができるAI駆動型のシステム です。プロンプトが出されたときにのみ出力を生成するスタンドアロンの LLM とは異なり、エージェントシステムにはある程度の エージェンシー があります。最新のLLMベースのエージェントシステムは、LLMを「頭脳」として使用して、コンテキストを解釈し、次に何をすべきかについての推論を行い、API呼び出し、取得メカニズム、タスクを実行するためのツール呼び出しなどのアクションを発行します。

エージェント・システムは、LLM を中核とするシステムです。そのシステムは:

別のエージェントからユーザー要求またはメッセージを受信します。
進め方に関する理由: フェッチするデータ、適用するロジック、呼び出すツール、ユーザーからさらに入力を要求するかどうか。
プランを実行し、場合によっては複数のツールを呼び出すか、サブエージェントに委任します。
回答を返すか、ユーザーに追加の説明を求めます。

エージェントシステムは、 一般的なインテリジェンス ( LLMの事前トレーニング済み機能) と データインテリジェンス (ビジネスに固有の専門知識と API ) を橋渡しすることで、高度な顧客サービスフロー、データ豊富なアナリティクスボット、複雑な運用タスクのためのマルチエージェントオーケストレーションなど、影響力の大きいエンタープライズユースケースを可能にします。

エージェントシステムで何ができるのか?

エージェント・システムでは、次のことができます。

アクションを動的に計画する
1 つのステップから次のステップに状態を運ぶ
新しい情報に基づいて戦略を調整し、継続的な人間の介入を伴わない

スタンドアロンの LLM が求められたときに旅行の旅程を出力する場合、エージェントシステムは顧客と情報を取得し、ツールと APIを活用して自律的にフライトを予約できます。 LLMの「汎用インテリジェンス」と「 データインテリジェンス 」(ドメイン固有のデータまたはAPI)を組み合わせることで、エージェントシステムは、単一の静的モデルでは解決に苦労する高度なエンタープライズユースケースに取り組むことができます。

エージェンシーは連続体です。システムの動作を制御するためのモデルを提供する自由度が高まれば高まるほど、アプリケーションはよりエージェント的になります。実際には、ほとんどの本番運用システムは、コンプライアンスと予測可能性を確保するために、リスクの高いアクションに対して人間の承認を求めるなど、エージェントの自律性を慎重に制限しています。

一般的なインテリジェンスとデータインテリジェンス

一般的なインテリジェンスとデータインテリジェンスを比較した図。

一般的なインテリジェンス: LLM が多様なテキストに関する広範な事前トレーニングから本質的に知っていることを指します。これは、言語の流暢さと一般的な推論に役立ちます。
データインテリジェンス: 組織のドメイン固有のデータと APIを指します。これには、顧客レコード、製品情報、ナレッジベース、または独自のビジネス環境を反映したドキュメントが含まれる場合があります。

エージェントシステムは、LLMの広範で一般的な知識から始まり、その後、リアルタイムまたはドメイン固有のデータを取り込んで、詳細な質問に答えたり、専門的なアクションを実行したりします。

エージェントシステムの例

生成AIアプリとの顧客インタラクションのフローチャート。

顧客と生成AI エージェントの間のコールセンターのシナリオを考えてみましょう。

顧客は「最後の注文を返品するのを手伝ってもらえますか?」とリクエストします。

理由と計画 : クエリの意図を考慮して、エージェントは「ユーザーの最近の注文を検索し、返品ポリシーを確認する」と「計画」します。
情報の検索 (データインテリジェンス):エージェントは、注文データベースを照会して関連する注文を取得し、ポリシードキュメントを参照します。
理由 : エージェントは、その注文が返品ウィンドウに収まるかどうかを確認します。
- オプションのヒューマンインザループ: エージェントは、アイテムが特定のカテゴリに分類されるか、通常の返品期間外にある場合は、人間にエスカレーションするという追加のルールを確認します。
アクション : エージェントは返品プロセスをトリガーし、配送ラベルを生成します。
理由 : エージェントは、顧客への応答を生成します。

AIエージェントは、顧客に対して次のように応答します。これがあなたの配送ラベルです...」

これらのステップは、 人間の コールセンターの文脈では第二の性質です。 エージェントシステムの コンテキストでは、LLMは「理由付け」を行い、システムは詳細を埋めるために特殊なツールまたはデータソースを呼び出します。

エージェントシステムが使用するツールとデータソース。

複雑さのレベル:LLMからエージェントシステムまで

AIシステムを構築する際には、いくつかのレベルの複雑さに遭遇する可能性があります。

LLM(LLM + プロンプト)
- スタンドアロンの LLM は、膨大なトレーニングデータセットからの知識に基づいてテキストプロンプトに応答します。
- 単純なクエリや一般的なクエリに適していますが、多くの場合、実際のビジネスデータから切り離されています。
ハードコードされたエージェントシステム(「チェーン」)
- 開発者は、決定論的な事前定義されたステップを調整します。たとえば、RAG アプリケーションは、常にベクトルストアから取得し、ユーザープロンプトと結合された結果を取得できます。
- ロジックは固定されており、LLM は次に呼び出すツールを決定しません。
ツールコールエージェントシステム
- LLMは、ランタイム時に、使用するツールといつ使用するかを決定します。
- このアプローチは、CRM データベースや Slack 投稿 API など、呼び出すツールに関する動的でコンテキストに応じた決定をサポートします。
マルチエージェントシステム
- それぞれが独自の機能またはドメインを持つ複数の特殊なエージェント。
- コーディネーター (AI スーパーバイザー の場合もあれば、ルールベースの場合もあります) は、各ステップで呼び出すエージェントを決定します。
- エージェントは、全体的な会話の流れを維持しながら、相互にタスクを引き継ぐことができます。

LLMを利用したアプリケーションを構築するときは、シンプルに始めましょう。より複雑なエージェントの動作は、柔軟性の向上やモデル駆動型の意思決定のために本当に必要な場合に導入します。決定論的チェーンは、明確に定義されたタスクに対して予測可能なルールベースのフローを提供しますが、よりエージェント的なアプローチは、余分な複雑さと潜在的なレイテンシを犠牲にします。

Mosaic AI Agent Framework はこれらのパターンにとらわれず、簡単に始めて、アプリケーション要件の増加に応じてより高いレベルの自動化と自律性へと進化させることができます。

エージェント・システム内のツール

エージェントシステムのコンテキストでは、ツールは、LLM が明確に定義されたタスクを実行するために呼び出すことができる 1 つの対話機能です 。通常、AIモデルは各ツール呼び出しのパラメーターを生成し、ツールは簡単な入出力インタラクションを提供します。ツール側にはマルチターンメモリはありません。

一般的なツールカテゴリには、次のようなものがあります。

データを取得または分析するツール
- ベクトル検索ツール: ベクトルインデックスをクエリして、最も関連性の高いテキストチャンクを見つけます。
- 構造化データ取得ツール: Deltaテーブルをクエリするか、APIを使用して構造化情報を取得します。
- Web検索ツール: インターネットまたは内部 Web コーパスを検索します。
- クラシック ML モデル: ML モデルを呼び出して分類または回帰予測を実行するツール (scikit-learn モデルや XGBoost モデルなど)。
- 生成AIモデル: コードやイメージの生成など、特殊な生成を実行し、結果を返すツール。
外部システムの状態を変更するツール
- API呼び出しツール: CRMエンドポイント、内部サービス、または「配送ステータスの更新」などのタスクのためのその他のサードパーティ統合。
- コード実行ツール: ユーザー指定の (場合によっては LLM で生成された) コードをサンドボックスで実行します。
- SlackまたはEメールの統合: メッセージを投稿するか、通知を送信します。
ロジックを実行するツール、または特定のタスクを実行するツール
- Code エグゼキューターツール: ユーザーが提供したコードや LLM生成したコードを、 Python スクリプトなどのサンドボックスで実行します。

Mosaic AI エージェントツールの詳細については、 AI エージェントツールを参照してください。

ツールの主な特徴

エージェントシステムのツール:

明確に定義された 1 つの操作を実行します。
その 1 回の呼び出しを超えて進行中のコンテキストを保持しないでください。
エージェント・システムが、LLM が直接アクセスできない外部データまたはサービスにアクセスできるようにします。

ツールエラー処理と安全性

各ツール呼び出しは外部操作 (API の呼び出しなど) であるため、システムはタイムアウト、エラー処理、不正な形式の応答、無効な入力などのエラーを適切に処理する必要があります。本番運用では、許可されるツール・コールの数を制限し、すべてのツール・コールが失敗した場合にフォールバック応答を設定し、ガードレールを適用して、エージェント・システムが同じ失敗アクションを繰り返し試行しないようにします。

生成AI アプリの概念を学ぶ​

Mosaic AIで生成AIアプリを構築してみる​

生成AIアプリとは?​

エージェントシステムとは?​

エージェントシステムで何ができるのか?​

一般的なインテリジェンスとデータインテリジェンス​

エージェントシステムの例​

複雑さのレベル:LLMからエージェントシステムまで​

エージェント・システム内のツール​

ツールの主な特徴​

ツールエラー処理と安全性​

続きを見る​