AI Builder: 情報抽出
ベータ版
この機能は ベータ版です。
この記事では、AI Builder を使用して情報抽出用の生成 AIエージェントを作成する方法について説明します: 情報抽出。
AI Builder: 情報抽出とは
AI Builder は、一般的な AI ユースケース向けに、ドメイン固有の高品質な AI エージェント システムを構築および最適化するためのシンプルなノーコード アプローチを提供します。AI Builder は、情報抽出をサポートし、ラベル付けされていない大量のテキスト ドキュメントを、各ドキュメントの抽出された情報を含む構造化テーブルに変換するプロセスを簡素化します。
情報抽出の例を次に示します。
- 契約から価格とリース情報を抽出します。
- 顧客メモからのデータの整理。
- ニュース記事から重要な詳細を取得します。
AI Builder: 情報抽出は、MLflow や Agent Evaluation などの自動評価機能を活用して、特定の抽出タスクのコストと品質のトレードオフを迅速に評価できるようにします。この評価により、精度とリソース投資のバランスについて、十分な情報に基づいた決定を下すことができます。
必要条件
-
サーバレスがサポートするワークスペースには、次のものが含まれます。
- ワークスペースで Unity Catalog が有効になっている。
- サポートされているリージョン (
us-east-1
またはus-west-2
のいずれかのリージョンのワークスペース。
-
データの抽出元となるファイル。ファイルは Unity Catalog ボリューム内にある必要があります。
- エージェントを構築するには、 Unity Catalog ボリュームに少なくとも10個のラベル付けされていないドキュメントが必要です。
- エージェントを最適化するには ((オプション) ステップ 4: 最適化されたエージェントを確認してデプロイする)、 Unity Catalog ボリュームに少なくとも 75 個のラベル付けされていないドキュメントが必要です。
情報抽出エージェントを作成する
ワークスペースの左側のナビゲーション ウィンドウで AI Builder に移動し、 情報抽出 をクリックします。
ステップ 1: 入力データと出力例を追加する
構成 タブで、 >例を表示 をクリックして、情報抽出エージェントの入力およびモデル応答の例を展開します。
下のペインで、エージェントを設定します。
-
ソース ドキュメント フィールドで、Unity Catalog ボリュームから使用するフォルダーを選択します。このデータセットは、エージェントを作成するために使用されます。サポートされているデータ・ファイル・タイプとスキーマについては、 サポートされているデータ・フォーマット を参照してください。
次に例を示します。
/Volumes/main/info-extraction/bbc_articles/
-
出力サンプル フィールドに、応答の例を入力します。
JSON{
"title": "A fun and catchy title",
"category": "SPORTS",
"summary": "The article was about foo, bar and baz."
} -
エージェントの名前を入力します。変更しない場合は、デフォルト名のままにしておくことができます。
-
エージェントの作成 を選択します。
サポートされているデータ形式
次の表に、サポートされているデータ ファイルの種類を示します。AI Builder は、サポートされているファイルの種類で次のデータ型とスキーマをサポートしています。
str
int
float
boolean
- カスタムネストされたフィールド
- 上記のデータ型の配列
コードファイル | ドキュメントファイル | ログファイル |
---|---|---|
|
|
|
ステップ 2: エージェントを構築して改善する
エージェント構成 ペインで、
- (オプション)エージェントのグローバル指示 (すべてのフィールドに適用できるプロンプトなど) を追加します。
- エージェントが出力応答に使用するスキーマフィールドの説明を調整します。これらの説明は、エージェントが抽出したいものを理解するために依存しているものです。
エージェントの改善 ウィンドウで、
-
各フィールドに用意されている仕様に基づいて、モデルの出力例を確認します。
-
エージェントのパフォーマンスを最適化するための Databricks の推奨事項を確認します。
-
推奨事項を適用し、必要に応じて エージェント構成 ペインの説明と指示を調整します。
-
変更と推奨事項を適用した後、 エージェントの更新 を選択して、それらの変更をエージェントに保存します。 エージェントの改善 ペインが更新され、新しいモデル例の出力が表示されます。このペインの推奨事項は更新されません。
これで、情報抽出のエージェントができました。
ステップ 3: エージェントを使用する
エージェントは、Databricks 全体のワークフローで使用できます。
使用 タブで、
-
[ 抽出の開始 ] を選択して SQL エディターを開き、
ai_query
を使用して新しい情報抽出エージェントに要求を送信します。 -
(オプション)エージェントのコストを最適化する場合は、 最適化 を選択します。
- 最適化には約 1 時間かかる場合があります。
- 最適化が進行中の場合、現在アクティブなエージェントへの変更がブロックされます。
最適化が完了すると、[ レビュー ] タブに移動し、現在アクティブなエージェントとコストに最適化されたエージェントの比較が表示されます。(オプション) ステップ 4: 最適化されたエージェントを確認してデプロイするを参照してください。
(オプション)ステップ 4: 最適化されたエージェントを確認してデプロイする
使用 タブで 最適化 を選択すると、Databricks は複数の異なる最適化戦略を比較して、最適化されたエージェントを構築して推奨します。これらの戦略には、 Databricks Geosを使用する基盤モデル ファインチューニングが含まれます。
レビュー タブで、
-
評価結果 では、最適化されたエージェントとアクティブなエージェントを視覚的に比較できます。評価を実行するために、 Databricks は各フィールドのデータタイプに基づいてメトリクスを選択し、評価データセットを使用してアクティブなエージェントとコストに最適化されたエージェントを比較します。 この評価セットは、元のエージェントの作成に使用したデータのサブセットに基づいています。
- メトリクスは、フィールドごとに MLflow 実行に記録されます (最上位のフィールドに集約されます)。
- 列 ドロップダウンから
overall_score
列とis_schema_match
列を選択します。
-
これらの結果を確認した後、現在アクティブなエージェントの代わりにこの最適化されたエージェントをデプロイする場合は、 デプロイ をクリックします。
制限
- Databricks では、エージェントを最適化するために少なくとも 1000 個のドキュメントをお勧めします。ドキュメントを追加すると、エージェントが学習できるナレッジ ベースが増え、エージェントの品質と抽出精度が向上します。
- ソースドキュメントに 3 MB を超えるファイルが含まれている場合、エージェントの作成は失敗します。
- 64 KB を超えるドキュメントは、エージェントの構築中にスキップされる可能性があります。
- PrivateLink を使用するワークスペース (PrivateLink の背後にあるストレージを含む) はサポートされていません。
- ユニオン スキーマの種類はサポートされていません。
- Unity Catalog テーブルはサポートされていません。