Agent Bricksの使用: 情報抽出

備考

ベータ版

この機能はベータ版です。

この記事では、Agent Bricks: 情報抽出を使用して情報抽出用の生成AI エージェントを作成する方法について説明します。

Agent Bricks は、一般的なAIユースケース向けに、ドメイン固有の高品質なAIエージェントシステムを構築および最適化するためのシンプルなノーコードアプローチを提供します。

Agent Bricks: 情報抽出とは?

Agent Bricks は、情報抽出をサポートし、ラベルのない大量のテキストドキュメントを、各ドキュメントの抽出された情報を含む構造化テーブルに変換するプロセスを簡素化します。

情報抽出の例を次に示します。

契約から価格とリース情報を抽出します。
顧客メモからのデータの整理。
ニュース記事から重要な詳細を取得します。

Agent Bricks: 情報抽出は、 MLflow やエージェント評価などの自動評価機能を活用して、特定の抽出タスクのコストと品質のトレードオフを迅速に評価できるようにします。この評価により、精度とリソース投資のバランスについて、十分な情報に基づいた決定を下すことができます。

必要条件

次のものを含むワークスペース。
- Mosaic AI Agent Bricks Preview (Beta) が有効になりました。Databricks プレビューの管理を参照してください。
- サーバレスコンピュートが有効化されていること。サーバレスコンピュートの有効化を参照してください。
- Unity Catalog が有効になっている。「Unity Catalog のワークスペースを有効にする」を参照してください。
- サポートされているリージョン ( us-east-1 または us-west-2のいずれかのリージョンのワークスペース。
- system.aiスキーマを使用した Unity Catalog の基盤モデルへのアクセス。
- 非ゼロの予算を持つサーバレス予算ポリシーへのアクセス。
ai_query SQL関数を使用する機能。
データの抽出元となるファイル。ファイルは、Unity Catalog ボリュームまたはテーブルに存在する必要があります。
- PDF を使用する場合は、まず Unity Catalog テーブルに変換します。Agent Bricks での PDF の使用を参照してください。
- エージェントをビルドするには、Unity Catalog ボリュームに少なくとも 1 つのラベル付けされていないドキュメント、またはテーブルに 1 行が必要です。
- エージェントを最適化するには ((オプション) ステップ 4: 最適化されたエージェントを確認してデプロイする)、Unity Catalog ボリュームに少なくとも 75 個のラベル付けされていないドキュメントがあるか、テーブルに少なくとも 75 行ある必要があります。

情報抽出エージェントを作成する

ワークスペースの左側のナビゲーションウィンドウで エージェント に移動し、 情報抽出 をクリックします。

Agent Bricks:情報抽出

ステップ 1: 入力データと出力例を追加する

構成タブで、 >例を表示 をクリックして、情報抽出エージェントの入力およびモデル応答の例を展開します。

下のペインで、エージェントを設定します。

ソースドキュメント フィールドで、Unity Catalog ボリュームから使用するフォルダーまたはテーブルを選択します。テーブルを選択した場合は、ドロップダウンからテキストデータを含む列を選択します。

フォルダにはサポートされているドキュメント形式のドキュメントが含まれている必要があり、テーブル列にはサポートされているデータ形式のデータが含まれている必要があります。このデータセットは、エージェントを作成するために使用されます。

PDF を使用する場合は、まず Unity Catalog テーブルに変換します。Agent Bricks での PDF の使用を参照してください。

次に、ボリュームの例を示します。

/Volumes/main/info-extraction/bbc_articles/

出力サンプル フィールドに、応答の例を入力します。

JSON
{
  "title": "Economy Slides to Recession",
  "category": "Politics",
  "paragraphs": [
    {
      "summary": "GDP fell by 0.1% in the last three months of 2004.",
      "word_count": 38
    },
    {
      "summary": "Consumer spending had been depressed by one-off factors such as the unseasonably mild winter.",
      "word_count": 42
    }
  ],
  "tags": ["Recession", "Economy", "Consumer Spending"],
  "estimate_time_to_read_min": 1,
  "published_date": "2005-01-15",
  "needs_review": false
}

エージェントの名前を入力します。変更しない場合は、デフォルト名のままにしておくことができます。
エージェントの作成 を選択します。

サポートされているドキュメント形式

次の表は、Unity Catalog ボリュームを提供した場合にソースドキュメントでサポートされているドキュメントファイルの種類を示しています。

コードファイル	ドキュメントファイル	ログファイル
`.c` `.cc` `.cpp` `.cs` `.css` `.cxx` `.go` `.h` `.hpp` `.htm` `.html` `.java` `.js` `.json` `.jsonl` `.jsx` `.lua` `.md` `.php` `.pl` `.py` `.rb` `.sh` `.swift` `.tex` `.ts` `.tsx`	`.md` `.rst` `.tex` `.txt` `.xml` `.xsd` `.xsl`	`.diff` `.err` `.log` `.out` `.patch`

サポートされているデータ形式

Agent Bricks: 情報抽出は、Unity Catalog テーブルを提供する場合、ソースドキュメントの次のデータ型とスキーマをサポートします。Agent Bricks は、各ドキュメントからこれらのデータ型を抽出することもできます。

str
int
float
boolean
カスタムネストされたフィールド
上記のデータ型の配列

ステップ 2: エージェントを構築して改善する

ビルド タブの エージェント構成 ウィンドウで、より良い結果が得られるようにスキーマ定義を絞り込みます。

(オプション)エージェントのグローバル指示 (すべてのフィールドに適用できるプロンプトなど) を追加します。
エージェントが出力応答に使用するスキーマフィールドの説明を調整します。これらの説明は、エージェントが抽出したいものを理解するために依存しているものです。
エージェントの更新 をクリックします。

ビルド タブの左側で、推奨事項とサンプル出力を確認します。

各フィールドに用意されている仕様に基づいて、モデルの出力例を確認します。
エージェントのパフォーマンスを最適化するための Databricks の推奨事項を確認します。
推奨事項を適用し、必要に応じて エージェント構成 ペインの説明と指示を調整します。
変更と推奨事項を適用した後、 エージェントの更新 を選択して、それらの変更をエージェントに保存します。 エージェントの改善 ペインが更新され、新しいモデル例の出力が表示されます。このペインの推奨事項は更新されません。

これで、情報抽出のエージェントができました。

ステップ 3: エージェントを使用する

エージェントは、Databricks 全体のワークフローで使用できます。

使用タブで、

[ 抽出の開始 ] を選択して SQL エディターを開き、 ai_query を使用して新しい情報抽出エージェントに要求を送信します。
(オプション)エージェントのコストを最適化する場合は、 最適化 を選択します。
- 最適化には少なくとも 75 個のファイルが必要です。
- 最適化には約 1 時間かかる場合があります。
- 最適化が進行中の場合、現在アクティブなエージェントへの変更がブロックされます。

最適化が完了すると、[ レビュー ] タブに移動し、現在アクティブなエージェントとコストに最適化されたエージェントの比較が表示されます。(オプション) ステップ 4: 最適化されたエージェントを確認してデプロイするを参照してください。

(オプション) パイプラインの作成 を選択して、スケジュールされた間隔で実行されるパイプラインをデプロイし、新しいデータでエージェントを使用します。パイプラインの詳細については Lakeflow 宣言型パイプラインを参照してください。

ABIE の [使用] タブにある [すべてのドキュメント] タイルと [エージェントパフォーマンスの最適化] タイルのデータを抽出します。

(オプション)ステップ 4: 最適化されたエージェントを確認してデプロイする

使用タブで 最適化 を選択すると、Databricks は複数の異なる最適化戦略を比較して、最適化されたエージェントを構築して推奨します。これらの戦略には、 Databricks Geosを使用する基盤モデルファインチューニングが含まれます。

レビュー タブで、

評価結果 では、最適化されたエージェントとアクティブなエージェントを視覚的に比較できます。評価を実行するために、 Databricks は各フィールドのデータタイプに基づいてメトリクスを選択し、評価データセットを使用してアクティブなエージェントとコストに最適化されたエージェントを比較します。この評価セットは、元のエージェントの作成に使用したデータのサブセットに基づいています。
1. メトリクスは、フィールドごとに MLflow 実行に記録されます (最上位のフィールドに集約されます)。
2. 列ドロップダウンから overall_score 列と is_schema_match 列を選択します。
これらの結果を確認した後、現在アクティブなエージェントの代わりにこの最適化されたエージェントをデプロイする場合は、 デプロイ をクリックします。

Agent Bricks での PDF の使用

PDF は、Agent Bricks: 情報抽出とカスタムLLMではまだネイティブにサポートされていません。ただし、Agent Brick の UI ワークフローを使用して、PDF ファイルのフォルダをマークダウンに変換し、エージェントを構築するときに結果の Unity Catalog テーブルを入力として使用できます。このワークフローでは、変換に ai_parse_document を使用します。以下の手順に従います。

左側のナビゲーションウィンドウで [エージェント] をクリックして、Databricks で Agent Bricks を開きます。
右上隅にある Agent Bricks で PDF を使用する をクリックします。
開いたパネルで、次のフィールドに入力して、PDFを変換する新しいワークフローを作成します。
1. PDFを含むフォルダーを選択 :使用するPDFを含むUnity Catalogフォルダーを選択します。
2. 宛先テーブルの選択 : 変換されたマークダウンテーブルの宛先スキーマを選択し、必要に応じて、下のフィールドのテーブル名を調整します。
3. アクティブな SQLウェアハウスの選択 : ワークフローを実行する SQLウェアハウスを選択します。
インポートの開始 をクリックします。
[ すべてのワークフロー ] タブにリダイレクトされ、すべての PDF ワークフローが一覧表示されます。このタブを使用して、ジョブのステータスを監視します。

ワークフローが失敗した場合は、ジョブ名をクリックして開き、デバッグに役立つエラーメッセージを表示します。
ワークフローが正常に完了したら、ジョブ名をクリックしてカタログエクスプローラーでテーブルを開き、列を探索して理解します。
エージェントを設定するときは、 Unity Catalog テーブルをAgent Bricksの入力データとして使用します。

制限

Databricks では、エージェントを最適化するために少なくとも 75 個のドキュメントが必要です。より良い最適化結果を得るには、少なくとも 1000 個のドキュメントをお勧めします。ドキュメントを追加すると、エージェントが学習できるナレッジベースが増え、エージェントの品質と抽出精度が向上します。
ソースドキュメントに 3 MB を超えるファイルが含まれている場合、エージェントの作成は失敗します。
64 KB を超えるドキュメントは、エージェントの構築中にスキップされる可能性があります。
入力と出力の制限は 128K トークンです。
PrivateLink を使用するワークスペース (PrivateLink の背後にあるストレージを含む) はサポートされていません。
ユニオンスキーマの種類はサポートされていません。

Agent Bricks: 情報抽出とは?​

必要条件​

情報抽出エージェントを作成する​

ステップ 1: 入力データと出力例を追加する​

サポートされているドキュメント形式​

サポートされているデータ形式​

ステップ 2: エージェントを構築して改善する​

ステップ 3: エージェントを使用する​

(オプション)ステップ 4: 最適化されたエージェントを確認してデプロイする​

Agent Bricks での PDF の使用​

制限​