情報抽出
プレビュー
この機能は現在パブリックプレビュー版であり、 HIPAA(医療情報保護法)に準拠しています。
このページでは、情報抽出の最新バージョンについて説明します。以前のバージョンに関する情報については、 「情報抽出の使用 (レガシー)」を参照してください。
情報抽出は、定義されたスキーマを使用して、非構造化ドキュメントやテキストを重要な構造化された知見に変換します。これにより、非構造化テキスト、PDF、画像、またはテーブルに埋め込まれた情報を、分析、レポート作成、またはダウンストリームのエージェントやアプリケーションに直接利用できるようになります。
情報の抽出の例:
- 契約書から法的当事者と契約条件を抽出する。
- 請求書から明細項目と支払条件を抽出する。
- 医療記録やメモから重要な詳細情報を抽出する。
情報抽出は、AI関数ai_extractを基盤として構築されています。情報抽出は、抽出用に定義されたスキーマを使用して、機能をカスタマイズおよび最適化できるビジュアルUIを備えています。
情報抽出 は、デフォルトストレージ を使用して、 各エージェントを動かす 一時的なデータ変換、モデルチェックポイント、および内部メタデータを保存します。エージェントを削除すると、Databricks はエージェントに関連付けられているすべてのデータをデフォルトのストレージから削除します。
要件
情報抽出エージェントを作成
行くワークスペースの左側のナビゲーションペインにある エージェント 。 「エージェントの作成」 > 「情報抽出」 をクリックします。
ステップ 1. 情報を抽出するデータを選択します
-
データから始める ページで、情報を抽出したいファイルまたはデータを選択します。次のいずれかを実行できます。
- ファイルをアップロードエリアにドラッグ&ドロップするか、クリックしてアップロードするファイルを参照してください。
- 「**ボリュームを選択**」をクリックして、サポートされているファイルタイプのUnity Catalogボリュームを選択します。
- 「 テーブルを選択 」をクリックして、テキストデータを含むUnity Catalogテーブルを選択します。
-
テーブルを選択した場合は、抽出するデータを含む列を選択します。続行する前に、サポートされているタイプ(STRING、VARIANT)の列を選択する必要があります。テーブルにサポートされている列がない場合は、別のテーブルを選択してください。
-
エージェントの作成 をクリックします。このボタンは、有効なデータソースおよび、テーブルの場合はサポートされている列を選択した後にのみ有効になります。
ステップ 2. 抽出スキーマを構成して調整する
情報抽出処理が完了したら、ドキュメントから抽出したいデータを設定および調整してください。
-
設定画面で、抽出スキーマを定義します。これにはいくつかの方法があります。
-
抽出したい情報を記述する自然言語を入力し、 スキーマを生成 をクリックします。情報抽出は、フィールド名と定義を付けてJSONスキーマを自動的に生成します。必要に応じてこれらの説明を編集してください。
-
または、 [手動で定義]をクリックして、 スキーマを手動で定義します。
- 「フィールドを追加」 をクリックします。
- フィールド名、種類、説明を入力してください。
- 確認 をクリックします。
- 抽出したいフィールドごとにこの手順を繰り返してください。
- 「保存して抽出を実行」 をクリックしてください。
-
JSON をクリックすると、JSONスキーマを直接編集することもできます。完了したら 「変更を適用」 をクリックしてください。
スキーマを更新し、「抽出を保存して実行」をクリックするたびに、情報抽出は抽出エージェントを更新し、抽出を実行し、各入力の結果を表示します。
-
-
左側で、解析されたドキュメントとエージェントの抽出をご確認ください。抽出結果を2つの方法で反復します。最初に、1つ以上の入力について自然言語フィードバックを提供してください。これにより、**保存して抽出を実行**を押すと、説明が自動調整されます。次に、**保存して抽出を実行**を押すと有効になるスキーマの説明を手動で修正します。
-
バージョン情報を使用して、以前の設定と比較したり、以前の設定に戻したりできます。 「バージョン」 をクリックし、次に 「比較」 をクリックすると、以前のバージョンのスキーマ定義と現在のバージョンのスキーマ定義を比較できます。以前のバージョンに戻すには、 「復元」 をクリックしてください。
ステップ 3. 抽出剤を使用する
エージェントのパフォーマンスにご満足いただけましたら、そのエージェントを使用して情報を抽出します。
右上の **エージェントを使用** をクリックします。 次のいずれかを選択できます:
- SQLで実行して 、エージェントを使用してすべてのデータから情報を抽出します。これにより、
ai_extractを使用して定義されたスキーマに基づいてボリュームまたはテーブルから情報を抽出する SQL クエリが開きます。SQLクエリでai_extractを使用する方法の詳細については、ai_extract関数を参照してください。 - Spark宣言型パイプラインを作成して 、スケジュールされた間隔で実行して新しいデータに対してエージェントを呼び出すETLパイプラインをデプロイします。 これにより、抽出されたデータでストリーミング テーブルを更新するLakeFlow Spark宣言型パイプラインが作成されます。 パイプラインのスケジュールを設定すれば、新しいデータが到着したときに実行するようにできます。LakeFlow Spark宣言型パイプラインの詳細については、 LakeFlow Spark宣言型パイプライン」を参照してください。
制限事項
- 制限事項を参照してください