メインコンテンツまでスキップ
非公開のページ
このページは非公開です。 検索対象外となり、このページのリンクに直接アクセスできるユーザーのみに公開されます。

情報抽出

備考

プレビュー

この機能は現在パブリックプレビュー版であり、 HIPAA(医療情報保護法)に準拠しています。

このページでは、情報抽出の最新バージョンについて説明します。以前のバージョンに関する情報については、 「情報抽出の使用 (レガシー)」を参照してください。

情報抽出は、定義されたスキーマを使用して、非構造化ドキュメントとテキストを重要な構造化された知識に変換します。 これにより、非構造化テキスト、PDF、画像、表などに埋め込まれた情報を、分析、レポート作成、または下流のエージェントやアプリケーションに直接利用することが可能になります。

情報抽出の例としては、以下のようなものがあります。

  • 契約書から法的当事者と契約条件を抽出する。
  • 請求書から明細項目と支払条件を抽出する。
  • 医療記録やメモから重要な詳細情報を抽出する。

情報抽出はAI機能ai_extractの上に構築されています。情報抽出機能には、抽出用の定義済みスキーマを使用して機能をカスタマイズおよび最適化するための視覚的なユーザーインターフェースが備わっています。

情報抽出機能は、デフォルトのストレージを使用して、一時的なデータ変換、モデルのチェックポイント、および各エージェントを動作させる内部メタデータを保存します。エージェントを削除すると、エージェントに関連付けられたすべてのデータがデフォルトのストレージから削除されます。

要件

情報抽出エージェントを作成する

行くエージェントのアイコン。ワークスペースの左側のナビゲーションペインにある エージェント「エージェントの作成」 > 「情報抽出」 をクリックします。

ステップ 1. 情報を抽出するデータを選択します

  1. 情報を抽出したいファイルまたはデータを選択してください。ファイルをアップロードしたり、サポートされているファイル形式を含むUnity Catalogボリュームを選択したり、テキストデータを含むテーブルを選択したりできます。

  2. エージェントの作成 をクリックします。

ステップ 2. 抽出スキーマを構成して調整する

情報抽出処理が完了したら、ドキュメントから抽出したいデータを設定および調整してください。

  1. 設定画面で、抽出スキーマを定義します。これにはいくつかの方法があります。

    • 抽出したい情報を説明する自然言語を入力し、 「スキーマを生成」 をクリックします。情報抽出機能は、フィールド名と定義を含むJSONスキーマをインテリジェントに自動生成します。必要に応じてこれらの説明を編集してください。

    • または、 [手動で定義]をクリックして、 スキーマを手動で定義します。

      1. 「フィールドを追加」 をクリックします。
      2. フィールド名、種類、説明を入力してください。
      3. 確認 をクリックします。
      4. 抽出したいフィールドごとにこの手順を繰り返してください。
      5. 「保存して抽出を実行」 をクリックしてください。
    • JSON をクリックすると、JSONスキーマを直接編集することもできます。完了したら 「変更を適用」 をクリックしてください。

    スキーマを更新し、 [保存して抽出を実行] をクリックするたびに、情報抽出は抽出エージェントを更新し、抽出を実行し、各入力の結果を表示します。

  2. 左側には、解析された文書とエージェントによる抽出結果が表示されます。抽出結果を2つの方法で反復処理します。まず、1つまたは複数の入力に対して自然言語によるフィードバックを提供することによって実現します。 保存して抽出を 実行すると、説明文がインテリジェントに自動調整されます。第二に、スキーマ記述を手動で修正することによって。これは 、「保存」をクリックして抽出を実行する と有効になります。

  3. バージョン情報を使用して、以前の設定と比較したり、以前の設定に戻したりできます。 「バージョン」 をクリックし、次に 「比較」 をクリックすると、以前のバージョンのスキーマ定義と現在のバージョンのスキーマ定義を比較できます。以前のバージョンに戻すには、 「復元」 をクリックしてください。

ステップ 3. 抽出剤を使用する

エージェントの性能に満足したら、そのエージェントを使って情報を抽出してください。

右上の 「エージェントを使用」 をクリックしてください。どちらかをお選びください。

  • SQLで実行して 、エージェントを使用してすべてのデータから情報を抽出します。これにより、 ai_extractを使用して定義されたスキーマに基づいてボリュームまたはテーブルから情報を抽出する SQL クエリが開きます。SQLクエリでai_extractを使用する方法の詳細については、 ai_extract関数を参照してください。
  • Spark宣言型パイプラインを作成して 、スケジュールされた間隔で実行して新しいデータに対してエージェントを呼び出すETLパイプラインをデプロイします。 これにより、抽出されたデータでストリーミング テーブルを更新するLakeFlow Spark宣言型パイプラインが作成されます。 パイプラインのスケジュールを設定すれば、新しいデータが到着したときに実行するようにできます。LakeFlow Spark宣言型パイプラインの詳細については、 LakeFlow Spark宣言型パイプライン」を参照してください。

制限事項