メインコンテンツまでスキップ

より信頼性の高いGenie spacesのためのナレッジストアを構築する

Genie ナレッジ ストアを使用すると、ローカライズされたメタデータ、値サンプリング、構造化された SQL 命令を通じてスペースをキュレーションおよび強化できます。これらの機能は、Genie がデータを理解し、より正確で関連性の高い応答を生成するのに役立ちます。

ナレッジストアとは

ナレッジストアは、Genie によるデータの理解を深め、応答の精度を向上させる、厳選されたセマンティック定義のコレクションです。

ナレッジストアは、次のもので構成されます。

  • スペースレベルのメタデータのカスタマイズ : テーブル、列、ビジネス用語とシノニムのスペース固有の説明
  • スペース レベルのデータのカスタマイズ : 基になる Unity Catalog テーブルを変更せずに、簡素化された焦点を絞ったデータセット
  • 値サンプリング : Genie がデータ型を理解し、ユーザーのプロンプトを実際の値と照合するのに役立つ実際のデータ例
  • 結合リレーションシップ : 正確な JOIN ステートメントのために定義されたテーブルリレーションシップ
  • SQL 式 : ビジネス ロジックを捕捉するメジャー、フィルター、ディメンションの構造化された定義

すべてのナレッジ ストア構成は、 Genieスペースにスコープが設定され、 Unity Catalog メタデータやその他の Databricks 資産には影響しません。

ナレッジ ストアのメタデータを管理する

ローカル テーブルと列の説明を提供し、一般的なビジネス用語に沿った列の同義語を追加することで、スペース内のデータについて Genie に教えます。不要な列や重複する列を非表示にしてデータセットを簡素化し、Genie の焦点を絞り込みます。

これらのプラクティスにより、基になるテーブルに対する直接のアクセス許可を持たないユーザーの使いやすさが向上し、命令バージョンを更新する際のより迅速なイテレーションもサポートされます。

スペースレベルのメタデータにアクセスするには、Genieスペースで [>データの構成 ] をクリックします。次に、テーブル名をクリックして、そのメタデータと列を表示します。

列の表示

テーブル名をクリックすると、列名と詳細の概要が表示されます。次の例は、 accountsという名前のテーブルのサンプルを示しています。

以下で説明するように、メタデータの説明と列の詳細を示す表の概要。

  • 形容: Genie はメタデータを使用してデータを理解し、正確な応答を生成します。デフォルト表の説明には、データ資産に関連付けられた Unity Catalog メタデータが表示されます。 この説明を編集して、Genie がスペースの SQL を作成するのに役立つ特定の指示を追加できます。 [リセット] をクリックして、Unity Catalog の説明を復元します。

  • 列: 列名と説明は、列リストに含まれます。各列には、 値例値辞書 のどちらが含まれているかを示すタグが付けられます。値サンプリングの概要を参照してください。

関連する列を非表示または表示する

列は、個別に管理することも、一括で管理することもできます。列を非表示または表示するには、次の手順を使用します。

  • 1つの列を非表示にする : 列名の横にある 目のアイコン をクリックします。

  • 複数の列を非表示 にする:

    • 非表示にする列のチェックボックスを選択します。
    • [ アクション] メニューから [選択した列を非表示] を選択します。
  • 変更を元に戻 す: 同じ手順を繰り返して、非表示にした列を表示します。

列メタデータの編集

列ごとに以下をカスタマイズできます。

  • 説明 : Genie の理解を深めるスペース固有の列の説明。
  • 同義語 : ユーザーの言語と列名を一致させるのに役立つビジネス用語とキーワード。
  • 詳細設定 : 値サンプリングコントロール。
    • 値の例 : 代表値の自動サンプリングをオンまたはオフにします。
    • 値ディクショナリの作成 : カテゴリ列の値ディクショナリを有効または無効にします。

列のメタデータを編集するには:

  1. クリック鉛筆アイコン。列名の横にある鉛筆アイコン。
  2. 列の説明とシノニムを編集します。
  3. 必要に応じて、[ 詳細設定 ] をクリックして値サンプリング コントロールを開きます。
  4. [ 保存] をクリックして変更を保持し、ダイアログを閉じます。

値サンプリングの概要

値サンプリングは、代表的な例を収集することで、Genie が実際のデータを理解し、操作する能力を強化します。

値サンプリングは、実際のデータ値へのアクセスを提供することで、Genie の SQL 生成を改善します。ユーザーがスペルミスや異なる用語を含む会話型の質問をする場合、値サンプリングは、Genie がプロンプトをテーブル内の実際のデータ値と照合するのに役立ちます。

値サンプリングコンポーネント

  • 値の例 : Genie がデータ型と書式を理解するのに役立つ各列の小さなサンプル。これらは、対象となるすべての列に対して自動的に収集されます。
  • 値ディクショナリ : 列ごとに最大 1,024 個の個別の値 (それぞれ 127 文字未満) のキュレーションされたリスト。状態、製品カテゴリ、状態コードなどのカテゴリまたは一貫した書式設定の文字列値を含む最大 120 列に対して作成されます。

行フィルターまたは列マスクを持つテーブルは、値サンプリングから除外されます。

値サンプリングの管理

どの列がサンプル値と値ディクショナリを提供するかを制御して、Genie によるデータの理解を最適化します。値サンプリングは、すべての Genie spacesに対してデフォルトによって有効になります。

値の例を管理する

Genieスペースにテーブルを追加すると、サンプル値が自動的に追加されます。

列の値の例をオフにするには:

  1. Genieスペースで 設定 > データ をクリックします。
  2. テーブル名をクリックすると、その列が表示されます。
  3. クリック鉛筆アイコン。列名の横にある鉛筆アイコン。
  4. [ 詳細設定] をクリックします。
  5. [値の例] をオフにします。

このアクションにより、その列の値ディクショナリの作成が自動的に無効になります。必要に応じて、この設定を使用して [値の例] をオンに戻します。

値辞書を構成する

Genie は、スペースにデータを追加するときに、値サンプリング用の列を自動的に選択します。値ディクショナリが有効になっている列を手動で管理できます。最良の結果を得るには、カテゴリ値または構造化された値を持つ文字列列を選択します。ユーザー ID、名前、ユーザー レビューなどのフリーテキスト列は避けてください。

Genie では、行フィルターまたは列マスクを含むテーブルで値辞書を有効にすることはできません。ただし、スペース作成者は、行フィルターまたは列マスクを持つテーブルを参照するビュー、または動的ビューに対して値ディクショナリを無効にする必要があります。

次のリストには、値ディクショナリで適切に機能するデータのタイプの例が含まれています。

  • 州または国コード
  • 製品カテゴリ
  • ステータス コード
  • 学科名

値ディクショナリを有効にするには:

  1. クリック鉛筆アイコン。列名の横にある鉛筆アイコン。
  2. [ 詳細設定] をクリックします。
  3. [値ディクショナリの作成] をオンにします。

右側に値辞書ボタンがある文字列列。

サンプル値の更新

サンプル値を更新すると、データが再度ポーリングされ、新しい値 (例: 値や値ディクショナリ) が収集されます。

次の場合に、サンプル値を更新する必要があります。

  • 列に新しい値が追加されました
  • 既存の値の形式が変更されました

格納された値を更新するには:

  1. 列ビューで ケバブメニューアイコン。 ケバブメニューをクリックします
  2. サンプル値の更新を選択します

UI の値を更新または値を削除するオプション

結合関係を定義する

Genie がテーブル関係を定義することで、正確な JOIN ステートメントを作成できるようにします。

  1. [ 結合] をクリックします。

  2. [ 追加 ] をクリックします。

  3. ドロップダウンメニューから左右のテーブルを選択します。

  4. 結合条件 を入力します(例: accounts.id = opportunity.accountid)

    • (オプション)より複雑な結合条件の場合は、SQL 式を使用します。「 SQL 式を使用」 をクリックし、結合条件を SQL 式として記録します。
  5. 関係タイプ を選択します。

    • 多対 1 : 複数の左行が 1 つの右行にマップされます
    • 1 対多 : 左の 1 行が右の複数の行にマップされます
    • 1 対 1 : 左の 1 行が最大で右の 1 行にマップされます

識別された 1 つの結合関係を示す結合手順

注記

同じテーブル間に複数の結合が存在する場合、または自己結合が使用されている場合、Genie はあいまいさを避けるために右側のテーブルのエイリアスを自動的に生成します。

フィードバックから提案を得る

ユーザーがテーブルを結合したり SQL 式を使用したりしているメッセージに対していいねをクリックすると、Genie は応答を分析し、スペース作成者が確認してナレッジ ストアに追加するための新しい SQL スニペット (メジャー、結合、フィルターなど) を提案できます。Genie はフィードバックに基づいて自動的に学習したり動作を変更したりすることはありません。

SQL式を定義する

メジャー、フィルター、ディメンションを表示する SQL 式インターフェース

SQL 式は、KPI、属性、条件などの一般的なビジネス用語を Genie に教えるための構造化されたガイド付きの方法を提供します。Genie は、ユーザーが質問したときに、これらの詳細な定義をそれぞれ使用できます。

SQL 式は、手順で指定されているサンプル SQL クエリを補完します。SQL 式は再利用可能なビジネス コンセプトを定義しますが、SQL クエリの例は、一般的なユーザー プロンプト形式へのアプローチ方法を Genie に教えるのに役立ちます。たとえば、ユーザーが一般的に「業績の内訳」を求める場合、サンプル SQL クエリでは、これが地域、営業担当者、およびマネージャー別の成約済み売上を意味することが示されます。

SQL 式は、次のような場合に最適です。

  • 利益率やコンバージョン率など、KPI とメトリクスの構造化された定義を提供します。
  • 重要な値を計算する方法について Genie に明確なコンテキストを与える
  • 月や顧客セグメントなど、データセットの追加ディメンションを定義する
  • 大量注文や特定の時間前の注文などのビジネス条件に合わせて Genie フィルターを学習します

SQL式の種類

次のタイプの SQL 式を定義できます。

  • 尺度 : 重要業績評価指標 (KPI) とメトリクス。 名前、SQL 計算、同義語を定義します。
  • フィルター : 一般的なフィルタリング条件。名前、SQL フィルター ロジック、および同義語を定義します。
  • ディメンション : データをグループ化および分析するための属性。名前、SQL 式、および同義語を定義します。

SQL 式を定義するには、次の手順に従います。

  1. 設定 > 手順 > SQL式 をクリックします
  2. [追加]を クリックします。 フィルターメジャー 、または ディメンション を選択します。
  3. 「名前」 フィールドに式の名前を入力します。
  4. コード フィールドに SQL 式を入力します。
  • フィルタ式はブール条件として評価される必要があります。
  • メジャー式では、テーブル内の複数の行にわたって集計を計算する必要があります。
  • ディメンション式は、既存のデータから各行の値を変更する必要があります。
  1. 「同義語」 フィールドに、ユーザーが口語的に表現を指す一般的な方法を入力します。
  2. 「指示」 フィールドに、式の目的とその操作方法を Genie に伝える具体的な指示を入力します。

次のステップ

次のリンクを使用して、 Genieスペースの構築を継続してください。