値サンプリングを使用してGenieの精度を向上させる
プレビュー
この機能は パブリック プレビュー段階です。
値サンプリングは、Genieがテーブルから実際のデータ値を収集して使用することにより、より正確なSQLを生成するのに役立ちます。これには 2 つのコンポーネントがあります。
- 値の例: 各列からの小さなサンプルにより、Genieはデータ型とフォーマットを理解するのに役立ちます。
- 値ディクショナリ: 列内の最も関連性の高い値のキュレーションされたリストであり、ユーザーのプロンプトを実際のデータと照合するために使用されます。
概要
ユーザーが Genie で質問するとき、言い回しは会話型であることが多く、スペルミスなどのエラーが含まれる場合があります。このような場合、プロンプト内の値がデータ内の構造または値と一致しない可能性があります。これにより、Genieが質問を誤って解釈し、誤ったSQLを生成する可能性があります。
たとえば、ユーザーは次のように尋ねる場合があります。
「第1四半期のフロリダでの車の販売を見せて」
データで状態の省略形 ( FL
など) が使用されており、Genie がその列の値にアクセスできない場合、Genie は ILIKE '%Florida%'
を含む SQL を生成する可能性があります。これは結果を返しません。
state
列で値サンプリングを有効にすると、Genieは代表的な値にアクセスできます。このコンテキストにより、Genieは FL
が「Florida」に対応していることを認識し、より正確なSQLを生成できます。
値ディクショナリなし | 値ディクショナリ付き |
---|---|
|
|
値サンプリングは、正確なSQLを生成する能力を向上させることにより、Genieが正しい結果を返すのに役立ちます。
必要条件
- Genie spaces を有効にする必要があります。 Genieアクセスの管理を参照してください。
- Genie Data Sampling プレビュー設定はデフォルトで有効になっています。必要に応じて、ワークスペースの管理者はプレビュー ページからプレビューへのアクセスを管理できます。プレビューは、Genieスペースの作成者がサンプル値と値ディクショナリを使用するには 、オン に設定する必要があります。
値サンプリングのしくみ
Genie は、スペースにテーブルを追加すると、サンプル値を自動的に保存し、適格な列の値ディクショナリを作成します。行フィルターまたは列マスクを持つテーブルは除外されます。列リストビューには、どの列に 「 Example values 」または 「 Value ディクショナリ 」が含まれているかを示すタグが表示されます。
- サンプル値は 、適格なすべての列について収集され、Genieがデータ型とフォーマットを理解するのに役立ちます
- 値ディクショナリ は最大 60 列に対して作成され、ユーザーが特定の値 (州や製品カテゴリなど) を参照する可能性が高い列に焦点を当てる必要があります。各ディクショナリには、長さが 127 文字未満の最大 1,024 個の個別の値を含めることができます。値ディクショナリのスペース制限に達し、含める列を調整する場合は、列を手動で選択できます。手順については、「 値ディクショナリの管理」を参照してください。値ディクショナリは、ワークスペースのストレージ バケットに格納されます。
サンプル値の管理
ワークスペースで値サンプリングが有効になっている場合、新しいスペースを作成するときにテーブルを選択すると、サンプル値が自動的に追加されます。
列の値の例をオフにするには:
- Genieスペースで 設定 > データ をクリックします。
- テーブル名をクリックすると、その列が表示されます。
- 列名の横にある
編集アイコンをクリックします。
- 「詳細 」をクリックします。
- [例の値 ] をオフにします。
このアクションにより、その列の値ディクショナリの作成は自動的に無効になります。必要に応じて、この設定を使用して [例の値 ] を再びオンにします。
値ディクショナリの管理
Genieは、プロンプト、関連するテーブルメタデータ、サンプリングされた値、エラー信号、および任意の入力コードまたはクエリを使用して応答を生成します。列に値ディクショナリが関連付けられている場合、Genieは保存された値を活用して、ユーザープロンプトをより適切に解釈し、より正確なSQLクエリを生成します。値辞書は、特に明確なサンプルクエリとよく練られた命令と組み合わせると、Genieの精度を大幅に向上させます。詳細については、「 効果的な Genieスペースのキュレーション 」を参照してください。
値ディクショナリの列を選択する場合は、プロンプトの解釈に役立つコンテキストを提供する文字列列を選択します。通常、都道府県や製品カテゴリなど、カテゴリ値または一貫した形式の値を持つ列が最適です。フリーテキストの列や、ユーザー ID、名前、レビューなどの非構造化列は、意味のあるコンテキストが不足していることが多く、精度が低下する可能性があるため、避けてください。
値ディクショナリを含む文字列列を設定するには:
- Genieスペースで 設定 > データ をクリックします。
- テーブル名をクリックすると、その列が表示されます。
- 列名の横にある
編集アイコンをクリックします。
- 「詳細 」をクリックします。
- [値ディクショナリの作成 ] をオンにします。
- 列の値ディクショナリを無効にするには、[ 値ディクショナリの構築 ] をオフにします。値の更新または削除を参照してください。
値を更新または削除する
サンプル値を更新すると、列の格納された値が更新されます。次の場合は、サンプル値を更新します。
- 新しい値が列に追加されました。
- 既存の値の形式が変更されました。
値ディクショナリを更新するには、列ビューの [ ケバブ] メニューをクリックし、 サンプル値を更新します 。