Genieデータサンプリング
プレビュー
この機能は パブリック プレビュー段階です。
この記事では、Genieサンプル データを使用できるようにすることで、Genieスペースの精度を向上させ、ユーザーが送信したプロンプトとの一致を向上させる方法について説明します。データ サンプリングを有効にするには、Databricks アカウント チームにお問い合わせください。
概要
ユーザーが Genie で質問するとき、データの構造や値に直接一致しない不正確な言い回しや会話的な言い回しを使用することがよくあります。これにより、Genieが主要な用語を誤って解釈し、誤ったSQLクエリを生成する可能性があります。
たとえば、ユーザーは次のように尋ねる場合があります。
「第1四半期のフロリダでの車の販売を見せて」
Genie は、次のようなフィルターを使用して、用語 "Florida" を state
列の値と一致させようとする場合があります ILIKE '%Florida%'
。データに略語 ( FL
など) が使用されている場合、このフィルターは結果を返しません。
データサンプリングを有効にすると、Genieは state
列から代表的な値にアクセスできます。この追加されたコンテキストにより、Genie は FL
が Florida
に正しく一致することを認識し、より正確なクエリを生成できます。
次の表は、この例でサンプリングが有効になっているかどうかによって SQL の生成がどのように異なるかを示しています。
サンプリング値なし | サンプリングされた値を使用 |
---|---|
|
|
データサンプリングにより、Genieが正しいSQLを生成し、データから期待される結果を返す能力が向上します。
必要条件
- Genie spaces を有効にする必要があります。 Genieのセットアップを参照してください。
- データ サンプリング パブリック プレビュー アクセスを許可する必要があります。Databricks アカウント チームにお問い合わせください。
- ワークスペース管理者は、 Genie Data Sampling タイルを使用して、プレビューページから プレビューを有効にする必要があります。
データ サンプリングを有効にすると、応答の生成に追加の待機時間が発生する可能性があります。
列の選択
CAN EDITGenieスペースで 権限がある場合は、サンプリングする列を選択できます。ユーザー プロンプトに意味のあるコンテキストを提供する文字列列 (特に、カテゴリ値または一貫した書式設定の値を持つ列) を選択します。
次の項目は選択しないでください。
- 文字列以外の列: サンプリングは、文字列型でのみサポートされます。
- フリーテキストまたは非構造化文字列列: これには、多くの場合、ユーザー ID、顧客レビュー、名前、またはその他のシグナルの低いコンテンツが含まれます。
Genie は、列ごとに最大 255 個の異なる値をサンプリングします。サンプリングされた各値は 127 文字で切り捨てられます。列または行がその最大値を超えると、サブセットのみが使用されます。
サンプリングする列を選択する
- スペースで[> データの構成] Genieをクリックします。
- テーブル名をクリックすると、その列が表示されます。
- Genieでサンプリングする列の横にある [値の追加 ]をクリックします。
サンプリングされた値は、ワークスペースのストレージ バケットに格納されます。
進行中のサンプリング操作をキャンセルするには、「 値の追加 」メッセージの横にある「 ケバブ」メニューをクリックします。
操作が失敗した場合は、[ 値の追加を再試行] をクリックします。
操作が完了したら、 ケバブメニューを使用して次の操作を行います。
- 追加された値を更新して 、データの更新後に新しいサンプルを取得します。
- [追加された値を削除 ] をクリックして、現在のサンプルを削除します。
追加された値の更新
更新すると、列のサンプルが更新されます。これは、次の場合に便利です。
- 新しい値が列に追加されました。
- 列の値の形式が変更されました。
Genieがサンプルデータを使用する方法
プロンプトに応答するとき、Genieは使用可能なメタデータ、コメント、指示、および指定されている場合はサンプリングされた行レベルの値を使用します。このコンテキストに基づいて、関連する列が選択されます。選択した列にサンプリングされた値が含まれている場合、Genieはそれらを使用して解釈とクエリの精度を向上させることができます。
サンプリングされたデータはGenieの精度を高めるのに役立ちますが、効果的なスペースを作成するためには、指示とサンプルクエリも重要です。詳細については、「 効果的な Genieスペースをキュレーションする」を参照してください。