Genieスペースでベンチマークを使用する

このページでは、ベンチマークを使用してGenieスペースの精度を評価する方法について説明します。

概要

ベンチマークを使用すると、Genie の全体的な応答精度を評価するために実行できる一連のテスト質問を作成できます。最もよく尋ねられるユーザーの質問を網羅した、適切に設計されたベンチマークセットは、 Genieを改良する際にその精度を評価するのに役立ちます。各Genieスペースには、最大 500 個のベンチマーク質問を含めることができます。

ベンチマークの質問は、新しい会話として実行されます。それらは、スレッド化されたGenieの会話と同じコンテキストを持ちません。各質問は、スペースで定義された命令 (提供されている例の SQL や SQL 関数など) を使用して、新しいクエリとして処理されます。

9つの質問で報告された精度のベンチマークの例。

ベンチマーク質問を追加する

ベンチマークの質問は、ユーザーが尋ねる一般的な質問をさまざまな方法で表現する必要があります。これらを使用して、質問の言い回しやさまざまな質問形式の変化に対するGenieの応答を確認できます。

ベンチマーク質問を作成するときに、結果セットが正しい回答となる SQL クエリをオプションで含めることができます。ベンチマーク実行中は、SQL クエリの結果セットと Genie によって生成された結果セットを比較して精度が評価されます。Unity Catalog SQL関数をベンチマークの標準的な回答として使用することもできます。

ベンチマークの質問を追加するには:

Genieスペースの上部近くにある 「ベンチマーク」を クリックします。
[ ベンチマークを追加 ] をクリックします。
[質問] フィールドに、テストするベンチマークの質問を入力します。
(オプション) 質問に答える SQL クエリを提供します。 SQL回答 テキストフィールドに入力することで、 Unity Catalog SQL関数を含む独自のクエリを作成できます。または、 「SQL の生成」 をクリックして、Genie に SQL クエリを作成させます。入力した質問に正確に答える SQL ステートメントを使用します。

注記

このステップがオススメです。このサンプル SQL ステートメントを含む質問のみ、正確性が自動的に評価されます。 SQL 回答 が含まれていない質問については、手動で確認して採点する必要があります。 「SQL の生成」 ボタンを使用する場合は、ステートメントを確認して、質問に正確に答えているかどうかを確認してください。

(オプション)[ 実行 ] をクリックしてクエリを実行し、結果を表示します。
編集が終了したら、[ ベンチマークを追加 ] をクリックします。
保存後に質問を更新するには、鉛筆アイコンをクリックして「 質問の更新 」ダイアログを開きます。

ベンチマークを使用して代替の質問の言い回しをテストする

Genieの精度を評価するときは、現実的なシナリオを反映するようにテストを構成することが重要です。ユーザーは同じ質問をさまざまな方法で尋ねる場合があります。Databricks では、精度を完全に評価するために、同じ質問の複数の言い回しを追加し、ベンチマークテストで同じサンプル SQL を使用することをお勧めします。ほとんどのGenie spacesは、同じ質問のフレーズが 2 ～ 4 つ含まれている必要があります。

ベンチマーク問題の実行

Genieスペースで少なくともCAN EDIT権限を持つユーザーは、いつでもベンチマーク評価を実行できます。すべてのベンチマーク質問を実行することも、質問のサブセットを選択してテストすることもできます。

質問ごとに、Genie は入力を解釈し、SQL を生成し、結果を返します。生成された SQL と結果は、ベンチマークの質問で定義された SQL Answer と比較されます。

すべてのベンチマーク質問を実行するには:

Genieスペースの上部近くにある 「ベンチマーク」を クリックします。
[ ベンチマークの実行 ] をクリックして、テストの実行を開始します。

ベンチマーク質問のサブセットを実行するには:

Genieスペースの上部近くにある 「ベンチマーク」を クリックします。
テストしたい質問の横にあるチェックボックスを選択します。
「選択した実行」 をクリックして、選択した質問に対するテスト実行を開始します。

以前のベンチマーク結果から質問のサブセットを選択し、それらの特定の質問を再実行して改善をテストすることもできます。

ページから移動してもベンチマークは実行され続けます。実行が完了すると、 「評価」 タブで結果を確認できます。

評価の解釈

次の基準によって、Genie の回答がどのように評価されるかが決まります。

条件	評価
Genie は、提供された SQL アンサーと完全に一致する SQL を生成します	良い
Genie は、 SQL Answer によって生成された結果セットと完全に一致する結果セットを生成します	良い
Genie は、 SQL Answer と同じデータを含む結果セットを生成しますが、ソートは異なります	良い
Genie は、 SQL Answer と同じ有効 4 桁に丸められた数値を含む結果セットを生成します	良い
Genie は、空の結果セットを生成するか、エラーを返す SQL を生成します	悪い
Genie は、 SQL Answer によって生成された結果セットと比較して、追加の列を含む結果セットを生成します	悪い
Genie は、 SQL Answer によって生成された単一セルの結果とは異なる単一セルの結果を生成します	悪い

手動レビューが必要 : Genie が正しさを評価できない場合、または Genie が生成したクエリ結果に、提供された SQL Answer の結果と完全に一致しない場合、応答にはこのラベルが付けられます。 SQL Answer が含まれていないベンチマークの質問は、手動で確認する必要があります。

アクセスベンチマーク評価

すべてのベンチマーク評価にアクセスして、Genieスペースの精度を経時的に追跡できます。スペースの ベンチマーク を開くと、評価ランのタイムスタンプ付きリストが [評価] タブに表示されます。評価ランが見つからない場合は、ベンチマークの質問の追加またはベンチマークの質問の実行を参照してください。

評価画面は、次のテキストで説明します。

「評価」 タブには、評価の概要と、次のカテゴリで報告されたそのパフォーマンスが表示されます。

評価名 : 評価実行がいつ発生したかを示すタイムスタンプ。タイムスタンプをクリックすると、その評価の詳細が表示されます。 実行ステータス : 評価が完了したか、停止するか、失敗したかを示します。評価実行に、事前定義された SQL 回答がないベンチマーク質問が含まれている場合、この列にレビュー対象としてマークされます。精度 : すべてのベンチマーク質問の精度を数値的に評価します。手動によるレビューが必要な評価実行の場合、精度の測定はそれらの質問がレビューされた後にのみ表示されます。 作成者 : 評価を実行したユーザーの名前を示します。

個々の評価を確認する

個々の評価を確認して、各回答を詳細に確認できます。質問の評価を編集したり、手動レビューが必要な項目を更新したりできます。

個々の評価を確認するには:

Genieスペースの上部近くにある 「ベンチマーク」を クリックします。
[評価名] 列で任意の評価のタイムスタンプをクリックすると、そのテスト実行の詳細ビューが開きます。
画面の左側にある質問リストを使用して、各質問の詳細を表示します。
モデルの出力 応答と グラウンドトゥルース 応答を確認して比較します。

不正確と評価された結果については、その結果が 「悪い」 と評価された理由を説明する説明が表示されます。これは、生成された出力と予想される実際の値との間の具体的な違いを理解するのに役立ちます。

注記

これらの回答の結果は、1 週間の評価詳細に表示されます。1 週間後には結果は見えなくなります。生成された SQL ステートメントとサンプル SQL ステートメントは残ります。

「グラウンドトゥルースを更新」 をクリックして、応答をこの質問の新しい グラウンドトゥルース として保存します。これは、グラウンドトゥルースが存在しない場合、または応答が既存のグラウンドトゥルースのステートメントよりも優れているか、より正確な場合に役立ちます。
ラベルのをクリックして、評価を編集します。

各結果を 「良好 」または 「不良 」としてマークして、この評価の正確なスコアを取得します。

概要​

ベンチマーク質問を追加する​

ベンチマークを使用して代替の質問の言い回しをテストする​

ベンチマーク問題の実行​

評価の解釈​

アクセスベンチマーク評価​

個々の評価を確認する​

概要