Genieスペースでベンチマークを使用する

この記事では、ベンチマークを使用してGenieスペースの精度を評価する方法について説明します。

概要

ベンチマークを使用すると、Genieの全体的な応答精度を評価するために実行できる一連のテスト問題を作成できます。最も頻繁に寄せられるユーザーの質問をカバーする適切に設計されたベンチマークのセットは、Genieスペースを洗練させる際の精度を評価するのに役立ちます。

ベンチマークの質問は、新しい会話として実行されます。それらは、スレッド化されたGenieの会話と同じコンテキストを持ちません。各質問は、スペースで定義された命令 (提供されている例の SQL や SQL 関数など) を使用して、新しいクエリとして処理されます。

9つの質問で報告された精度のベンチマークの例。

ベンチマーク問題の追加

ベンチマークの質問は、ユーザーが尋ねる一般的な質問をさまざまな方法で表現する必要があります。これらを使用して、質問の言い回しやさまざまな質問形式の変化に対するGenieの応答を確認できます。

ベンチマークの質問を作成する際には、結果セットが正解となるSQLクエリをオプションで含めることができます。ベンチマーク実行を通じて、SQL クエリの結果セットと genieによって生成された結果セットを比較することによって精度が評価されます。

ベンチマークの質問を追加するには:

Genieスペースの右上隅にあるケバブメニューをクリックします。次に、[ ベンチマーク] をクリックします。
[ ベンチマークを追加 ] をクリックします。
[質問] フィールドに、テストするベンチマークの質問を入力します。
(オプション)入力した質問に正確に回答する SQL 文を入力します。

注記

この手順をお勧めします。この例の SQL ステートメントを含む質問のみ、精度を自動的に評価できます。 SQL解答 が含まれていない質問は、手動で採点する必要があります。

(オプション)[ 実行 ] をクリックしてクエリを実行し、結果を表示します。
編集が終了したら、[ ベンチマークを追加 ] をクリックします。
保存後に質問を更新するには、鉛筆アイコンをクリックして「 質問の更新 」ダイアログを開きます。

ベンチマークを使用して代替の質問の言い回しをテストする

Genieスペースの精度を評価するときは、現実的なシナリオを反映するようにテストを構成することが重要です。ユーザーは、同じ質問をさまざまな方法で行うことができます。Databricks では、精度を完全に評価するために、同じ質問の複数の言い回しを追加し、ベンチマークテストで同じ例の SQL を使用することをお勧めします。ほとんどの Genie spaces には、同じ質問の 2 つから 4 つの言い回しを含める必要があります。

ベンチマーク問題の実行

Genieスペースで少なくともCAN EDIT権限を持つユーザーは、いつでもベンチマーク実行を作成でき、すべてのベンチマーク質問で自動的に評価されます。各ベンチマーク質問を評価するために、まず問題を genieに提出し、次に genie 結果をベンチマークと比較します。各ベンチマークには、次のいずれかのラベルが適用されます。

良好 : Genie によって生成されたクエリ結果が、指定された SQL アンサー の結果と一致する場合、応答はこのラベルでマークされます。応答が Good とマークされている場合は、ソート順や列名に関係なく、行の値が正確に一致していることを意味します。生成されたSQLの余分な列は、ベンチマーク回答のすべての列が生成されたSQLに存在する限り、許容されます。
手動レビューが必要 : Genie が正確性を評価できない場合、または Genie が生成したクエリ結果に提供された SQL アンサー の結果と完全に一致しない場合、応答はこのラベルでマークされます。提供された SQL 回答のテーブル・ディメンションに予期しない変更があった場合、その質問はレビュー対象としてマークされることがあります。 SQL Answer を含まないベンチマーク問題はすべて、手動で確認する必要があります。
悪い : 回答が自動的に悪いとラベル付けされることはありません。Genie が生成したクエリ結果が、提供された SQL 回答 の結果セットと一致しない場合、質問は [手動レビューが必要 ] としてマークされます。これらのベンチマークを確認するときに、Genie が生成したクエリ結果が質問に答えていないと思われる場合は、結果を Bad としてマークできます。

すべてのベンチマーク質問を実行するには:

Genieスペースの右上隅にあるケバブメニューをクリックします。次に、[ ベンチマーク] をクリックします。
[ ベンチマークの実行 ] をクリックして、テストの実行を開始します。

注記

このページを閉じると、ベンチマークの実行は自動的に停止します。再度ページを開いたときに、テストを再開できます。

アクセスベンチマーク評価

すべてのベンチマーク評価にアクセスして、Genieスペースの精度を経時的に追跡できます。スペースの ベンチマーク を開くと、評価実行のタイムスタンプ付きリストが [評価] タブに表示されます。評価実行が見つからない場合は、ベンチマークの質問の追加またはベンチマークの質問の実行を参照してください。

評価画面は、次のテキストで説明します。

「評価」 タブには、評価の概要と、次のカテゴリで報告されたそのパフォーマンスが表示されます。

評価名 : 評価実行がいつ発生したかを示すタイムスタンプ。タイムスタンプをクリックすると、その評価の詳細が表示されます。 実行ステータス : 評価が完了したか、停止するか、失敗したかを示します。評価実行に、事前定義された SQL 回答がないベンチマーク質問が含まれている場合は、この列でレビュー対象としてマークされます。精度 : すべてのベンチマーク質問の精度を数値で評価します。手動レビューが必要な評価実行の場合、精度メジャーは、それらの質問がレビューされた後にのみ表示されます。 作成者 : 評価を実行したユーザーの名前を示します。

個々の評価を確認する

個々の評価を確認して、各回答を詳細に確認できます。質問の評価を編集したり、手動レビューが必要な項目を更新したりできます。

個々の評価を確認するには:

Genieスペースの右上隅にあるケバブメニューをクリックします。次に、[ ベンチマーク] をクリックします。
[評価名] 列で任意の評価のタイムスタンプをクリックすると、そのテスト実行の詳細ビューが開きます。
画面の左側付近にある質問をクリックすると、関連する詳細が表示されます。評価の詳細画面を使用して、次の手順を実行します。
モデルの出力 応答と グラウンドトゥルース 応答を確認して比較します。

注記

これらの回答の結果は、1週間の評価詳細に表示されます。 1 週間後、結果は表示されなくなります。生成された SQL ステートメントとサンプル SQL ステートメントは残ります。

ラベルのをクリックして、評価を編集します。

各結果を 「良好 」または 「不良 」としてマークして、この評価の正確なスコアを取得します。

概要​

ベンチマーク問題の追加​

ベンチマークを使用して代替の質問の言い回しをテストする​

ベンチマーク問題の実行​

アクセスベンチマーク評価​

個々の評価を確認する​

概要

ベンチマーク問題の追加

ベンチマークを使用して代替の質問の言い回しをテストする

ベンチマーク問題の実行

アクセスベンチマーク評価

個々の評価を確認する