メインコンテンツまでスキップ

Genieスペースでベンチマークを使用する

このページでは、ベンチマークを使用してGenieスペースの精度を評価する方法について説明します。

概要

ベンチマークを使用すると、Genieの全体的な応答精度を評価するために実行できる一連のテスト問題を作成できます。最も頻繁に寄せられるユーザーの質問をカバーする適切に設計されたベンチマークのセットは、Genieスペースを洗練させる際の精度を評価するのに役立ちます。

ベンチマークの質問は、新しい会話として実行されます。 それらは、スレッド化されたGenieの会話と同じコンテキストを持ちません。 各質問は、スペースで定義された命令 (提供されている例の SQL や SQL 関数など) を使用して、新しいクエリとして処理されます。

9つの質問で報告された精度のベンチマークの例。

ベンチマーク問題の追加

ベンチマークの質問は、ユーザーが尋ねる一般的な質問をさまざまな方法で表現する必要があります。これらを使用して、質問の言い回しやさまざまな質問形式の変化に対するGenieの応答を確認できます。

ベンチマークの質問を作成する際には、結果セットが正解となるSQLクエリをオプションで含めることができます。 ベンチマーク実行を通じて、SQL クエリの結果セットと genieによって生成された結果セットを比較することによって精度が評価されます。

ベンチマークの質問を追加するには:

  1. Genieスペースの右上隅にある ケバブメニューのアイコン。 ケバブメニューをクリックします。次に、[ ベンチマーク] をクリックします。

  2. [ ベンチマークを追加 ] をクリックします。

  3. [質問] フィールドに、テストするベンチマークの質問を入力します。

  4. (オプション)入力した質問に正確に回答する SQL 文を入力します。

注記

この手順をお勧めします。 この例の SQL ステートメントを含む質問のみ、精度を自動的に評価できます。 SQL解答 が含まれていない質問は、手動で採点する必要があります。

  1. (オプション)[ 実行 ] をクリックしてクエリを実行し、結果を表示します。

  2. 編集が終了したら、[ ベンチマークを追加 ] をクリックします。

  3. 保存後に質問を更新するには、 編集アイコン 鉛筆アイコンをクリックして「 質問の更新 」ダイアログを開きます。

ベンチマークを使用して代替の質問の言い回しをテストする

Genieスペースの精度を評価するときは、現実的なシナリオを反映するようにテストを構成することが重要です。ユーザーは、同じ質問をさまざまな方法で行うことができます。Databricks では、精度を完全に評価するために、同じ質問の複数の言い回しを追加し、ベンチマーク テストで同じ例の SQL を使用することをお勧めします。ほとんどの Genie spaces には、同じ質問の 2 つから 4 つの言い回しを含める必要があります。

ベンチマーク問題の実行

Genieスペースで少なくともCAN EDIT権限を持つユーザーは、いつでもベンチマーク評価を実行できます。ベンチマーク評価を実行すると、すべてのベンチマーク質問が自動的に実行されます。

質問ごとに、Genie は入力を解釈し、SQL を生成し、結果を返します。生成された SQL と結果は、ベンチマークの質問で定義された SQL Answer と比較されます。

すべてのベンチマーク質問を実行するには:

  1. Genieスペースの右上隅にある ケバブメニューのアイコン。 ケバブメニューをクリックします。次に、[ ベンチマーク] をクリックします。
  2. [ ベンチマークの実行 ] をクリックして、テストの実行を開始します。
注記

このページを閉じると、ベンチマークの実行は自動的に停止します。 再度ページを開いたときに、テストを再開できます。

評価の解釈

次の基準によって、Genie の回答がどのように評価されるかが決まります。

条件

評価

Genie は、提供された SQL アンサー と完全に一致する SQL を生成します

良い

Genie は、 SQL Answer によって生成された結果セットと完全に一致する結果セットを生成します

良い

Genie は、 SQL Answer によって生成された結果セットと比較して、追加の列を含む結果セットを生成します

良い

Genie は、 SQL Answer と同じデータを含む結果セットを生成しますが、ソートは異なります

良い

Genie は、 SQL Answer と同じ有効 4 桁に丸められた数値を含む結果セットを生成します

良い

Genie は、空の結果セットを生成するか、エラーを返す SQL を生成します

悪い

Genie は、 SQL Answer によって生成された単一セルの結果とは異なる単一セルの結果を生成します

悪い

手動レビューが必要 : Genie が正しさを評価できない場合、または Genie が生成したクエリ結果に、提供された SQL Answer の結果と完全に一致しない場合、応答にはこのラベルが付けられます。 SQL Answer が含まれていないベンチマークの質問は、手動で確認する必要があります。

アクセスベンチマーク評価

すべてのベンチマーク評価にアクセスして、Genieスペースの精度を経時的に追跡できます。スペースの ベンチマーク を開くと、評価実行のタイムスタンプ付きリストが [評価] タブに表示されます。評価実行が見つからない場合は、 ベンチマークの質問の追加 または ベンチマークの質問の実行を参照してください。

評価画面は、次のテキストで説明します。

「評価」 タブには、評価の概要と、次のカテゴリで報告されたそのパフォーマンスが表示されます。

評価名 : 評価実行がいつ発生したかを示すタイムスタンプ。 タイムスタンプをクリックすると、その評価の詳細が表示されます。 実行ステータス : 評価が完了したか、停止するか、失敗したかを示します。 評価実行に、事前定義された SQL 回答がないベンチマーク質問が含まれている場合は、この列でレビュー対象としてマークされます。 精度 : すべてのベンチマーク質問の精度を数値で評価します。 手動レビューが必要な評価実行の場合、精度メジャーは、それらの質問がレビューされた後にのみ表示されます。 作成者 : 評価を実行したユーザーの名前を示します。

個々の評価を確認する

個々の評価を確認して、各回答を詳細に確認できます。 質問の評価を編集したり、手動レビューが必要な項目を更新したりできます。

個々の評価を確認するには:

  1. Genieスペースの右上隅にある ケバブメニューのアイコン。 ケバブメニューをクリックします。次に、[ ベンチマーク] をクリックします。

  2. [評価名] 列で任意の評価のタイムスタンプをクリックすると、そのテスト実行の詳細ビューが開きます。

    1 回の評価実行の結果を表示する画面。 すべての質問は左側にリストされています。 該当する場合は、個々の質問がモデル出力とグラウンド トゥルース出力とともに右側に表示されます。

  3. 画面の左側付近にある質問をクリックすると、関連する詳細が表示されます。 評価の詳細画面を使用して、次の手順を実行します。

  4. モデルの出力 応答と グラウンド トゥルース 応答を確認して比較します。

注記

これらの回答の結果は、1週間の評価詳細に表示されます。 1 週間後、結果は表示されなくなります。 生成された SQL ステートメントとサンプル SQL ステートメントは残ります。

  1. ラベルの 編集アイコン をクリックして、評価を編集します。

    各結果を 「良好 」または 「不良 」としてマークして、この評価の正確なスコアを取得します。