Genieスペースでベンチマークを使用する

プレビュー

この機能はパブリックプレビュー段階です。

この記事では、ベンチマークを使用してGenieスペースの精度を評価する方法について説明します。

ベンチマークを使用すると、 genieの全体的な回答精度を評価するために実行できる一連のテスト問題を作成できます。 頻繁に行われるユーザーの質問をカバーする適切に設計されたベンチマークのセットは、Genieスペースを洗練させる際の精度を評価するのに役立ちます。

多くの質問で報告された精度のベンチマークの例。

ベンチマーク質問の追加

ベンチマークの質問は、ユーザーが尋ねる一般的な質問をさまざまな方法で表現する必要があります。 これらを使用して、質問の言い回しやさまざまな質問形式の変化に対する genieの応答を確認できます。

ベンチマークの質問を作成する際には、結果セットが正解となるSQLクエリをオプションで含めることができます。 ベンチマーク実行を通じて、SQL クエリの結果セットと genieによって生成された結果セットを比較することによって精度が評価されます。

ベンチマークの質問を追加するには、次の手順を実行します。

  1. 左側のサイドバーにあるGenie スペースの ベンチマークのアイコンをクリックします。

  2. 「質問」タブをクリックします。次に、[ ベンチマークを追加] をクリックします。

  3. [質問]フィールドに、テストするベンチマークの質問を入力します。

  4. (オプション)入力した質問に正確に回答する SQL 文を入力します。

    注:

    こちらのステップをお勧めします。 この例の SQL ステートメントを含む質問のみ、精度を自動的に評価できます。 SQL解答が含まれていない質問は、手動で採点する必要があります。

  5. (オプション)[ プレビュー ] をクリックしてクエリを実行し、結果を表示します。

  6. 編集が終了したら、[ ベンチマークを追加] をクリックします。

  7. 保存後に質問を更新するには、 編集アイコン 鉛筆アイコンをクリックして「 質問の更新 」ダイアログを開きます。

ベンチマークを使用して代替の質問の言い回しをテストする

Genieスペースの精度を評価するときは、現実的なシナリオを反映するようにテストを構成することが重要です。 ユーザーは、同じ質問をさまざまな方法で行うことができます。 Databricks では、精度を完全に評価するために、同じ質問の複数の言い回しを追加し、ベンチマーク テストで同じ例の SQL を使用することをお勧めします。 ほとんどのGenieスペースには、同じ質問の2〜4個の言い回しを含める必要があります。

ベンチマーク質問の実行

Genieスペースで少なくともCAN EDIT権限を持つユーザーは、いつでもベンチマーク実行を作成でき、すべてのベンチマーク質問で自動的に評価されます。 各ベンチマーク質問を評価するために、まず問題を genieに提出し、次に genie 結果をベンチマークと比較します。 各ベンチマークには、次のいずれかのラベルが適用されます。

  • 良好: genie生成されたクエリ結果が、指定された SQL 回答の結果と一致する場合、応答はこのラベルでマークされます。応答が Good とマークされている場合は、ソート順や列名に関係なく、行の値が正確に一致していることを意味します。

  • レビューが必要: genie が正確性を評価できない場合、またはgenieが生成したクエリ結果が、提供された SQL 回答の結果と一致しない場合、応答はこのラベルでマークされます。生成された応答または提供されたSQL回答のテーブルディメンションに予期しない変更があった場合、その質問はレビュー対象としてマークされることがあります。 SQL 回答 を含まないベンチマーク質問はすべて、手動で確認する必要があります。

  • 悪い: 回答が自動的に 悪いとラベル付けされることはありません。 genie生成されたクエリ結果が、指定されたSQL回答の結果セットと一致しない場合、質問は [レビューが必要] としてマークされます。これらのベンチマークを確認するときに、Genieによって生成されたクエリの結果が質問に回答していないと思われる場合は、結果を 悪いとしてマークできます。

すべてのベンチマーク質問を実行するには:

  1. 画面の左側近くのGenieスペースサイドバーでベンチマークのアイコン[ ベンチマーク ]をクリックします。

  2. [ ベンチマークの実行 ] をクリックして、テストの実行を開始します。

注:

このページを閉じると、ベンチマークの実行は自動的に停止します。 再度ページを開いたときに、テストを再開できます。

ベンチマーク評価へのアクセス

すべてのベンチマーク評価にアクセスして、Genieスペースの精度を経時的に追跡できます。 Genieスペースの左側のサイドバーにあるベンチマークのアイコンをクリックすると、評価実行のタイムスタンプ付きリストが [評価]タブに表示されます。評価実行が見つからない場合は、 ベンチマークの質問の追加 または ベンチマークの質問の実行を参照してください。

評価画面は、次のテキストで説明します。

「評価」タブには、以下のカテゴリで報告された評価とそのパフォーマンスの概要が表示されます。

評価名: 評価実行がいつ発生したかを示すタイムスタンプ。 タイムスタンプをクリックすると、その評価の詳細が表示されます。 実行ステータス: 評価が完了したか、停止するか、失敗したかを示します。 評価実行に、事前定義された SQL 回答がないベンチマーク質問が含まれている場合は、この列でレビュー対象としてマークされます。 精度: すべてのベンチマーク質問の精度を数値で評価します。 手動レビューが必要な評価実行の場合、精度メジャーは、それらの質問がレビューされた後にのみ表示されます。 作成者: 評価を実行したユーザーの名前を示します。

個々の評価を確認する

個々の評価を確認して、各回答を詳細に確認できます。 質問の評価を編集したり、手動レビューが必要な項目を更新したりできます。

個々の評価を確認するには:

  1. 画面の左側近くのGenieスペースサイドバーでベンチマークのアイコン[ ベンチマーク ]をクリックします。

  2. [評価名] 列で任意の評価のタイムスタンプをクリックすると、そのテスト実行の詳細ビューが開きます。

    1 回の評価実行の結果を表示する画面。 すべての質問は左側にリストされています。 該当する場合は、個々の質問がモデル出力とグラウンド トゥルース出力とともに右側に表示されます。
  3. 画面の左側付近にある質問をクリックすると、関連する詳細が表示されます。 評価詳細画面を使用して、次の手順を実行します。

  4. モデルの出力応答とグラウンド トゥルース応答を確認して比較します。

    注:

    これらの回答の結果は、1週間の評価詳細に表示されます。 1 週間後、結果は表示されなくなります。 生成された SQL ステートメントとサンプル SQL ステートメントは残ります。

  5. ラベルの 編集アイコン をクリックして、評価を編集します。

    各結果を 「良好 」または 「不良 」としてマークして、この評価の正確なスコアを取得します。