メインコンテンツまでスキップ

Genie Spaceのテストとモニタリング

このページでは、Genie Spaceのテスト方法、回答の確認と編集方法、およびスペースの使用状況の監視方法について説明します。

Genie Spaceをテストする

ユーザー間のやり取りのほとんどはチャットウィンドウで行われます。自分のスペースが意図した通りに機能しているかどうかを確認する最善の方法は、ビジネスユーザーが尋ねるであろう現実的な質問を使ってテストすることです。

以下の文章で説明されている、新しいチャットウィンドウ。

スペース設定で設定されたサンプル質問がチャットウィンドウに表示されます。Genieは、空間の状況に基づいてサンプル質問を生成することもでき、ユーザーがデータの探索を開始するのに役立ちます。ユーザーはサンプル問題をクリックするか、画面下部のテキストフィールドに独自の問題を入力できます。

回答はテキストフィールドの上に表示されます。ユーザーが質問を入力すると、その内容はチャット履歴に保存されます。

新しい会話を始めるには:

  1. 新しいチャットを開始するには、「新しい チャット」をクリックしてください。クリック歴史アイコン。以前の会話を開く。
  2. 質問する... テキスト入力フィールドに質問を入力します。

レビューへの回答

回答は通常、質問に対する自然言語による回答と、関連する結果セットを示す表として提供されます。Genieは、視覚化によって回答の明確さが向上すると判断した場合、視覚化結果も返します。具体的な回答構造は、質問内容によって異なります。質問に回答するためにSQLクエリが生成された場合、そのクエリは応答に含まれます。

視覚化、フィードバック、その他のオプションを含む応答例を示します。

注記

他の大規模言語モデル (LLM) と同様に、Genie は非決定論的な動作を示すことがあります。つまり、同じプロンプトを複数回送信すると、異なる出力が表示される場合があります。Genie が学習できる SQL クエリの例を提供することで、Genie の一貫性を高めることができます。SQL クエリと関数の例の追加を参照してください。

回答フィードバック

各応答は、ユーザーに これは正しいですか? と回答するように求めます。ユーザーは、次のいずれかの方法で応答できます。

  • はい: 回答が正確であることを確認します。

  • 修正する: 応答が不正確であることを示すフラグを立てます。ユーザーはよくある問題から選択するか、独自の説明を入力できます。そうすれば、彼らは次のことができるようになる。

    • 送信および再試行 をクリックし、提供されたフィードバックを使用して応答を再生成してください。
    • 送信 をクリックして、応答を再生成せずにフィードバックを送信します。
  • レビューを依頼する: 応答を手動レビューの対象としてマークします。ユーザーは、追加の情報を提供するために、任意でコメントを追加できます。

編集者は、Genieのインターフェースでフィードバックやフラグ付けされた回答を確認できます。Genie Spaceの動作は、ユーザーからのフィードバックのみに基づいて変更されるわけではありません。フィードバックは、改善の機会を特定したり、ユーザーからの質問に直接回答したりするために活用すべきです。Databricksは、この仕組みを利用してユーザーにスペースに関するフィードバックを提供するよう促すことを推奨しています。

ビジネスユーザーは、 モニター ページで、レビュー対象としてマークした質問の更新情報を確認できます。Genie Space上で少なくとも「CAN MANAGE」権限を持つユーザーは、特定のやり取りを確認したり、リクエストにコメントしたり、レスポンスを確認または修正したりすることができます。モニタリングページからフィードバックやレビュー依頼にアクセスできます。そうすることで、そのフィードバックを活用して反応を調整し、空間を改善していくことができます。スペースの監視を参照してください。

その他の対応措置

生成されたSQLを含むレスポンスの場合、追加オプションを使用することで、返されたデータと対話することができます。

  • CSVファイルのコピー: スペース利用者は、最大約1GBの結果データをCSVファイルとしてダウンロードできます。最終的なファイルのダウンロードサイズは、1GB の制限が最終ファイルのダウンロードよりも前の段階に適用されるため、1GB より若干多いか少ない可能性があります。 結果をダウンロードするには、応答メッセージ内のダウンロードアイコンをクリックしてください。

  • コードを表示: [ コードの表示 ] をクリックして、生成されたクエリを表示します。これは、信頼性の低い応答のトラブルシューティングに役立ちます。クエリの編集と保存を参照してください。

  • ケバブメニューのアイコン。ケバブメニュー: 以下の操作にアクセスしてください:

    • CSVをコピー :応答のCSVファイルをクリップボードにコピーします。
    • 指示として追加します。 類似の質問への回答方法をGenieに教えるのに役立つ可能性のあるインタラクションについては、 指示として追加 をクリックします。これにより、サンプルSQLクエリを保存するためのUIが開き、質問と生成されたSQLが入力されます。例をそのままにしておくことも、編集して保存して変更を加えることもできます。SQL クエリと関数の例の追加を参照してください。
    • ベンチマークとして追加 :質問をベンチマーク質問として追加します。ベンチマークを参照してください。
    • データの更新 :以前に生成したクエリを実行してデータを更新します。
    • 回答を再生成する :質問を再度送信し、Genieに回答を再生成させます。

クエリを編集して保存する

GenieのSQLクエリは、正確性を確認し、必要に応じて編集することができます。Genie Spaceの開発者は通常、ドメインとデータに精通しているため、Genieが誤った回答を生成しているかどうかを認識できます。多くの場合、生成されたSQLクエリを少し手動で調整するだけで、エラーは修正できます。 「生成されたコードを表示」を クリックすると、クエリを検査し、応答に対して生成されたSQLを表示できます。

Genieスペースに対するCAN EDIT以上の権限を持っている場合は、修正するために生成されたSQLステートメントを編集できます。修正を行ったら、クエリを実行します。その後、将来Genieに答え方を教えるための指示として保存できます。編集したクエリを保存するには、 命令として追加 をクリックします。

空間を監視する

Genie Spaceは、データチームとビジネスユーザー間の長期的なコラボレーションツールと考えることができます。これは、一度限りの導入ではなく、時間をかけて知識を蓄積していくものです。ユーザーから新たな質問が寄せられるにつれて、その範囲を絞り込み、網羅性と精度を向上させることができます。

「モニター」 タブを使用して、個々の質問と回答を確認したり、ユーザーからのフィードバックを表示したり、レビュー対象としてフラグが立てられた回答を特定したりできます。

説明されている機能を示すモニタリング タブの例。

モニタータブには、そのスペースで投稿されたすべての質問と回答が表示されます。質問は、時間、評価、ユーザー、またはステータスで絞り込むことができます。スペースを囲むことで、 CAN MANAGE権限を持つユーザーは、ビジネスユーザーから提起されたクエリとGenie Space がどのように応答したかを事前に理解できます。

Genieが苦手とする質問を特定することで、Genie Spaceに具体的な指示を追加して、Genieの応答を改善することができます。質問をクリックすると、質問と回答のテキストが開き、チャットのスレッド全体が表示されます。

利用状況と傾向を確認する

モニター タブの 「週間ダイジェスト」 セクションを使用して、週間のメッセージ量、アクティブユーザー数、および「いいね」/「よくないね」のフィードバックを確認してください。主な使用傾向と一般的な問題点を特定するには、 「スペース使用状況を分析」 をクリックしてください。これにより、スペースのモニタリング データを分析し、使用パターンと改善の余地がある領域を要約するGenie Codeが起動します。 Genie Codeの回答には、関連する議論へのリンクを含む引用が含まれています。引用をクリックすると、Genie Codeのスレッド内で直接会話が開きます。

モニタリングタブの「週次ダイジェスト」セクションには、週ごとのメッセージ、ユーザー、フィードバックが表示されます。

会話の質を確認する

備考

ベータ版

この機能はベータ版です。ワークスペース管理者は、 プレビュー ページからこの機能へのアクセスを制御できます。Databricksのプレビューを管理するを参照してください。

会話が [スペース管理者によるレビュー可能] に設定されている場合、 CAN MANAGEタブから会話を開いて完全な交換をレビューできます。 これにより、Genieの応答品質を評価したり、ユーザーからのフィードバックに対応したり、追加の指示や例題によって精度が向上する領域を特定したりすることができます。 プライベート に設定された会話の場合、スペース管理者は [モニタリング] タブでユーザーのプロンプトを確認できますが、会話全体や結果を表示することはできません。 詳細については、 「会話を共有する」を参照してください。

注記

ベータ版が有効になる前に作成された会話は 非公開の ままです。有効化後に作成された会話は、デフォルトで スペース管理者によるレビュー対象 となります。

ベンチマーク

ベンチマークを使用すると、Genieの全体的な応答精度を評価するために実行できる一連のテスト問題を作成できます。ユーザーからよく寄せられる質問を網羅した、適切に設計された一連のベンチマークは、Genie Spaceを改良していく過程で、その精度を評価するのに役立ちます。各Genie Spaceには、最大500問のベンチマーク問題が保存できます。

ベンチマークの質問を新しい会話として実行します。 それらは、スレッド形式のGenie会話と同じ文脈を持ちません。各質問は、指定されたスペースで定義された指示(提供されているSQLの例やSQL関数を含む)を使用して、新しいクエリとして処理されます。

9つの質問に対する正答率を報告したベンチマーク例。

ベンチマーク質問を追加する

ベンチマークとなる質問は、ユーザーがよく尋ねる質問をさまざまな言い回しで表現したものを反映させるべきです。これらを使って、質問の言い回しや質問形式の違いに対するGenieの反応を確認できます。

ベンチマーク問題を作成する際、オプションで、結果セットが正解となるSQLクエリを含めることができます。ベンチマーク実行時には、SQLクエリの結果セットとGenieによって生成された結果セットを比較することで、精度が評価されます。Unity Catalog SQL関数をベンチマークの標準的な回答として使用することもできます。

ベンチマーク問題を追加するには:

  1. Genie Spaceの上部付近にある 「ベンチマーク」 をクリックします。

  2. 「ベンチマークを追加」 をクリックします。

  3. [質問] フィールドに、テストするベンチマークの質問を入力します。

  4. (任意)質問に答えるSQLクエリを提供してください。 SQL回答 テキストフィールドに入力することで、Unity CatalogのSQL関数を含む独自のクエリを作成できます。または、 「SQL生成」 をクリックすると、GenieがSQLクエリを自動的に生成します。入力した質問に正確に答えるSQL文を使用してください。

注記

このステップがオススメです。 この例のSQL文を含む問題のみが、自動的に正誤判定の対象となります。 SQLによる回答 が含まれていない質問は、採点のために手動で確認する必要があります。 「SQL生成」 ボタンを使用する場合は、生成されたステートメントが質問に正確に答えていることを確認してください。

  1. (オプション) [実行] をクリックしてクエリを実行し、結果を表示します。

  2. 編集が完了したら、 「ベンチマークを追加」 をクリックしてください。

  3. 保存後に質問を更新するには、編集アイコン鉛筆アイコンをクリックして、 「質問の更新」 ダイアログを開きます。

ベンチマークを使用して、質問の表現方法をテストする

Genie Spaceの精度を評価する際には、現実的なシナリオを反映したテストを構成することが重要です。ユーザーは同じ質問をさまざまな言い方で尋ねる可能性がある。Databricksは、精度を完全に評価するために、ベンチマークテストで同じ質問を複数の表現で追加し、同じSQL例を使用することを推奨しています。ほとんどのGenieスペースには、同じ質問を2~4通りの言い換えで含めるべきです。

ベンチマーク質問を実行する

Genie Space内で少なくともCAN EDIT権限を持つユーザーは、いつでもベンチマーク評価を実行できます。 すべてのベンチマーク問題を実行することも、テストする問題の一部を選択することもできます。

Genieは各質問に対して、入力内容を解釈し、SQLを生成し、結果を返します。生成されたSQLと結果は、ベンチマーク問題で定義された SQL解答 と比較されます。

すべてのベンチマーク質問を実行するには:

  1. Genie Spaceの上部付近にある 「ベンチマーク」 をクリックします。
  2. [ ベンチマークの実行 ] をクリックして、テストの実行を開始します。

ベンチマーク質問の一部を実行するには:

  1. Genie Spaceの上部付近にある 「ベンチマーク」 をクリックします。
  2. テストしたい質問の横にあるチェックボックスを選択してください。
  3. 「選択した実行」 をクリックして、選択した質問に対するテスト実行を開始します。

また、以前のベンチマーク結果から質問の一部を選択し、それらの特定の質問を再実行して改善点をテストすることもできます。

ページから移動しても、ベンチマークは引き続き実行されます。実行が完了すると、 「評価」 タブで結果を確認できます。

評価を解釈する

Genieの回答の評価基準は以下のとおりです。

条件

評価

Genieは、指定された SQL回答 と完全に一致するSQLを生成します。

良い

Genieは、 SQL Answer によって生成された結果セットと完全に一致する結果セットを生成します。

良い

Genieは、 SQL Answer と同じデータを含む結果セットを生成しますが、ソート順が異なります。

良い

Genieは、 SQL Answer と同じ4桁の有効数字に丸められた数値を含む結果セットを生成します。

良い

Genieは、空の結果セットを生成するか、エラーを返すSQLを生成します。

悪い

Genieは、 SQL Answer によって生成された結果セットと比較して、追加の列を含む結果セットを生成します。

悪い

Genieは、 SQL Answer によって生成される単一セル結果とは異なる単一セル結果を生成します。

悪い

手動レビューが必要 : Genie が正当性を評価できない場合、または Genie が生成したクエリ結果が、提供された SQL Answer の結果と完全に一致しない場合、応答にはこのラベルが付けられます。 SQLによる回答 が含まれていないベンチマーク問題はすべて手動で確認する必要があります。

ベンチマーク評価にアクセスする

すべてのベンチマーク評価にアクセスして、Genieスペースの精度を経時的に追跡できます。スペースの ベンチマーク を開くと、評価ランのタイムスタンプ付きリストが [評価] タブに表示されます。評価ランが見つからない場合は、 ベンチマークの質問の追加 または ベンチマークの質問の実行を参照してください。

評価画面については、以下の本文で説明します。

「評価」 タブには、以下のカテゴリで報告された評価の概要とパフォーマンスが表示されます。

評価名 :評価実行が行われた日時を示すタイムスタンプ。タイムスタンプをクリックすると、その評価の詳細が表示されます。 実行ステータス : 評価が完了したか、停止するか、失敗したかを示します。 評価実行に、事前に定義されたSQL回答がないベンチマーク問題が含まれている場合、この欄でレビュー対象としてマークされます。 正確性 :すべてのベンチマーク問題における正確性を数値で評価したもの。手動レビューが必要な評価実行の場合、精度指標はそれらの質問がレビューされた後にのみ表示されます。 作成者 :評価を実行したユーザーの名前を示します。

個々の評価を確認する

個々の評価を確認することで、各回答の詳細を把握できます。どの質問についても評価を編集でき、手動レビューが必要な項目を更新できます。

個々の評価を確認するには:

  1. Genie Spaceの上部付近にある 「Benchmark」 をクリックします。

  2. [評価名] 列で任意の評価のタイムスタンプをクリックすると、そのテスト実行の詳細ビューが開きます。

    1 回の評価ランの結果を表示する画面。 すべての質問は左側にリストされています。 該当する場合は、個々の質問がモデル出力とグラウンド トゥルース出力とともに右側に表示されます。

  3. 画面左側の問題一覧を使用して、各問題の詳細を確認してください。

  4. モデルの出力 応答と 正解 応答をレビューし、比較してください。

    不正解と判定された結果については、なぜその結果が 「不良」 と判定されたのかを説明する説明が表示されます。これは、生成された出力と期待される正解値との間の具体的な違いを理解するのに役立ちます。

注記

これらの回答結果は、評価の詳細に1週間分表示されます。1週間後には、その効果はもはや見られなくなる。生成されたSQL文とサンプルSQL文はそのまま残ります。

  1. 「正解データを更新」 をクリックすると、回答がこの質問の新しい 正解データ として保存されます。これは、正解データが存在しない場合、または回答が既存の正解データよりも優れている、あるいはより正確な場合に役立ちます。

  2. クリック編集アイコンラベル上で評価を編集します。

    この評価の正確なスコアを得るために、各結果を 「良い」 または 「悪い」 でマークしてください。