Genie Spaceのテストとモニタリング

Genieスペースを実際の質問でテストし、生成されたSQLと可視化を確認し、Genieが間違った回答をした場合は編集し、スペースの使用状況とユーザーフィードバックを監視することで、データや質問が変化してもスペースの精度を維持できます。ベンチマークを使用して、大規模な応答精度を評価します。

Genie Spaceをテストする

ユーザー間のやり取りのほとんどはチャットウィンドウで行われます。自分のスペースが意図した通りに機能しているかどうかを確認する最善の方法は、ビジネスユーザーが尋ねるであろう現実的な質問を使ってテストすることです。

Genieチャットウィンドウには、サンプル質問と独自の質問を入力するためのテキストフィールドが表示されます。

スペース設定で設定されたサンプル質問がチャットウィンドウに表示されます。Genieは、空間の状況に基づいてサンプル質問を生成することもでき、ユーザーがデータの探索を開始するのに役立ちます。ユーザーはサンプル問題をクリックするか、画面下部のテキストフィールドに独自の問題を入力できます。

回答はテキストフィールドの上に表示されます。ユーザーが質問を入力すると、その内容はチャット履歴に保存されます。

新しい会話を始めるには：

新しいチャットを開始するには、「新しい チャット」をクリックしてください。クリック以前の会話を開く。
質問する... テキスト入力フィールドに質問を入力します。

レビューへの回答

回答は通常、質問に対する自然言語による回答と、関連する結果セットを示す表として提供されます。Genieは、視覚化によって回答の明確さが向上すると判断した場合、視覚化結果も返します。具体的な回答構造は、質問内容によって異なります。質問に回答するためにSQLクエリが生成された場合、そのクエリは応答に含まれます。

視覚化、フィードバック、その他のオプションを含む応答例を示します。

注記

他の大規模言語モデル (LLM) と同様に、Genie は非決定論的な動作を示すことがあります。つまり、同じプロンプトを複数回送信すると、異なる出力が表示される場合があります。Genie が学習できる SQL クエリの例を提供することで、Genie の一貫性を高めることができます。SQL クエリと関数の例の追加を参照してください。

回答フィードバック

各応答は、ユーザーに これは正しいですか? と回答するように求めます。ユーザーは、次のいずれかの方法で応答できます。

はい： 回答が正確であることを確認します。
修正する： 応答が不正確であることを示すフラグを立てます。ユーザーはよくある問題から選択するか、独自の説明を入力できます。そうすれば、彼らは次のことができるようになる。
- 送信および再試行 をクリックし、提供されたフィードバックを使用して応答を再生成してください。
- 送信をクリックして、応答を再生成せずにフィードバックを送信します。
レビューを依頼する： 応答を手動レビューの対象としてマークします。ユーザーは、追加の情報を提供するために、任意でコメントを追加できます。

編集者は、Genieのインターフェースでフィードバックやフラグ付けされた回答を確認できます。Genie Spaceの動作は、ユーザーからのフィードバックのみに基づいて変更されるわけではありません。フィードバックは、改善の機会を特定したり、ユーザーからの質問に直接回答したりするために活用すべきです。Databricksは、この仕組みを利用してユーザーにスペースに関するフィードバックを提供するよう促すことを推奨しています。

ビジネスユーザーは、 モニター ページで、レビュー対象としてマークした質問の更新情報を確認できます。Genie Space上で少なくとも「CAN MANAGE」権限を持つユーザーは、特定のやり取りを確認したり、リクエストにコメントしたり、レスポンスを確認または修正したりすることができます。モニタリングページからフィードバックやレビュー依頼にアクセスできます。そうすることで、そのフィードバックを活用して反応を調整し、空間を改善していくことができます。スペースの監視を参照してください。

その他の対応措置

生成されたSQLを含むレスポンスの場合、追加オプションを使用することで、返されたデータと対話することができます。

CSVファイルのコピー： スペース利用者は、最大約1GBの結果データをCSVファイルとしてダウンロードできます。最終的なファイルのダウンロードサイズは、1GB の制限が最終ファイルのダウンロードよりも前の段階に適用されるため、1GB より若干多いか少ない可能性があります。結果をダウンロードするには、応答メッセージ内のダウンロードアイコンをクリックしてください。
コードを表示: [ コードの表示 ] をクリックして、生成されたクエリを表示します。これは、信頼性の低い応答のトラブルシューティングに役立ちます。クエリの編集と保存を参照してください。
のケバブメニュー： 以下の操作にアクセスしてください：
- CSVをコピー ：応答のCSVファイルをクリップボードにコピーします。
- 指示として追加します。 類似の質問への回答方法をGenieに教えるのに役立つ可能性のあるインタラクションについては、 指示として追加 をクリックします。これにより、サンプルSQLクエリを保存するためのUIが開き、質問と生成されたSQLが入力されます。例をそのままにしておくことも、編集して保存して変更を加えることもできます。SQL クエリと関数の例の追加を参照してください。
- ベンチマークとして追加 ：質問をベンチマーク質問として追加します。ベンチマークを参照してください。
- データの更新 ：以前に生成したクエリを実行してデータを更新します。
- 回答を再生成する ：質問を再度送信し、Genieに回答を再生成させます。

クエリを編集して保存する

GenieのSQLクエリは、正確性を確認し、必要に応じて編集することができます。Genie Spaceの開発者は通常、ドメインとデータに精通しているため、Genieが誤った回答を生成しているかどうかを認識できます。多くの場合、生成されたSQLクエリを少し手動で調整するだけで、エラーは修正できます。 「生成されたコードを表示」を クリックすると、クエリを検査し、応答に対して生成されたSQLを表示できます。

Genieスペースに対するCAN EDIT以上の権限を持っている場合は、修正するために生成されたSQLステートメントを編集できます。修正を行ったら、クエリを実行します。その後、将来Genieに答え方を教えるための指示として保存できます。編集したクエリを保存するには、 命令として追加 をクリックします。

Genie Code を使用して応答をデバッグします。

Genie が正しくない回答を返した場合は、Genie Code を使用して問題を診断し、スペースのコンテキストを改善してください:

レスポンスからGenie Codeを開きます。
問題と望ましい動作を説明してください。
Genie Code が提案するコンテキストの変更を確認し、保持したいものを承認してください。

プロンプト

Genie Codeにこれを行うように依頼してください:

The Genie Space is using calendar quarters instead of our fiscal calendar. Update its context to use our fiscal quarters: Q1 is February through April, Q2 is May through July, Q3 is August through October, and Q4 is November through January.

Genie Code を使用して、会話から意味的コンテキストを保存することもできます。ユーザーが新しい用語を導入したり、Genie の動作を修正したりした後で、Genie Code に学習した内容を記録するように依頼してください。各提案を確認し、スペースに追加するコンテキストを承認してください。

空間を監視する

Genie Spaceは、データチームとビジネスユーザー間の長期的なコラボレーションツールと考えることができます。これは、一度限りの導入ではなく、時間をかけて知識を蓄積していくものです。ユーザーから新たな質問が寄せられるにつれて、その範囲を絞り込み、網羅性と精度を向上させることができます。

「モニター」 タブを使用して、個々の質問と回答を確認したり、ユーザーからのフィードバックを表示したり、レビュー対象としてフラグが立てられた回答を特定したりできます。

時間、評価、ユーザー、ステータスでフィルターできる質問と回答のリストが表示されている「Monitor」タブ。

モニタータブには、そのスペースで投稿されたすべての質問と回答が表示されます。質問は、時間、評価、ユーザー、またはステータスで絞り込むことができます。スペースを囲むことで、 CAN MANAGE権限を持つユーザーは、ビジネスユーザーから提起されたクエリとGenie Space がどのように応答したかを事前に理解できます。

Genieが苦手とする質問を特定することで、Genie Spaceに具体的な指示を追加して、Genieの応答を改善することができます。質問をクリックすると、質問と回答のテキストが開き、チャットのスレッド全体が表示されます。

利用状況と傾向を確認する

週ごとのメッセージ量、アクティブユーザー、および賛否のフィードバックを確認するには、「Monitor」タブの「Weekly digest」セクションを使用してください。主要な使用状況の傾向と一般的な問題を特定するには、**スペース使用状況の分析**をクリックしてください。これによりGenie Codeが起動され、過去7日間のユーザーメッセージ、フィードバック、および問題をレビューし、一般的なトピック、繰り返される問題、および提案されたコンテキスト改善についてレポートします。回答には、スペース内の関連する会話にリンクしている引用が含まれています。引用をクリックして、Genie Codeスレッドで直接会話を開いてください。

モニタリングタブの「週次ダイジェスト」セクションには、週ごとのメッセージ、ユーザー、フィードバックが表示されます。

会話の質を確認する

備考

ベータ版

この機能はベータ版です。 これを使用するには、ワークスペース管理者は**プレビュー**ページから**Genie チャット共有**を有効にする必要があります。Databricks のプレビューを管理するを参照してください。

**Genieチャット共有**を使用すると、スペース管理者はビジネスユーザーがGenieスペースと行った会話全体を確認できます。会話が**スペース管理者によるレビュー可能**に設定されている場合、CAN MANAGE権限を持つユーザーは、モニタリングタブから会話を開いて、やり取り全体を確認できます。これにより、Genieの応答品質を評価し、ユーザーからのフィードバックに対応し、追加の指示やサンプルクエリによって精度が向上する領域を特定できます。**プライベート**に設定された会話の場合、スペース管理者はモニタリングタブでユーザープロンプトを確認できますが、会話全体や結果を表示することはできません。情報については、「会話を共有する」を参照してください。

注記

ベータ版が有効になる前に作成された会話は 非公開の ままです。有効化後に作成された会話は、デフォルトで スペース管理者によるレビュー対象 となります。

会話を削除

Genie SpaceでCAN MANAGE権限を持つユーザーは、モニタリングページからそのスペース内の任意の会話を完全に削除できます。すべてのユーザーの会話とメッセージを削除します。

Genieスペースを開いて、**モニター**タブをクリックします。
会話をクリックすると、会話ドロワーが開きます。
「会話を削除」をクリックしてください。
確認ダイアログで、削除をクリックして会話を完全に削除するか、 キャンセル をクリックして削除せずにダイアログを閉じます。

ベンチマーク

ベンチマークを使用すると、Genieの全体的な応答精度を評価するために実行できる一連のテスト問題を作成できます。ユーザーからよく寄せられる質問を網羅した、適切に設計された一連のベンチマークは、Genie Spaceを改良していく過程で、その精度を評価するのに役立ちます。各Genie Spaceには、最大500問のベンチマーク問題が保存できます。

ベンチマークの質問を新しい会話として実行します。それらは、スレッド形式のGenie会話と同じ文脈を持ちません。各質問は、指定されたスペースで定義された指示（提供されているSQLの例やSQL関数を含む）を使用して、新しいクエリとして処理されます。

ベンチマーク質問には、2つのモードがあります。

チャットモード ：デフォルトモードです。Genie は、提供された SQL 回答と、Genie が生成する SQL の結果を比較することで、精度を評価します。
エージェントモード：Genieのエージェントモードと同じ多段階推論を用いて、ベンチマークの質問を実行します。LLM judge が回答を評価します。グレーディングをガイドするためのオプションの評価ノートを提供できます。

9つの質問に対する正答率を報告したベンチマーク例。

ベンチマーク質問を追加する

ベンチマークとなる質問は、ユーザーがよく尋ねる質問をさまざまな言い回しで表現したものを反映させるべきです。これらを使って、質問の言い回しや質問形式の違いに対するGenieの反応を確認できます。

ベンチマーク問題を作成する際、オプションで、結果セットが正解となるSQLクエリを含めることができます。ベンチマーク実行時には、SQLクエリの結果セットとGenieによって生成された結果セットを比較することで、精度が評価されます。Unity Catalog SQL関数をベンチマークの標準的な回答として使用することもできます。

ベンチマーク問題を追加するには：

Genie Spaceの上部付近にある 「ベンチマーク」 をクリックします。
「ベンチマークを追加」 をクリックします。
[質問] フィールドに、テストするベンチマークの質問を入力します。
モードを選択してください:「チャット」または「エージェント」
- チャットモード：Genie は、ユーザーが提供する SQL の回答と Genie の結果を比較することによって、精度を評価します。
- エージェントモード ：Genieは、質問に答えるために多段階の推論を用いています。LLM judge が回答を評価します。
（チャットモードのみ）質問に回答するSQLクエリを提供してください。 SQL回答 ボックスに入力することで、UnityカタログのSQL関数を含む独自のクエリを作成できます。別の方法として、「 SQL を生成 」をクリックして、Genie に SQL クエリを作成してもらいます。入力した質問に正確に答えるSQLステートメントを使用してください。

注記

このステップがオススメです。この例のSQL文を含む問題のみが、自動的に正誤判定の対象となります。 SQLによる回答 が含まれていない質問は、採点のために手動で確認する必要があります。 「SQL生成」 ボタンを使用する場合は、生成されたステートメントが質問に正確に答えていることを確認してください。

（エージェントモードのみ、任意） 評価メモ フィールドに、正しい回答または期待されるコンテンツに関するガイダンスを入力します。Genieは評価ノートをLLMジャッジに渡します。メモは、エージェントモードで生成されるテキストレポート内の期待されるコンテンツを参照できます。
（チャットモードのみ、オプション） [実行] をクリックしてクエリーを実行し、結果を表示します。
編集が完了したら、 「ベンチマークを追加」 をクリックしてください。
保存後に質問を更新するには、鉛筆アイコンをクリックして、 「質問の更新」 ダイアログを開きます。

ベンチマークを使用して、質問の表現方法をテストする

Genie Spaceの精度を評価する際には、現実的なシナリオを反映したテストを構成することが重要です。ユーザーは同じ質問をさまざまな言い方で尋ねる可能性がある。Databricksは、精度を完全に評価するために、ベンチマークテストで同じ質問を複数の表現で追加し、同じSQL例を使用することを推奨しています。ほとんどのGenieスペースには、同じ質問を2～4通りの言い換えで含めるべきです。

ベンチマーク質問を実行する

Genie Space内で少なくともCAN EDIT権限を持つユーザーは、いつでもベンチマーク評価を実行できます。すべてのベンチマーク問題を実行することも、テストする問題の一部を選択することもできます。

Genieは各質問に対して、入力内容を解釈し、SQLを生成し、結果を返します。生成されたSQLと結果は、ベンチマーク問題で定義された SQL解答 と比較されます。

すべてのベンチマーク質問を実行するには:

Genie Spaceの上部付近にある 「ベンチマーク」 をクリックします。
[ ベンチマークの実行 ] をクリックして、テストの実行を開始します。

ベンチマーク質問の一部を実行するには：

Genie Spaceの上部付近にある 「ベンチマーク」 をクリックします。
テストしたい質問の横にあるチェックボックスを選択してください。
「選択した実行」 をクリックして、選択した質問に対するテスト実行を開始します。

また、以前のベンチマーク結果から質問の一部を選択し、それらの特定の質問を再実行して改善点をテストすることもできます。

ページから移動しても、ベンチマークは引き続き実行されます。実行が完了すると、 「評価」 タブで結果を確認できます。

実行が完了した後、Genie Codeを使用して実行全体の結果を確認し、コンテキストの改善を提案できます。Genie Codeでベンチマーク実行を分析するを参照してください。

チャットモードの評価

次の基準によって、Genie がチャットモードでの応答をどのように評価するかが決定されます：

条件	評価
Genieは、指定された SQL回答と完全に一致するSQLを生成します。	良い
Genieは、 SQL Answer によって生成された結果セットと完全に一致する結果セットを生成します。	良い
Genieは、 SQL Answer と同じデータを含む結果セットを生成しますが、ソート順が異なります。	良い
Genieは、 SQL Answer と同じ4桁の有効数字に丸められた数値を含む結果セットを生成します。	良い
Genieは、空の結果セットを生成するか、エラーを返すSQLを生成します。	悪い
Genieは、 SQL Answer によって生成された結果セットと比較して、追加の列を含む結果セットを生成します。	悪い
Genieは、 SQL Answer によって生成される単一セル結果とは異なる単一セル結果を生成します。	悪い

手動レビューが必要 : Genie が正当性を評価できない場合、または Genie が生成したクエリ結果が、提供された SQL Answer の結果と完全に一致しない場合、応答にはこのラベルが付けられます。 SQLによる回答 が含まれていないベンチマーク問題はすべて手動で確認する必要があります。

エージェントモードの評価

LLMジャッジは、SQL比較を使用するのではなく、エージェントモードのレスポンスを評価します。**評価ノート**を指定した場合、LLM審査は、Agentモードが生成するテキストレポートに期待されるコンテンツを含め、応答を評価する際のガイダンスとしてそれを使用します。ジャッジは、評価基準を満たす応答を**良好**と評価します。

ベンチマーク評価にアクセスする

すべてのベンチマーク評価にアクセスして、Genieスペースの精度を経時的に追跡できます。スペースの ベンチマーク を開くと、評価ランのタイムスタンプ付きリストが [評価] タブに表示されます。評価ランが見つからない場合は、ベンチマークの質問の追加またはベンチマークの質問の実行を参照してください。

評価画面については、以下の本文で説明します。

「評価」 タブには、以下のカテゴリで報告された評価の概要とパフォーマンスが表示されます。

評価名 ：評価実行が行われた日時を示すタイムスタンプ。タイムスタンプをクリックすると、その評価の詳細が表示されます。 実行ステータス : 評価が完了したか、停止するか、失敗したかを示します。評価実行に、事前に定義されたSQL回答がないベンチマーク問題が含まれている場合、この欄でレビュー対象としてマークされます。 正確性 ：すべてのベンチマーク問題における正確性を数値で評価したもの。手動レビューが必要な評価実行の場合、精度指標はそれらの質問がレビューされた後にのみ表示されます。 作成者 ：評価を実行したユーザーの名前を示します。

個々の評価を確認する

個々の評価を確認することで、各回答の詳細を把握できます。どの質問についても評価を編集でき、手動レビューが必要な項目を更新できます。

個々の評価を確認するには：

Genie Spaceの上部付近にある 「Benchmark」 をクリックします。
[評価名] 列で任意の評価のタイムスタンプをクリックすると、そのテスト実行の詳細ビューが開きます。
画面左側の問題一覧を使用して、各問題の詳細を確認してください。
モデルの出力 応答と正解応答をレビューし、比較してください。

不正解と判定された結果については、なぜその結果が 「不良」 と判定されたのかを説明する説明が表示されます。これは、生成された出力と期待される正解値との間の具体的な違いを理解するのに役立ちます。

注記

これらの回答結果は、評価の詳細に1週間分表示されます。1週間後には、その効果はもはや見られなくなる。生成されたSQL文とサンプルSQL文はそのまま残ります。

「正解データを更新」 をクリックすると、回答がこの質問の新しい 正解データ として保存されます。これは、正解データが存在しない場合、または回答が既存の正解データよりも優れている、あるいはより正確な場合に役立ちます。
クリックラベル上で評価を編集します。

この評価の正確なスコアを得るために、各結果を 「良い」 または 「悪い」 でマークしてください。

Genie Code を使用してベンチマークの実行を分析します。

ベンチマークの実行が完了した後、個々の質問を検査するのではなく、Genie Codeを使用して実行全体の結果を確認してください。評価からGenie Codeを起動し、実行の分析を依頼します。Genie Codeは、期待される結果、スペースが生成したもの、および現在のスペースコンテキストをレビューしてギャップを見つけ、その後、レビューして保存できる命令とコンテキストの改善を提案します。

Genie Spaceをテストする​

レビューへの回答​

回答フィードバック​

その他の対応措置​

クエリを編集して保存する​

Genie Code を使用して応答をデバッグします。​

空間を監視する​

利用状況と傾向を確認する​

会話の質を確認する​

会話を削除​

ベンチマーク​

ベンチマーク質問を追加する​

ベンチマークを使用して、質問の表現方法をテストする​

ベンチマーク質問を実行する​

チャットモードの評価​

エージェントモードの評価​

ベンチマーク評価にアクセスする​

個々の評価を確認する​

Genie Code を使用してベンチマークの実行を分析します。​