AI/BI Genieスペースとは

この記事では、ビジネスチームが自然言語を使用してデータを操作できるようにするDatabricksの機能であるAI/BI Genieを紹介します。組織の用語とデータに合わせて調整された生成AI を使用し、ユーザーからのフィードバックを通じてパフォーマンスを監視および改善する機能を備えています。

概要

データアナリストなどのドメイン専門家は、データセット、サンプルクエリ、テキストガイドラインを使用して Genie spaces を構成し、ビジネス上の質問を分析クエリに Genie 変換するのに役立ちます。セットアップ後、ビジネスユーザーは質問をしたり、運用データを理解するための視覚化を生成したりできます。Genieの意味知識は、データが変更され、ユーザーが新たな質問を投げかけたときに、継続的に更新できます。Databricks AI機能の詳細については、「Databricks AI機能」を参照してください。

AI/BI Genieは、注釈付きのテーブルと列から関連する名前と説明を選択して、自然言語の質問を同等のSQLクエリに変換します。次に、生成されたクエリと結果テーブル (可能な場合) で応答します。Genieが回答を生成できない場合は、回答を提供する前に、フォローアップの質問をして明確にすることができます。

使用例

さまざまな非技術者層に対応するために、さまざまなGenieスペースを作成できます。次のシナリオでは、考えられる 2 つのユースケースについて説明します。

例 1: 営業案件の状態を視覚化する

営業マネージャーは、営業パイプラインのステージごとに、オープンおよびクローズ済みの商談の現在のステータスを取得したいと考えています。自然言語を使用してGenieスペースと対話し、視覚化を自動的に生成できます。

次のgifはこのインタラクションを示しています。

質問、回答、自動生成されたビジュアライゼーションを含むGif

例 2: 物流の追跡

物流会社は、さまざまな部門のビジネスユーザーが業務および財務の詳細を追跡できるように、Genieスペースを使用したいと考えています。彼らは、出荷施設の管理者が出荷を追跡するためのGenieスペースと、財務担当役員が財務状況を把握するための Genieスペースを設置しました。

Genieがレスポンスを生成する方法

Genieは、複合AIシステムを使用してビジネス上の質問を解釈し、回答を生成します。複合 AI システムは、単一の大規模言語モデルを使用するのではなく、複数の相互作用するコンポーネントを組み合わせて、 AI アプリケーションのタスクを処理します。複合AIシステムは、そのパフォーマンスと柔軟性から、AIアプリケーションの設計パターンとしてますます一般的になっています。詳細については、モデルから複合 AI システムへの移行を参照してください。

ユーザーが質問を送信すると、Genie はリクエストを解析し、関連するデータソースを特定し、プロンプトへの応答方法を決定します。提供する指示を Unity Catalog メタデータと組み合わせることで、Genie はビジネスロジックと技術ロジックの両方を推論できます。 Genieは、サンプルSQLクエリ、テーブルと列のメタデータ、チャット履歴をインテリジェントにフィルタリングして、リクエストに応答するために最も関連性の高い情報を選択します。

Genieは、次のコンポーネントを使用して応答を生成します。

テーブルメタデータ : テーブル名、説明、および定義されたプライマリキー (PK) と外部キー (FK) の関係が含まれます。 Genie は、このデータを使用して要求を解析し、自然言語プロンプトを SQL に変換します。
列の名前と説明 : Genie は、関連する列の名前と説明を含めるようにインテリジェントにフィルタリングします。
SQLクエリの例 :Genieは 、指示 から関連するSQLの例をインテリジェントに選択します。
SQL 関数 : スペースに追加されたすべての SQL 関数。
手順 : 一般的な手順 として提供されるプレーンテキストのメモは、コンテキストとして含まれています。
プロンプトと応答の履歴 : 現在のチャットからのプロンプトと応答は、コンテキストとして含まれます。必要に応じて、トークンの制限が設定されているため、チャットレコードの最も古い部分が除外されます。

注記

所有者やテーブルサイズなど、一部のテーブルの詳細はデフォルトでは含まれていません。この情報にアクセスするには、すべての Unity Catalog カタログで使用できる情報スキーマのビューを使用します。デフォルトビューには不要な詳細が含まれている可能性があるため、その上にカスタムビューを作成すると、必要な特定の情報に集中するのに役立ちます。情報スキーマで使用できる機能の詳細については、「情報スキーマ」を参照してください。

多くの場合、Genie はスペースの SQLウェアハウスで実行される SQL クエリを生成します。生成されたクエリは常に読み取り専用です。再試行は自動的に処理され、 SQLウェアハウスは同時実行性とスケールを処理します。結果セットは、応答の一部として表示されます。

どのデータを使用すべきですか?

Genieスペースは、マネージドテーブル、外部テーブル、フォーリンテーブル、views、メトリクス views、マテリアライズドビューなど、Unity Catalogに登録されたデータに基づいています。AI/BI Genie は、Unity Catalog オブジェクトにアタッチされたメタデータを使用して応答を生成します。適切に注釈が付けられたデータセットと、提供する特定の指示を組み合わせることで、エンドユーザーにポジティブなエクスペリエンスを提供するための鍵となります。

Databricksでは、次のことを推奨しています。

分析用にデータをキュレーションする ：ビューをレイヤー化して列数を減らし、ユースケース固有の情報を追加して回答の質を高めます。
Genieスペース内のテーブルと列の数を最小限に抑える : 特定のドメインの質問に答えるために必要なテーブルと列のみを含めます。不要なテーブルや列があると、Genie が混乱を招いたり、誤った回答を出したり、エラーメッセージが表示されたりする可能性があります。
主キー (PK) と外部キー (FK) の関係を定義する : Unity Catalog を使用して PK/FK の関係を定義すると、Genie がデータがどのように接続されているかを理解できます。

ファイルのアップロード

備考

プレビュー

この機能はパブリックプレビュー段階です。

ユーザーは、自分の小さなデータファイルをGenieスペースにアップロードすることもできます。ファイルのアップロードを有効にするには、Databricks アカウントチームにお問い合わせください。詳細については、ファイルのアップロードを参照してください。

信頼できる資産

信頼できるアセットは、結果の精度に対する追加の保証層をスペースユーザーに伝えます。パラメータ化されたサンプルクエリまたは SQL 関数の正確なテキストを使用して応答を生成すると、Genie は応答を信頼できるものとしてマーク します 。AI/BI Genie spacesでの信頼できるアセットの使用を参照してください。

Genieとチャット

Genieスペースでのほとんどのインタラクションは、チャットウィンドウまたはGenie API (パブリックプレビュー) を使用して行われます。GenieスペースUIでは、各ユーザーは会話のスレッドレコードにアクセスできます。各会話は、そのスレッドでの以前のやり取りからのコンテキストを保持しているため、Genieはフォローアップの質問を理解し、ユーザーが結果を絞り込んだり探索したりするのに役立ちます。

スペースへのアクセス権が CAN VIEW 以上のユーザーは、自分のチャット履歴を表示できます。少なくとも CAN EDIT の権限を持つユーザーは、スペースの モニタリング タブですべての質問と回答を確認できます。

回答を確認する

ほとんどの回答には、自然言語による説明と、関連する結果セットを示す表が含まれています。ソーステーブルは説明の下に表示され、結果の生成に使用された SQL クエリは応答の詳細で使用できます。ビジュアライゼーションによって明瞭さが向上する場合、Genieは1つを含めます。各回答の構造は、質問によって異なります。

スペースのユーザーと作成者は、質問に対する回答を確認できます。回答を評価してトラブルシューティングを行ったり、回答のレビューを依頼したりできます。スペースの編集者と作成者は、スペースの モニタリング タブを使用して、このフィードバックを確認できます。Genie

ベンチマークによる回答の評価

ベンチマークを使用すると、Genieスペースでの個々の回答のテストと評価をスケールアップできます。指示とは異なり、ベンチマークはGenieスペースを評価するためのものであり、情報を提供するものではありません。Genieは、Genieのコンテキストを改善するためにベンチマーク質問やサンプルSQLを使用しません。

ベンチマークを使用して、テスト問題のコレクションを実行し、その回答を使用して Genie の精度を測定できます。オプションで、予期される結果を返す SQL ステートメントを含めることができます。ベンチマークの質問が実行されると、Genieの応答がSQLステートメントによって提供される結果と比較され、精度がスコアリングされます。SQL の回答が提供されていない場合、質問はレビュー対象としてマークされます。

Genieスペースでのベンチマークの使用を参照してください。

プライバシーとセキュリティ

Q:Genieはどのモデルを使用していますか?

Genie は Databricks の AI を活用した機能です。AIモデル、検索、ランキング、パーソナライゼーションシステムの使用を組み合わせた複合AIシステムを使用して、組織のデータと使用パターンを理解します。詳細については、「 Databricks AI を活用した機能」を参照してください。

Q: モデルにはどのようなデータが送信されていますか?

Genieは、応答を生成するときに、プロンプト、関連するテーブルのメタデータと値、エラー、および入力コードまたはクエリを使用します。

応答を処理するために、Genieは以下を使用します。

ユーザーが送信した自然言語プロンプト
テーブルの名前と説明
列のタイトル、説明、サンプル値
一般的な指示
SQL クエリの例
SQL 関数

Q: Azure OpenAI は私のデータを保存しますか?

いいえ。Databricks を通じて Azure OpenAI モデルを使用する場合、Microsoft は、ネットワークログにも含めて、どのレベルの任意の期間についてもプロンプトや応答を保存しません。これには、通常、不正使用のモニタリングに使用されるデータが含まれます。 Databricks は Azure OpenAIの不正使用モニタリングと人間によるレビューをオプトアウトしているため、 Microsoft は Genieから送信されたデータを保持または検査しません。詳細については、 Microsoftのドキュメントを参照してください。

Q:Genieの回答はどこに保存されますか?

Genie の応答は、Databricks コントロールプレーンに格納されます。

Q: 行レベルのフィルター処理は Genieスペースでサポートされていますか?

はい、Unity Catalog で付与される特権は、特定のデータオブジェクトにアクセスできるユーザーを制御します。行フィルタまたは列マスクがデータ・オブジェクトに適用される場合、結果セットで返される値は制御されます。行フィルタと列マスクを使用した機密テーブル・データのフィルタを参照してください。

Q: トラフィックは Geos 経由でどのようにルーティングされますか?

Genieは、米国、EU、オーストラリア、およびインドで展開されています。
トラフィックのルーティングは、地域と、地域間処理が有効になっているかどうかによって異なります ( 指定されたサービスのワークスペース Geography 内でデータ処理を強制 するは無効 です)。
- EU : トラフィックは、地域間処理に関係なく、常に EU 経由でルーティングされます。
- 米国 : トラフィックは、地域間処理に関係なく、常に米国経由でルーティングされます。
- インドとオーストラリア:
  - 地域間処理 が無効になっている 場合: トラフィックはお客様の地域内にとどまることが保証されています。
  - クロスジオ処理 が有効になっている場合 : トラフィックは常に米国経由でルーティングされます。
- その他のすべての地域 :
  - クロスジオ処理 が無効になっている 場合:Genieは機能しません。
  - クロスジオ処理 が有効になっている場合 : トラフィックは米国を経由します。

概要​

使用例​

例 1: 営業案件の状態を視覚化する​

例 2: 物流の追跡​

Genieがレスポンスを生成する方法​

どのデータを使用すべきですか?​

ファイルのアップロード​

信頼できる資産​

Genieとチャット​

回答を確認する​

ベンチマークによる回答の評価​

プライバシーとセキュリティ​

Q:Genieはどのモデルを使用していますか?​

Q: モデルにはどのようなデータが送信されていますか?​

Q: Azure OpenAI は私のデータを保存しますか?​

Q:Genieの回答はどこに保存されますか?​

Q: 行レベルのフィルター処理は Genieスペースでサポートされていますか?​

Q: トラフィックは Geos 経由でどのようにルーティングされますか?​

概要

使用例