メインコンテンツまでスキップ

データサイエンスに Genie Code を使用する

このページではデータサイエンス用のGenie Code を紹介します。 Databricks ノートブックと SQL エディター専用に設計されたエージェント モードの Genie Code では、データの探索、コードの生成と実行、エラーの修正をすべて 1 つのプロンプトから実行できます。

データサイエンスのための Genie Code とは何ですか?

Genie Code のエージェント モードは、 DatabricksノートブックとSQLエディターでマルチステップのデータサイエンス ワークフロー全体を自動化できます。

ノートブックでデータサイエンスエージェントを使用します。

Genie Code のチャット モードと比較して、エージェント モードにはソリューションの計画、関連アセットの取得、コードの実行、セル出力を使用した結果の改善、エラーの自動修正などの機能が拡張されています。

Genie Code は、ノートブックで実行するコードや SQL エディターで実行するクエリを計画および生成できます。Genie Code はお客様と協力して計画を承認し、次のステップを確認してから続行します。承認があれば、Genie Code はツールを使用して、テーブルの検索、ノートブックの編集、セルの実行、セル出力の読み取りなどのタスクを実行できます。

Genie Code のアクセスとアクションは、ユーザーの権限によって制御されます。アクセス権のあるデータにのみアクセスでき、権限のある操作のみを実行できます。

必要条件

Genie Code のエージェント データサイエンス機能を使用するには、ワークスペースに次のものが必要です。

データサイエンスに Genie Code を使用する

データサイエンス タスクにGenie Codeを使用するには:

  1. Databricks ノートブックまたは SQL エディターから、Genie Code サイド パネルを開きます。

  2. Genie Code のプロンプトを入力します。たとえば、「samples.bakehouse から@sales_transactionsを分析して、最も売れている製品を特定します。」

ヒント

@table_name を使用して特定のテーブルを参照します。エージェントは、そのテーブルと関連するメタデータを使用して、応答をキュレーションします。エージェントはユーザーの Unity Catalog アクセス許可を尊重するため、アクセス権のあるデータにのみアクセスできます。

  1. Genie Code が応答を生成すると、入力の取得が停止することがよくあります。

    • より複雑なタスクの場合、Genie Code は段階的な計画を作成し、明確にするための質問をすることがあります。明確な質問に答えて、計画を洗練させましょう。

    • Genie Code がコードを実行する必要がある場合、続行する前に承認を求められます。要求を 許可 または 拒否します 。また、 このスレッドで許可する (Genie Code の会話スレッドを参照)か、 常に許可するを 選択することもできます。

重要

Genie Code はノートブック内でコードを生成し、実行できます。危険な行為を防ぐためのガードレールはありますが、それでもリスクは残ります。信頼できるコードとデータにのみ使用してください

  • Genie Code が作業を続行すると、 [続行] または [拒否] を選択するように求められる場合があります。 Genie Code の既存の作業を確認し、次のステップに進む場合は [続行] を選択し、別の操作を試す場合は [拒否] を 選択します。

  • Genie Codeの動作中に停止するには、赤い停止アイコン。

Genie Code は、新しいノートブック セル (またはクエリ) を作成し、テキストとコードを生成し、ノートブック セルを実行し、セル出力にアクセスして結果を解釈できます。

注記

Genie Code が作業を続行して次のステップに進むためには、現在作業中のタブに留まる必要があります。

ヒント

ほとんどの応答で使用するために、エージェント モードで Genie Code の指示を追加できます。たとえば、使用するコード規則や推奨ライブラリがある場合は、これらのガイドラインを Genie Code の説明に追加できます。また、ドメイン固有のタスクに特化した機能を使用して Genie Code を拡張するスキルを作成することもできます。詳細とその他のヒントについては、 「Genie Code の応答を改善するためのヒント」を参照してください。

ユースケース

エージェント モードでは、Genie Code はデータの検索、出力の解釈、セル アクションの実行などの拡張機能を備えています。

Genie Code は、探索的データ分析、予測、機械学習などの複雑なデータサイエンス タスクに役立ちます。 Genie Code を使用して、新しいデータ分析ノートブックを最初から作成することもできます。より良い結果を得るには、テーブル、パイプライン、ノートブック、クエリ、およびファイルを@<resource_name>で参照して、エージェントにコンテキストを提供します。クリックすることもできます アイコンにて。 提供するコンテキストを手動で選択するには、コンテキストを追加します。各参照アセットはチャット コンテキスト内に保持されます。

開始するには、次のプロンプトを試してください。

  • データディスカバリー :

    • 「どのテーブルにベークハウスのトランザクションデータが含まれていますか?」
    • 「カリフォルニア州ロサンゼルス市の日付 2025-01-01 の天気データを見たいです。」
    • 「ニューヨーク市のタクシーデータを含むテーブルを見つけて、最初の 10 行を表示します。」
  • 探索的データ分析 :

    • 「列 A の JSON 文字列を解析するのを手伝ってください。」
    • 「このテーブルからデータの視覚化を作成します。」
    • 「この棒グラフを解釈してください。」
    • @sales_transactions データセットについて説明してください。列の統計量を理解し、値の分布を視覚化するために、いくつかの EDA を実行します。データサイエンティストのように考えてください。」
    • @workload_insights を分析して、先週の Databricks SQL ワークロードの収益上位 5 社の顧客を見つけます。次に、過去 6 週間に Databricks SQL に対して毎週の顧客のユーザー数をプロットします。」
  • 予測 :

    • @incidents データセットを使用して、今後 2 週間の毎日のインシデント数の予測を作成します。完了したら、結果を表示するためのデータテーブルとインタラクティブなグラフをください。」
    • @website_traffic データセットを使用して、来月の毎日の訪問者数を予測します。季節のパターンを強調してください。」
    • 「信頼区間を含む、 @inventory データセットから今後6か月間の製品需要の予測を生成します。」
  • 機械学習 :

    • 「データ準備と特徴エンジニアリングを実行して、このデータセットをモデルトレーニング用に準備します。」
    • 「チャーンを予測するために、 @customer_dataデータセットで分類モデルをトレーニングします。 モデルを精度と AUC メトリクスで評価します。」
    • 「予測誤差を改善するには、 @housing_pricesデータセットを使用して回帰モデルでハイパーチューニングを実行します。」
    • @sales_leadsデータセットにクラスタリング モデルを構築して、顧客セグメントを特定し、各クラスタの特徴の概要を提供します。」
  • ノートブックの整理:

    • 「このノートブックの結果を要約する新しいセルを作成します。」
    • 「このノートブックに適切な名前を付けてください。」

探索的データ分析

Genie Code を使用して、データセットに対して探索的データ分析を実行します。たとえば、 samples.bakehouse.sales_transactionsデータセットを分析する新しいノートブックの作成を依頼してみます。

空のノートブックタブで、Genie Code パネルを開き、次のプロンプトを入力します。「データセット@sales_transactionsを説明します。列統計を理解し、値の分布を視覚化するために、探索的データ分析(EDA)を行いたい。

データサイエンス エージェント は、 EDAのノートブックを作成します。

エージェントは、プロンプトに答えるための計画を作成し、明確な質問をする場合があります。承認を得て、データを調べるためのコードを含む新しいノートブック セルと、そのプロセスと結果を説明するテキストが生成されます。