メインコンテンツまでスキップ

データエンジニアリングエージェントを使用する

備考

プレビュー

この機能は パブリック プレビュー段階です。

このページではDatabricks Assistantに機能を追加するデータエンジニアリング エージェントを紹介します。 データエンジニアリング エージェントを使用するには、アシスタントで エージェント モードを選択します。

データエンジニアリング エージェントは、 LakeFlow Spark宣言型パイプライン (SDP) およびLakeFlow Pipelines Editor 用に特別に設計されており、データの探索、パイプライン コードの生成と実行、およびエラーの修正をすべて 1 つのプロンプトから行います。

データエンジニアリングエージェントとは何ですか?

データエンジニアリング エージェントは、 Databricks AssistantエージェントModeの強力な機能で、アシスタントを、SDP およびLakeFlow Pipelines Editor でマルチステップのデータエンジニアリング ワークフロー全体を自動化できる自律パートナーに変換します。

データエンジニアリング エージェントを使用します。

アシスタント チャット モードと比較して、エージェント モードには、ソリューションの計画、関連アセットの取得、コードの実行、パイプライン出力を使用した結果の改善、エラーの自動修正などの機能が拡張されています。

データエンジニアリング エージェントは、パイプライン全体を最初からエンドツーエンドで計画および生成したり、既存のパイプラインでの作業を加速したりできます。 エージェントはお客様と協力して計画を承認し、次のステップを確認してから続行します。ユーザーの承認があれば、データエンジニアリング エージェントはツールを使用して、テーブルの検索、 SQLまたはPythonソース ファイルの編集、パイプライン更新の実行、パイプライン データセットの読み取りなどのタスクを実行できます。

データエンジニアリング エージェントのアクセスとアクションは、ユーザーの権限によって管理されます。 アクセス権のあるデータにのみアクセスでき、権限のある操作のみを実行できます。

注記

アシスタントでエージェント モードをオンにすると、アシスタントは Databricks で現在使用している機能に基づいてその機能を調整します。たとえば、 LakeFlow Pipelines Editor では、アシスタントはパイプライン編集とデータエンジニアリングタスクに重点を置きます。 ノートブックと SQL エディターでは、アシスタントがデータの探索と分析をサポートします。詳細については、「データサイエンス エージェント」を参照してください。

要件

データエンジニアリング エージェントを使用するには、ワークスペースに次のものが必要です。

データエンジニアリングエージェントを使用する

データエンジニアリング エージェントを使用するには:

  1. LakeFlow Pipelinesエディターから、アシスタントサイドパネルをクリックして開きます。アバターアシスタントアイコン。ワークスペースの右上隅にある アシスタント

  2. 右下隅で、 [エージェント] を選択します。これにより、アシスタントのエージェント モードがオンになり、データエンジニアリング エージェントと対話できるようになります。

  3. エージェントのプロンプトを入力します。たとえば、「このパイプラインについて説明してください」など、パイプラインに関する質問をすることができます。また、「bronze_sales_data から読み取り、データをクリーンアップし、有用な品質期待値を追加する新しいファイルに silver_sales_data を作成する」など、新しいデータセットを追加するように要求することもできます。

注記

エージェントはユーザーのUnity Catalog権限を尊重するため、ユーザーがアクセスできるデータとパイプライン ソースにのみアクセスできます。

  1. エージェントが応答を生成すると、入力の取得が停止することがよくあります。

    • より複雑なタスクの場合、エージェントは段階的な計画を作成し、明確にするための質問をすることがあります。エージェントの明確な質問に答えて、計画を洗練させるのに役立ててください。

    • エージェントがコードを実行したりパイプラインを更新したりする必要がある場合、続行する前に承認を求められます。要求を 許可 または 拒否します 。また、 [このスレッドで許可] (アシスタント会話スレッドを参照) または [常に許可] を選択することもできます。

重要

データエンジニアリング エージェントは、パイプラインでコードを生成して実行できます。 危険な行為を防ぐためのガードレールはありますが、それでもリスクは残ります。信頼できるデータにのみ使用し、実行する前にコードを確認する必要があります。

  • エージェントが作業を続行すると、 続行 または 拒否 を選択するように求められる場合があります。エージェントの既存の作業を確認し、 続行 を選択してエージェントが次のステップに進むことを許可するか、 拒否 を選択して他のことを試すように指示します。

  • エージェントの動作中に停止するには、赤い停止アイコン。をクリックします。

エージェントは、新しいファイルを作成したり、テキスト、クエリ、コードを生成したり、ファイルまたはパイプラインを実行したり、出力データセットにアクセスして結果を解釈したりできます。

注記

データエンジニアリング エージェントが作業を継続して次のステップに進むには、エージェントが作業している現在のタブに留まる必要があります。

ヒント

ほとんどの応答でエージェントが使用する指示を追加できます。たとえば、使用したいコード規則や使用したいライブラリがある場合は、これらのガイドラインをエージェントの指示に追加できます。また、ドメイン固有のタスクに特化した機能を使用してエージェントを拡張するスキルを作成することもできます。詳細とその他のヒントについては、 「Databricks Assistant の応答をカスタマイズして改善する」を参照してください。

機能

データエンジニアリング エージェントは、ほとんどのパイプライン開発タスクに役立ちます。 主な機能は次のとおりです。

  • データ推理 : エージェントはワークスペース内のテーブルを検索して、タスクに必要なデータを見つけることができます。
  • パイプライン コードの編集 : エージェントは一度に複数のファイルを作成および編集できます。どのファイルが変更されているかを通知し、各ファイルのコード差分を表示するので、変更を個別に確認したり、最後にまとめて確認したりできます。
  • パイプラインの実行 : エージェントは、個別のファイル、パイプラインのドライ実行/実行、または完全な更新を行うことができます。 エージェントが処理を続行する場合、処理を続行する前に確認を求めます。
  • パイプラインの動作の理解と改善 : エージェントはデータセットとパイプラインの出力を検査して、パイプラインがエンドツーエンドで何を実行しているのか、そしてその理由を理解するのに役立ちます。たとえば、変換を要約したり、データが下流のテーブルにどのように流れるかを追跡したり、行数やスキーマの予期しない変更を強調表示したりできます。潜在的なデータ品質の問題が明らかになった場合、エージェントはその原因を推論し、パイプラインのどこでどのように対処するかを提案するのに役立ちます。

これらの機能は、次のような一般的なユースケースをサポートします。

  • 新しいパイプラインの作成 : データエンジニアリング エージェントは、データの取り込みから、データの標準化とクリーニング、データの変換と分析まで、新しいメダリオンアーキテクチャ パイプラインの作成のすべてのステップを支援します。
  • パイプラインの説明 : エージェントは既存のパイプラインを分析して説明し、迅速な立ち上げを支援します。
  • 問題の修正 : エラーが発生した場合、エージェントは問題が解決されるまで複数のファイルを反復処理して、問題の診断と修正を支援します。

開始するには、次のプロンプトを試してください。

  • 「my_catalog.my_schema のテーブル トランザクションとカスタマーを使用して、不正検出のためのメダリオンアーキテクチャ パイプラインを構築して実行します。」
  • 「このパイプラインのすべてのステップを説明してください。」
  • 「このパイプラインの障害を修正してください。」

次のステップ