メインコンテンツまでスキップ

UIでパイプラインを監視する

このセクションでは、 Databricksユーザー インターフェイスでのLakeflow Spark宣言型パイプラインの組み込みモニタリングおよび可観測性機能の使用について説明します。 これらの機能は次のようなタスクをサポートします:

パイプライン イベントの電子メール通知を追加する

次の状況が発生したときに通知を受信する 1 つ以上の電子メール アドレスを設定できます。

  • パイプラインの更新が正常に完了しました。
  • パイプラインの更新は、再試行可能なエラーまたは再試行不可能なエラーのいずれかで失敗します。すべてのパイプラインの失敗に関する通知を受信するには、このオプションを選択します。
  • パイプラインの更新は再試行不可能な (致命的な) エラーで失敗します。再試行できないエラーが発生した場合にのみ通知を受信するには、このオプションを選択します。
  • 単一のデータ フローが失敗します。

電子メール通知を構成するには、パイプラインの設定を編集します。 通知を参照してください。

注記

Pythonイベント フックを使用して、通知やカスタム処理などのイベントに対するカスタム応答を作成します。

UI でパイプラインを表示する

からパイプラインを見つけます。ワークフロー アイコン。ワークスペースのサイドバーの 「ジョブとパイプライン」 オプション。 これにより、 [ジョブとパイプライン] ページが開き、アクセスできる各ジョブとパイプラインに関する情報を表示できます。 パイプラインの名前をクリックすると、パイプラインモニタリングページが開きます。 ジョブまたはパイプラインを編集するには、ケバブメニューアイコン。メニューから 編集を 選択します。

注記

ジョブとパイプラインの種類ごとにエディターが異なります。 編集 オプションでは、選択したオブジェクトに適したエディターが開きます。

ジョブとパイプラインリストの使用

アクセス権のあるパイプラインのリストを表示するには、サイドバーのワークフロー アイコン。 ジョブとパイプライン をクリックします。 ジョブとパイプライン タブには、作成者、トリガー (存在する場合)、過去 5 回の実行の結果など、使用可能なすべてのジョブとパイプラインに関する情報が一覧表示されます。

パイプラインまたはジョブの名前をクリックすると、そのパイプラインまたはジョブのモニタリング ページに移動します。 パイプラインまたはジョブを編集するには、ケバブメニューアイコン。を選択し、 編集 を選択します。

リストに表示される列を変更するには、列設定アイコン列を選択または選択解除します。たとえば、 Pipeline Type列として追加するには、その列を選択して表示します。

次のスクリーンショットに示すように、 ジョブとパイプラインの リストでジョブをフィルタリングできます。

コールアウト付きのパイプライン リスト ビュー。

  1. テキスト検索 : 名前 フィールドと ID フィールドでキーワード検索がサポートされています。キーと値を使用して作成されたタグを検索するには、キー、値、またはキーと値の両方で検索できます。たとえば、キーが department で値が financeのタグの場合、 department または finance を検索して一致するジョブを見つけることができます。キーと値で検索するには、キーと値をコロンで区切って入力します(例: department:finance)。
  2. タイプ : ジョブパイプライン 、または すべて でフィルター処理します。 パイプライン を選択した場合は、ETL や取り込みパイプラインなどの パイプラインタイプ でフィルター処理することもできます。
  3. 所有者 : 自分が所有するジョブのみを表示します。
  4. お気に入り : お気に入りとしてマークしたジョブを表示します。
  5. タグ :タグを使用します。 タグで検索するには、タグのドロップダウン メニューを使用して、最大 5 つのタグを同時にフィルタリングするか、キーワード検索を直接使用することができます。
  6. 実行者: 最大 2 つの run as 値でフィルター処理します。

ジョブまたはパイプラインを開始するには、再生アイコン再生ボタン。ジョブまたはパイプラインを停止するには、停止アイコン停止ボタン。他のアクションにアクセスするには、ケバブメニューをクリックしますケバブメニューアイコン。。たとえば、そのメニューからジョブまたはパイプラインを編集または削除したり、パイプラインの設定にアクセスしたりできます。

パイプラインの詳細はモニタリングページでご覧いただけます

注記

Unified 実行リストの プレビューにより、パイプライン実行がジョブ実行リストに追加されます。 プレビューを有効にした場合の変更点の詳細と、有効にする方法については、 「Unified 実行リスト プレビューにはどのような変更がありますか?」を参照してください。

「ジョブとパイプライン」 ページでパイプラインの名前をクリックすると、そのパイプラインのモニタリング ページが表示されます。 ここからパイプラインの実行を開始し、以前の実行の詳細を表示できます。

パイプライングラフ(有向非巡回グラフ(DAG)とも呼ばれる)は、パイプラインの更新が正常に開始されるとすぐに表示されます。矢印は、パイプライン内のデータセット間の依存関係を表します。もちろん、パイプライン監視ページにはテーブルの最新の更新が表示されますが、ドロップダウン メニューから古い更新を選択することもできます。

右側のパネルの上部には、パイプライン ID、コンピュート コスト、製品エディション、チャンネルなどのパイプラインの詳細が表示されます。 更新の詳細は、パイプラインの詳細の下に表示されます。パイプラインのソースコードにアクセスするには、ページ上部の 「パイプラインを編集」を クリックしてください。特定のテーブルのコードに移動するには、パイプライングラフでテーブルにカーソルを合わせ、クリックします。ファイル コード アイコン。 コードに移動します

データセットを表形式で表示するには、 「リスト」 タブをクリックしてください。 リスト ビューでは、パイプライン内のすべてのデータセットをテーブルの行として表示できます。これは、パイプライングラフが大きすぎて グラフ ビューで視覚化できない場合に便利です。データセット名、タイプ、ステータスなどの複数のフィルターを使用して、テーブルに表示されるデータセットを制御できます。 パイプライングラフに戻るには、 [グラフ] をクリックします。

実行 ユーザー は パイプライン 所有者であり、 パイプライン 更新 実行 このユーザーの権限で実行。run asユーザーを変更するには、 アクセス許可 をクリックし、パイプライン所有者を変更します。

注記

更新実行動作 : スケジュール、パイプラインAPI 、または継続的なパイプラインによってトリガーされる更新では、自動再試行および再起動動作が使用されます。 モニタリング UI またはパイプライン エディターからトリガーされる更新では、高速起動のデバッグ重視の動作が使用されます。 特定の実行動作を上書きするには、ドロップダウンメニューの 「異なる設定で今すぐ実行」 オプションを使用します。 詳細については、 「実行動作の更新」を参照してください。

イベントログ :パイプラインの更新でエラーが発生した場合、エラーは下部のパネルに表示され、 「ログを表示」 ボタンをクリックすると、その実行のイベントログにアクセスできます。イベントログは、選択することでも利用できます。リーダー モード アイコン。右側のパネルにある実行詳細から イベントログを表示してください 。LakeFlow Pipelines Editorでアップデートを実行する際は、エディタ下部の 「問題」 パネルに移動し、エラーの横にある 「ログを表示」 または 「ログで開く」 ボタンをクリックしてください。 詳細については、 LakeFlow Pipelines Editor」「イベント ログのパイプライン設定」を参照してください。

統合実行リストのプレビューにはどのような変更がありますか?

Unified 実行リストの プレビューを有効にしている場合は、 [ジョブとパイプライン] ページでパイプライン実行の更新を確認できます。

備考

プレビュー

統合実行リストはパブリック プレビュー段階です。ワークスペースはデフォルトでプレビューにオプトインされます。

Unified 実行リスト を無効にするには、ワークスペース管理者がプレビューをオプトアウトする必要があります。 プレビューの有効化または無効化の詳細については、 「アカウント レベルのプレビューの管理」をご覧ください。

統合された実行リストにアクセスするには、チェックリストアイコン。ワークスペースのサイドバーから実行、または をクリックワークフロー アイコン。 [ジョブとパイプライン] を選択し、 [実行] タブを選択します。

タブには、過去 60 日間の最近の実行のリストが表示されます。次の場合には、過去 48 時間の実行の成功と失敗を示すグラフが最初に表示されます。

  • ジョブ または パイプライン のみにフィルターされます。
  • あなたは管理者です、または実行のみにフィルターします Run as: Me
  • 実行がグラフに表示されるまでには最大 1 時間かかる場合があります。

リストとグラフは次の基準でフィルタリングできます。

  • ジョブまたはパイプラインの 名前
  • すべてジョブ 、または パイプライン
  • パイプラインの種類 (ETL、取り込み、MV/ST、またはデータベース テーブル同期)。
  • 実行 ユーザー。
  • 実行の 開始時刻 (過去 48 時間以内)。
  • 実行ステータス
  • 失敗した実行の エラー コード

上記のほかに、リストには次の列を表示できます。

  • 終了時刻
  • ランID
  • 実行が手動で 開始されたか、スケジュールによって開始された か。
  • 実行 時間
  • 実行予定

実行リストに表示される列を変更するには、列アイコン。列を選択または選択解除します。

パイプライン実行の 開始時刻終了時刻 、または 名前 をクリックすると、パイプラインのモニタリング ページに移動します。

パイプラインがアクティブに実行されているときは、停止アイコン。停止ボタン。いつでもクリックしてケバブメニューアイコン。実行の行のメニュー ボタンをクリックし、 [パイプラインの編集] を選択して、エディターでパイプラインを表示します。

データセットの詳細を表示するにはどうすればいいですか?

パイプライングラフまたはデータセットリスト内のデータセットをクリックすると、下部のパネルにそのデータセットに関する情報が表示されます。右側のパネルには、パイプラインと更新の詳細が引き続き表示されます。

  • スキーマ : 下部パネルの [テーブル] タブでテーブルを選択し、 [列] を選択します。
  • データ品質メトリクス : テーブルを選択すると、下部パネルに表示されます。
  • ソースコード : 特定のテーブルのコードに移動するには、パイプライングラフでテーブルにカーソルを合わせ、ファイル コード アイコン。 コードボタンに移動してください
  • クエリ履歴 :下部のパネルで 「パフォーマンス」 を選択してください。
  • テーブルコメント :テーブルコメントはパイプラインの詳細ページからは利用できません。表のコメントを表示するには、カタログエクスプローラーで表を開いてください。テーブルに直接移動するには、パイプライングラフでテーブルにカーソルを合わせ、クリックします。ケバブメニューアイコン。次にクリックしますデータアイコン。 カタログで見る 。下部パネルのテーブルリストからカタログエクスプローラにアクセスするには、データアイコン。アイコン。

更新履歴を表示

パイプラインの更新の履歴とステータスを表示するには、上部のバーにある更新履歴ドロップダウン メニューをクリックします。

ドロップダウン メニューで更新を選択すると、更新のグラフ、詳細、イベントが表示されます。最新の更新に戻るには、 「最新の更新を表示」を クリックします。

ストリーミングメトリクスを表示する

備考

プレビュー

パイプラインのストリーミングの可観測性はパブリック プレビュー段階です。

パイプライン内のストリーミング フローごとに、 Apache Kafka 、 Amazon Kinesis 、 Auto Loader 、 Deltaテーブルなど、 Spark構造化ストリーミングによってサポートされているデータ ソースからストリーミング メトリクスを表示できます。 メトリクスはパイプライン UI の右側のペインにグラフとして表示され、バックログ秒数、バックログ バイト数、バックログ レコード、バックログ ファイルが含まれます。 グラフには 1 分ごとに集計された最大値が表示され、グラフの上にマウス カーソルを合わせるとツールヒントに最大値が表示されます。データは現在の時刻から過去 48 時間までに制限されます。

ストリーミングメトリクスが利用可能なパイプラインのテーブルには、自民党チャートアイコン UI グラフ ビューでパイプライングラフを表示する際に表示されるアイコン。ストリーミング メトリクスを表示するには、自民党チャートアイコン右側のペインの [ フロー ] タブにストリーミング メトリクス チャートを表示します。 また、 「リスト」 をクリックしてから「ストリーミングメトリクス を含む」をクリックすると、ストリーミングメトリクス を含むテーブルのみを表示するようにフィルターを適用することもできます。

各ストリーミング ソースは、特定のメトリクスのみをサポートします。 ストリーミング ソースでサポートされていないメトリクスは、UI で表示できません。 次の表は、サポートされているストリーミング ソースで利用可能なメトリクスを示しています。

source

バックログバイト

バックログ記録

バックログ秒数

バックログファイル

Kafka

Kinesis

Delta

Auto Loader

Google Pub/Sub