UIでパイプラインを監視する
Databricksユーザー インターフェイスでLakeflow Spark宣言型パイプラインを監視すると、更新の進捗状況を追跡し、パイプラインイベントのアラートを確認し、ストリーミングソースメトリクスを表示できます。これらの組み込み機能は、次のようなタスクをサポートします:
- パイプラインの更新の進行状況とステータスを観察します。パイプラインの詳細については、モニタリング ページを参照してください。
- パイプライン更新の成功や失敗などのパイプライン イベントに関するアラート。 パイプラインイベントのEメール通知の追加を参照してください。
- Apache KafkaやAuto Loaderのようなストリーミングソースのメトリクスの参照 (パブリックプレビュー)。ストリーミングメトリクスの表示を参照してください。
パイプライン イベントの電子メール通知を追加する
次の状況が発生したときに通知を受信する 1 つ以上の電子メール アドレスを設定できます。
- パイプラインの更新が正常に完了しました。
- パイプラインの更新は、再試行可能なエラーまたは再試行不可能なエラーのいずれかで失敗します。すべてのパイプラインの失敗に関する通知を受信するには、このオプションを選択します。
- パイプラインの更新は再試行不可能な (致命的な) エラーで失敗します。再試行できないエラーが発生した場合にのみ通知を受信するには、このオプションを選択します。
- 単一のデータ フローが失敗します。
電子メール通知を構成するには、パイプラインの設定を編集します。 通知を参照してください。
Pythonイベント フックを使用して、通知やカスタム処理などのイベントに対するカスタム応答を作成します。
UI でパイプラインを表示
からパイプラインを見つけます。ワークスペースのサイドバーの 「ジョブとパイプライン」 オプション。 これにより、 [ジョブとパイプライン] ページが開き、アクセスできる各ジョブとパイプラインに関する情報を表示できます。 パイプラインの名前をクリックすると、パイプラインモニタリングページが開きます。 ジョブまたはパイプラインを編集するには、
メニューから 編集を 選択します。
ジョブとパイプラインの種類によって、エディターが異なります。 編集 オプションは、選択したオブジェクトに応じた適切なエディターを開きます。
ジョブとパイプラインリストの使用
アクセス権のあるパイプラインのリストを表示するには、サイドバーの ジョブとパイプライン をクリックします。 ジョブとパイプライン タブには、作成者、トリガー (存在する場合)、過去 5 回の実行の結果など、使用可能なすべてのジョブとパイプラインに関する情報が一覧表示されます。
パイプラインまたはジョブの名前をクリックすると、そのパイプラインまたはジョブのモニタリング ページに移動します。 パイプラインまたはジョブを編集するには、を選択し、 編集 を選択します。
リストに表示される列を変更するには、列を選択または選択解除します。たとえば、
Pipeline Type列として追加するには、その列を選択して表示します。
次のスクリーンショットに示すように、 ジョブとパイプラインの リストでジョブをフィルタリングできます。

- テキスト検索 : 名前 フィールドと ID フィールドでキーワード検索がサポートされています。キーと値を使用して作成されたタグを検索するには、キー、値、またはキーと値の両方で検索できます。たとえば、キーが
departmentで値がfinanceのタグの場合、departmentまたはfinanceを検索して一致するジョブを見つけることができます。キーと値で検索するには、キーと値をコロンで区切って入力します(例:department:finance)。 - タイプ : ジョブ 、 パイプライン 、または すべて でフィルター処理します。 パイプライン を選択した場合は、ETL や取り込みパイプラインなどの パイプラインタイプ でフィルター処理することもできます。
- 所有者 : 自分が所有するジョブのみを表示します。
- お気に入り : お気に入りとしてマークしたジョブを表示します。
- タグ :タグを使用します。 タグで検索するには、タグのドロップダウン メニューを使用して、最大 5 つのタグを同時にフィルタリングするか、キーワード検索を直接使用することができます。
- 実行者: 最大 2 つの
run as値でフィルター処理します。
ジョブまたはパイプラインを開始するには、再生ボタン。ジョブまたはパイプラインを停止するには、
停止ボタン。他のアクションにアクセスするには、ケバブメニューをクリックします
。たとえば、そのメニューからジョブまたはパイプラインを編集または削除したり、パイプラインの設定にアクセスしたりできます。
パイプラインの詳細はモニタリングページでご覧いただけます
統合されたランリスト プレビューでは、ジョブランリストにパイプラインの実行が追加されます。そのプレビューを有効にした場合の変更点および有効化の方法については、統合実行リストのプレビューでの変更点を参照してください。
「ジョブとパイプライン」 ページでパイプラインの名前をクリックすると、そのパイプラインのモニタリング ページが表示されます。 ここからパイプラインの実行を開始し、以前の実行の詳細を表示できます。
パイプライングラフ(有向非巡回グラフ(DAG)とも呼ばれる)は、パイプラインの更新が正常に開始されるとすぐに表示されます。矢印は、パイプライン内のデータセット間の依存関係を表します。もちろん、パイプライン監視ページにはテーブルの最新の更新が表示されますが、ドロップダウン メニューから古い更新を選択することもできます。
右ペインの上部には、パイプラインID、コンピュート費用、製品エディション、チャンネルなどのパイプラインの詳細が表示されます。更新の詳細がパイプラインの詳細の下に表示されます。パイプラインソースコードにアクセスするには、ページ上部で「**パイプラインを編集**」をクリックします。特定のテーブルのコードに移動するには、パイプライングラフ内のテーブルにマウスを移動し、 **コードに移動** をクリックします。
データセットを表形式で表示するには、 「リスト」 タブをクリックしてください。 リスト ビューでは、パイプライン内のすべてのデータセットをテーブルの行として表示できます。これは、パイプライングラフが大きすぎて グラフ ビューで視覚化できない場合に便利です。データセット名、タイプ、ステータスなどの複数のフィルターを使用して、テーブルに表示されるデータセットを制御できます。 パイプライングラフに戻るには、 [グラフ] をクリックします。
実行 ユーザー は パイプライン 所有者であり、 パイプライン 更新 実行 このユーザーの権限で実行。run asユーザーを変更するには、 アクセス許可 をクリックし、パイプライン所有者を変更します。
更新実行動作 : スケジュール、パイプラインAPI 、または継続的なパイプラインによってトリガーされる更新では、自動再試行および再起動動作が使用されます。 モニタリング UI またはパイプライン エディターからトリガーされる更新では、高速起動のデバッグ重視の動作が使用されます。 特定の実行動作を上書きするには、ドロップダウンメニューの 「異なる設定で今すぐ実行」 オプションを使用します。 詳細については、 「実行動作の更新」を参照してください。
イベントログ :パイプラインの更新でエラーが発生した場合、エラーは下のペインに表示され、その実行のイベントログにアクセスするための [ログの表示] ボタンが表示されます。イベントログは、右ペインの実行の詳細で [**イベントログを表示**] を選択することでも利用できます。LakeFlow Pipelines Editor で更新を実行しているときに、エディターの下部にある [問題] ペインに移動し、 [ログの表示] をクリックするか、エラーの横にある [ログで開く] ボタンをクリックします。詳細については、Lakeflow Pipelines Editorおよびイベントログのパイプライン設定を参照してください。
「統合実行リスト」プレビューでの変更
Unified 実行リストの プレビューを有効にしている場合は、 [ジョブとパイプライン] ページでパイプライン実行の更新を確認できます。
プレビュー
統合実行リストはパブリック プレビュー段階です。ワークスペースはデフォルトでプレビューにオプトインされます。
Unified 実行リスト を無効にするには、ワークスペース管理者がプレビューをオプトアウトする必要があります。 プレビューの有効化または無効化の詳細については、 「アカウント レベルのプレビューの管理」をご覧ください。
統合された実行リストにアクセスするには、ワークスペースのサイドバーから実行、または をクリック
[ジョブとパイプライン] を選択し、 [実行] タブを選択します。
タブには、過去 60 日間の最近の実行のリストが表示されます。次の場合には、過去 48 時間の実行の成功と失敗を示すグラフが最初に表示されます。
- ジョブ または パイプライン のみにフィルターされます。
- あなたは管理者です、または実行のみにフィルターします
Run as: Me - 実行がグラフに表示されるまでには最大 1 時間かかる場合があります。
リストとグラフは次の基準でフィルタリングできます。
- ジョブまたはパイプラインの 名前 。
- すべて 、 ジョブ 、または パイプライン 。
- パイプラインの種類 (ETL、取り込み、MV/ST、またはデータベース テーブル同期)。
- 実行 ユーザー。
- 実行の 開始時刻 (過去 48 時間以内)。
- 実行ステータス 。
- 失敗した実行の エラー コード 。
上記のほかに、リストには次の列を表示できます。
- 終了時刻
- ランID
- 実行が手動で 開始されたか、スケジュールによって開始された か。
- 実行 時間 。
- 実行予定 。
実行リストに表示される列を変更するには、列を選択または選択解除します。
パイプライン実行の 開始時刻 、 終了時刻 、または 名前 をクリックすると、パイプラインのモニタリング ページに移動します。
パイプラインがアクティブに実行されているときは、停止ボタン。いつでもクリックして
実行の行のメニュー ボタンをクリックし、 [パイプラインの編集] を選択して、エディターでパイプラインを表示します。
データセットの詳細を表示
パイプライングラフまたはデータセットリストのデータセットをクリックすると、下部ペインにデータセットに関する情報が表示されます。右側のペインにはパイプラインと更新の詳細が引き続き表示されます。
- スキーマ :下部ペインのテーブル タブでテーブルを選択し、次に 列 を選択してください。
- データ品質メトリクス :テーブルが選択されている場合、下部ペインに表示されます。
- ソースコード : 特定のテーブルのコードに移動するには、パイプライングラフでテーブルにカーソルを合わせ、
コードボタンに移動してください 。
- クエリー履歴: 下部のペインで パフォーマンス を選択します。
- テーブルのコメント :パイプラインの詳細ページからは利用できません。テーブルコメントを表示するには、カタログエクスプローラーでテーブルを開きます。テーブルに直接移動するには、パイプライングラフでその上にマウスを移動し、
をクリックし、次に、
カタログで表示 をクリックします。下部ペインのテーブルリストから Catalog Explorer にアクセスするには、
アイコンをクリックします。
更新履歴を表示
パイプラインの更新の履歴とステータスを表示するには、上部のバーにある更新履歴ドロップダウン メニューをクリックします。
ドロップダウン メニューで更新を選択すると、更新のグラフ、詳細、イベントが表示されます。最新の更新に戻るには、 「最新の更新を表示」を クリックします。
ストリーミングメトリクスを表示する
プレビュー
パイプラインのストリーミングの可観測性はパブリック プレビュー段階です。
パイプライン内のストリーミング フローごとに、 Apache Kafka 、 Amazon Kinesis 、 Auto Loader 、 Deltaテーブルなど、 Spark構造化ストリーミングによってサポートされているデータ ソースからストリーミング メトリクスを表示できます。 メトリクスはパイプライン UI の右側のペインにグラフとして表示され、バックログ秒数、バックログ バイト数、バックログ レコード、バックログ ファイルが含まれます。 グラフには 1 分ごとに集計された最大値が表示され、グラフの上にマウス カーソルを合わせるとツールヒントに最大値が表示されます。データは現在の時刻から過去 48 時間までに制限されます。
ストリーミングメトリクスが利用可能なパイプラインのテーブルには、 UI グラフ ビューでパイプライングラフを表示する際に表示されるアイコン。ストリーミング メトリクスを表示するには、
右側のペインの [ フロー ] タブにストリーミング メトリクス チャートを表示します。 また、 「リスト」 をクリックしてから「ストリーミングメトリクス を含む」をクリックすると、ストリーミングメトリクス を含むテーブルのみを表示するようにフィルターを適用することもできます。
各ストリーミング ソースは、特定のメトリクスのみをサポートします。 ストリーミング ソースでサポートされていないメトリクスは、UI で表示できません。 次の表は、サポートされているストリーミング ソースで利用可能なメトリクスを示しています。
source | バックログバイト | バックログ記録 | バックログ秒数 | バックログファイル |
|---|---|---|---|---|
Kafka | ✓ | ✓ | ||
Kinesis | ✓ | ✓ | ||
Delta | ✓ | ✓ | ||
Auto Loader | ✓ | ✓ | ||
Google Pub/Sub | ✓ | ✓ |