UI によるLakeFlow宣言型パイプラインの監視
このセクションでは、Databricksユーザーインタフェースにおける、ビルトインの監視と可観測性の機能の使い方を説明しますこれらの機能は、次のようなタスクをサポートします。
- パイプラインの更新の進行状況とステータスを観察します。パイプラインの詳細については、モニタリング ページを参照してください。
- パイプライン更新の成功や失敗などのパイプライン イベントに関するアラート。 パイプラインイベントのEメール通知の追加を参照してください。
- Apache KafkaやAuto Loaderのようなストリーミングソースのメトリクスの参照 (パブリックプレビュー)。ストリーミングメトリクスの表示を参照してください。
パイプラインイベントのEメール通知を追加する
次の発生時に通知を受信するように 1 つ以上の電子メール アドレスを構成できます。
- パイプラインの更新が正常に完了します。
- パイプラインの更新は、再試行可能または再試行不可能なエラーで失敗します。すべてのパイプライン障害の通知を受信するには、このオプションを選択します。
- パイプラインの更新は、再試行不能 (致命的な) エラーで失敗します。再試行不可能なエラーが発生した場合にのみ通知を受け取るには、このオプションを選択します。
- 1 つのデータ フローが失敗します。
電子メール通知を構成するには、パイプラインの設定を編集します。 通知を参照してください。
Python イベントフックを使用して、通知やカスタム処理などのイベントに対するカスタム応答を作成します。
UI でのパイプラインの表示
LakeFlow宣言型パイプラインを次の場所から見つけます。ワークスペースのサイドバーの 「ジョブとパイプライン」 オプション。 これにより 、[ジョブとパイプライン] ページが開き、アクセスできる各ジョブとパイプラインに関する情報を表示できます。 パイプラインの名前をクリックすると、パイプラインモニタリングページが開きます。 ジョブまたはパイプラインを編集するには、
メニューから 編集 を選択します。
ジョブとパイプラインの種類ごとにエディターが異なります。 編集 オプションでは、選択したオブジェクトに適したエディターが開きます。
ジョブとパイプラインリストの使用
アクセス権のあるパイプラインのリストを表示するには、サイドバーの ジョブとパイプライン をクリックします。 ジョブとパイプライン タブには、作成者、トリガー (存在する場合)、過去 5 回の実行の結果など、使用可能なすべてのジョブとパイプラインに関する情報が一覧表示されます。
パイプラインまたはジョブの名前をクリックすると、そのパイプラインまたはジョブのモニタリング ページに移動します。 パイプラインまたはジョブを編集するには、を選択し、 編集 を選択します。
リストに表示される列を変更するには、列を選択または選択解除します。たとえば、
Pipeline Type
列として追加するには、その列を選択して表示します。
次のスクリーンショットに示すように、 [ジョブとパイプライン] リストでジョブをフィルター処理できます。
- テキスト検索 : 名前 フィールドと ID フィールドでキーワード検索がサポートされています。キーと値を使用して作成されたタグを検索するには、キー、値、またはキーと値の両方で検索できます。たとえば、キーが
department
で値がfinance
のタグの場合、department
またはfinance
を検索して一致するジョブを見つけることができます。キーと値で検索するには、キーと値をコロンで区切って入力します(例:department:finance
)。 - タイプ : ジョブ 、 パイプライン 、または すべて でフィルター処理します。 パイプライン を選択した場合は、ETL や取り込みパイプラインなどの パイプラインタイプ でフィルター処理することもできます。
- 所有者 : 所有しているジョブのみを表示します。
- お気に入り : お気に入りとしてマークしたジョブを表示します。
- タグ : タグを使用します。タグで検索するには、タグドロップダウンメニューを使用して最大5つのタグを同時にフィルタリングするか、キーワード検索を直接使用します。
- 実行者: 最大 2 つの
run as
値でフィルター処理します。
ジョブまたはパイプラインを開始するには、再生ボタン。ジョブまたはパイプラインを停止するには、
停止ボタン。他のアクションにアクセスするには、ケバブメニューをクリックします
。たとえば、そのメニューからジョブまたはパイプラインを編集または削除したり、パイプラインの設定にアクセスしたりできます。
パイプラインの詳細はモニタリングページでご覧いただけます
LakeFlow Pipelines Editor は、パイプラインの詳細のエクスペリエンスを変更します。 プレビューを選択した場合、情報はここで説明されているものとは異なる UI で表示されます。UI の詳細については、次のセクションを参照してください。
「ジョブとパイプライン」 ページでパイプラインの名前をクリックすると、そのパイプラインのモニタリング ページが表示されます。 ここからパイプラインの実行を開始し、以前の実行の詳細を表示できます。
パイプラインの更新が正常に開始されるとすぐに、パイプライン グラフ (DAG とも呼ばれます) が表示されます。矢印はパイプライン内のデータセット間の依存関係を表します。もちろん、パイプライン監視ページにはテーブルの最新の更新が表示されますが、ドロップダウン メニューから古い更新を選択することもできます。
詳細には、パイプライン ID、ソース コード、コンピュート コスト、製品エディション、およびパイプライン用に設定されたチャンネルが含まれます。
データセットの表形式ビューを表示するには、 [リスト] タブをクリックします。 リスト ビューでは、パイプライン内のすべてのデータセットをテーブル内の行として表示できます。これは、パイプライン グラフが大きすぎて グラフ ビューで視覚化できない場合に便利です。データセット名、タイプ、ステータスなどの複数のフィルターを使用して、テーブルに表示されるデータセットを制御できます。 DAG 視覚化に戻るには、 [グラフ] をクリックします。
実行 ユーザー は パイプライン 所有者であり、 パイプライン 更新 実行 このユーザーの権限で実行。run as
ユーザーを変更するには、 アクセス許可 をクリックし、パイプライン所有者を変更します。
LakeFlow Pipelines エディターにはどのような変更がありますか?
LakeFlow Pipelines Editor のプレビューと新しいパイプライン監視 UI を選択している場合、一部の情報が UI の別の場所に表示されます。 LakeFlow Pipelines Editor に関する情報、および両方のプレビューのオプトインについては、「 LakeFlow Pipelines Editor の有効化と更新されたモニタリング」を参照してください。
プレビュー
この機能は パブリック プレビュー段階です。
両方のプレビューをオプトインすると、パイプライン モニタリング ページでのモニタリングに対する次の変更が表示されます。
-
右側のパネルの [パイプラインの詳細 ] と [ 更新の詳細 ] タブは、上部の [パイプラインの詳細] と統合され、その後に更新の詳細が続きます。
-
グラフ内のテーブルをクリックしても、右側のパネルにテーブルの詳細が表示されません。右側のパネルには、パイプラインと更新の詳細が引き続き表示されます。代わりに、下のパネルにテーブル情報が表示されます。
-
開発モードでパイプラインを実行するためのルールが少し更新されました。開発モードについては、 「開発モード」を参照してください。
- スケジュールまたはトリガーを使用してパイプラインを実行すると、開発モードを使用するかどうかのパイプライン設定に従います。パイプライン 設定でパイプライン のデフォルトを変更できます。
- モニタリングUIからパイプラインを実行すると、パイプライン設定で定義されたモードが使用されます。 開発モードを使用するかどうかは、ドロップダウンの [異なる設定で実行] オプションを使用して選択できます。
- パイプライン エディターからパイプラインを実行すると、開発モードにデフォルトします。 ドロップダウンの [異なる設定で実行] オプションを使用して、開発モードを使用しないことを選択できます。
-
パイプラインの詳細にソースコードへのリンクがなくなりました。代わりに、上部の [パイプラインの編集 ] を選択します。特定のテーブルのコードにジャンプするには、DAG のテーブルにカーソルを合わせ、[ コードに移動]
ボタン をクリックします。
-
パイプラインモニタリングページから更新するたびにイベントログが表示されなくなりました。 処理中にエラーが発生すると、下部のパネルにエラーが表示され、その実行のイベント ログを表示するための [ログの表示] ボタンが表示されます。イベントログは、以下を選択しても表示されます。
右側のパネルの実行詳細から イベント ログを表示します 。
新しいLakeFlow Pipelinesエディターで更新を実行しているときにイベント ログにアクセスするには、エディターの下部にある [問題とレポート] パネルに移動し、 [ログの表示] をクリックするか、エラーの横にある [ログで開く] ボタンをクリックします。 詳細については、 LakeFlow Pipelines Editor」および「イベント ログのパイプライン設定」を参照してください。
-
テーブル スキーマ情報は、下部パネルの [テーブル] タブでテーブルを選択し、 [列] を選択すると表示されます。
-
クエリ履歴は、下部のパネルで [パフォーマンス] を選択すると表示されます。
-
テーブルのコメントは、パイプラインの詳細ページからは使用できません。テーブルのコメントを表示するには、カタログエクスプローラからテーブルを表示します。カタログ エクスプローラーのテーブルに直接ジャンプするには、DAG のテーブルの上にマウスを置き、 をクリックして
[ カタログで表示]
します。また、下部パネルのテーブルのリストからカタログエクスプローラーの情報にアクセスするには、
アイコンをクリックします。
データセットの詳細を表示するにはどうすればいいですか?
パイプライン グラフまたはデータセット リスト内のデータセットをクリックすると、データセットの詳細が表示されます。詳細には、データセット スキーマ、データ品質メトリクス、データセットを定義するソース コードへのリンクが含まれます。
更新履歴を表示する
パイプライン更新の履歴とステータスを表示するには、上部のバーの更新履歴ドロップダウンメニューをクリックします。
ドロップダウンメニューで更新プログラムを選択して、更新プログラムのグラフ、詳細、イベントを表示します。最新のアップデートに戻るには、[ 最新のアップデートを表示 ] をクリックします。
ストリーミング メトリクスを表示
プレビュー
Lakeflow 宣言型パイプラインのストリーミング オブザーバビリティはパブリック プレビュー段階です。
Lakeflow宣言型パイプラインの各ストリーミングフローにおいて、Apache Kafka、Amazon Kinesis、Deltaテーブル、Auto Loaderなど、Spark構造化ストリーミングでサポートされているデータソースからストリーミング メトリクスを表示できます。メトリクスは、 Lakeflow 宣言型パイプライン UI の右ペインにグラフとして表示され、バックログ秒数、バックログバイト数、バックログレコード、およびバックログファイルが含まれます。 グラフには分単位で集計された最大値が表示され、グラフにカーソルを合わせるとツールチップに最大値が表示されます。データは、現在の時刻から過去 48 時間に制限されます。
ストリーミング メトリクス 使用できるパイプライン内のテーブルは、UI グラフ ビューでパイプライン DAG を表示すると、 アイコンが表示されます。ストリーミング メトリクスを表示するには、
をクリックして、右側のペインの フロー タブにストリーミング メトリクス チャートを表示します。 また、 リスト をクリックし、 ストリーミング メトリクスがある をクリックして、ストリーミング メトリクスを含むテーブルのみを表示するようにフィルターを適用することもできます。
各ストリーミングソースは特定のメトリクスのみをサポートします。 ストリーミングソースでサポートされていないメトリクスは、UI で表示できません。 次の表は、サポートされているストリーミングソースで使用できるメトリクスを示しています。
source | バックログ バイト | バックログ レコード | バックログ秒数 | バックログ ファイル |
---|---|---|---|---|
Kafka | ✓ | ✓ | ||
Kinesis | ✓ | ✓ | ||
Delta | ✓ | ✓ | ||
Auto Loader | ✓ | ✓ | ||
Google Pub/Sub | ✓ | ✓ |