UI によるLakeFlow宣言型パイプラインの監視
このセクションでは、Databricksユーザーインタフェースにおける、ビルトインの監視と可観測性の機能の使い方を説明しますこれらの機能は、次のようなタスクをサポートします。
- パイプラインの更新の進行状況とステータスを観察します。パイプラインの詳細については、モニタリング ページを参照してください。
- パイプライン更新の成功や失敗などのパイプライン イベントに関するアラート。 パイプラインイベントのEメール通知の追加を参照してください。
- Apache KafkaやAuto Loaderのようなストリーミングソースのメトリクスの参照 (パブリックプレビュー)。ストリーミングメトリクスの表示を参照してください。
パイプライン イベントの電子メール通知を追加する
次の状況が発生したときに通知を受信する 1 つ以上の電子メール アドレスを設定できます。
- パイプラインの更新が正常に完了しました。
- パイプラインの更新は、再試行可能なエラーまたは再試行不可能なエラーのいずれかで失敗します。すべてのパイプラインの失敗に関する通知を受信するには、このオプションを選択します。
- パイプラインの更新は再試行不可能な (致命的な) エラーで失敗します。再試行できないエラーが発生した場合にのみ通知を受信するには、このオプションを選択します。
- 単一のデータ フローが失敗します。
電子メール通知を構成するには、パイプラインの設定を編集します。 通知を参照してください。
Pythonイベント フックを使用して、通知やカスタム処理などのイベントに対するカスタム応答を作成します。
UI でパイプラインを表示する
LakeFlow宣言型パイプラインを次の場所から見つけます。ワークスペースのサイドバーの 「ジョブとパイプライン」 オプション。 これにより 、[ジョブとパイプライン] ページが開き、アクセスできる各ジョブとパイプラインに関する情報を表示できます。 パイプラインの名前をクリックすると、パイプラインモニタリングページが開きます。 ジョブまたはパイプラインを編集するには、
メニューから 編集 を選択します。
ジョブとパイプラインの種類ごとにエディターが異なります。 編集 オプションでは、選択したオブジェクトに適したエディターが開きます。
ジョブとパイプラインリストの使用
アクセス権のあるパイプラインのリストを表示するには、サイドバーの ジョブとパイプライン をクリックします。 ジョブとパイプライン タブには、作成者、トリガー (存在する場合)、過去 5 回の実行の結果など、使用可能なすべてのジョブとパイプラインに関する情報が一覧表示されます。
パイプラインまたはジョブの名前をクリックすると、そのパイプラインまたはジョブのモニタリング ページに移動します。 パイプラインまたはジョブを編集するには、を選択し、 編集 を選択します。
リストに表示される列を変更するには、列を選択または選択解除します。たとえば、
Pipeline Type
列として追加するには、その列を選択して表示します。
次のスクリーンショットに示すように、 ジョブとパイプラインの リストでジョブをフィルタリングできます。
- テキスト検索 : 名前 フィールドと ID フィールドでキーワード検索がサポートされています。キーと値を使用して作成されたタグを検索するには、キー、値、またはキーと値の両方で検索できます。たとえば、キーが
department
で値がfinance
のタグの場合、department
またはfinance
を検索して一致するジョブを見つけることができます。キーと値で検索するには、キーと値をコロンで区切って入力します(例:department:finance
)。 - タイプ : ジョブ 、 パイプライン 、または すべて でフィルター処理します。 パイプライン を選択した場合は、ETL や取り込みパイプラインなどの パイプラインタイプ でフィルター処理することもできます。
- 所有者 : 自分が所有するジョブのみを表示します。
- お気に入り : お気に入りとしてマークしたジョブを表示します。
- タグ :タグを使用します。 タグで検索するには、タグのドロップダウン メニューを使用して、最大 5 つのタグを同時にフィルタリングするか、キーワード検索を直接使用することができます。
- 実行者: 最大 2 つの
run as
値でフィルター処理します。
ジョブまたはパイプラインを開始するには、再生ボタン。ジョブまたはパイプラインを停止するには、
停止ボタン。他のアクションにアクセスするには、ケバブメニューをクリックします
。たとえば、そのメニューからジョブまたはパイプラインを編集または削除したり、パイプラインの設定にアクセスしたりできます。
パイプラインの詳細はモニタリングページでご覧いただけます
LakeFlow Pipelines Editor は、パイプラインの詳細のエクスペリエンスを変更します。 プレビューを選択した場合、情報はここで説明されているものとは異なる UI で表示されます。UI の詳細については、次のセクションを参照してください。
「ジョブとパイプライン」 ページでパイプラインの名前をクリックすると、そのパイプラインのモニタリング ページが表示されます。 ここからパイプラインの実行を開始し、以前の実行の詳細を表示できます。
パイプラインの更新が正常に開始されるとすぐに、パイプライン グラフ (DAG とも呼ばれます) が表示されます。矢印はパイプライン内のデータセット間の依存関係を表します。もちろん、パイプライン監視ページにはテーブルの最新の更新が表示されますが、ドロップダウン メニューから古い更新を選択することもできます。
詳細には、パイプライン ID、ソース コード、コンピュート コスト、製品エディション、パイプライン用に設定されたチャンネルが含まれます。
データセットの表形式ビューを表示するには、 [リスト] タブをクリックします。 リスト ビューでは、パイプライン内のすべてのデータセットをテーブル内の行として表示できます。これは、パイプライン グラフが大きすぎて グラフ ビューで視覚化できない場合に便利です。データセット名、タイプ、ステータスなどの複数のフィルターを使用して、テーブルに表示されるデータセットを制御できます。 DAG 視覚化に戻るには、 [グラフ] をクリックします。
実行 ユーザー は パイプライン 所有者であり、 パイプライン 更新 実行 このユーザーの権限で実行。run as
ユーザーを変更するには、 アクセス許可 をクリックし、パイプライン所有者を変更します。
LakeFlow Pipelinesエディターにはどのような変更がありますか?
LakeFlow Pipelines Editor プレビューと新しいパイプライン監視 UI を選択している場合、一部の情報が UI の別の場所に表示されます。 LakeFlow Pipelines Editor に関する情報、および両方のプレビューへのオプトインについては、「 LakeFlow Pipelines Editor の有効化と更新されたモニタリング」を参照してください。
プレビュー
この機能は パブリック プレビュー段階です。
両方のプレビューをオプトインすると、パイプライン モニタリング ページでのモニタリングに対する次の変更が表示されます。
-
右側のパネルの パイプラインの詳細 と 更新の詳細 タブは、上部のパイプラインの詳細に統合され、その後に更新の詳細が続きます。
-
グラフ内のテーブルをクリックしても、右側のパネルにテーブルの詳細が表示されません。右側のパネルには、パイプラインと更新の詳細が引き続き表示されます。代わりに、下のパネルにテーブル情報が表示されます。
-
開発モードでパイプラインを実行するためのルールが少し更新されました。開発モードについては、 「開発モード」を参照してください。
- スケジュールまたはトリガーを介してパイプラインを実行する場合は、開発モードを使用するかどうかのパイプライン設定に従います。パイプラインの安全は パイプライン設定 で変更できます。
- モニタリング UI を通じてパイプラインを実行すると、パイプライン設定で定義されたモードが使用されます。 ドロップダウンの 「別の設定で実行」 オプションを使用して、開発モードを使用するかどうかを選択できます。
- パイプライン エディターからパイプラインを実行すると、デフォルトで開発モードになります。ドロップダウンの 「別の設定で実行」 オプションを使用して、開発モードを使用しないように選択できます。
-
パイプラインの詳細にソース コードへのリンクがなくなりました。代わりに、上部の [パイプラインの編集] を 選択します。特定のテーブルのコードにジャンプするには、DAG内のテーブルにマウスを移動し、
コードボタンに移動します 。
-
パイプラインモニタリングページから更新するたびにイベントログが表示されなくなりました。 処理中にエラーが発生すると、下部のパネルにエラーが表示され、その実行のイベント ログを表示するための [ログの表示] ボタンが表示されます。イベントログは、以下を選択しても表示されます。
右側のパネルの実行詳細から イベント ログを表示します 。
新しいLakeFlow Pipelinesエディターで更新を実行しているときにイベント ログにアクセスするには、エディターの下部にある [問題とレポート] パネルに移動し、 [ログの表示] をクリックするか、エラーの横にある [ログで開く] ボタンをクリックします。 詳細については、 LakeFlow Pipelines Editor」および「イベント ログのパイプライン設定」を参照してください。
-
テーブル スキーマ情報は、下部パネルの [テーブル] タブでテーブルを選択し、 [列] を選択すると表示されます。
-
クエリ履歴は、下部のパネルで [パフォーマンス] を選択すると表示されます。
-
テーブルコメントはパイプラインの詳細ページからは使用できません。テーブルのコメントを表示するには、カタログ エクスプローラーからテーブルを表示します。カタログエクスプローラのテーブルに直接ジャンプするには、DAGのテーブルの上にマウスを移動し、
、 その後
カタログで見る 。下部パネルのテーブルリストからカタログエクスプローラの情報にアクセスすることもできます。
アイコン。
データセットの詳細を表示するにはどうすればいいですか?
パイプライン グラフまたはデータセット リスト内のデータセットをクリックすると、データセットの詳細が表示されます。詳細には、データセット スキーマ、データ品質メトリクス、データセットを定義するソース コードへのリンクが含まれます。
更新履歴を表示
パイプラインの更新の履歴とステータスを表示するには、上部のバーにある更新履歴ドロップダウン メニューをクリックします。
ドロップダウン メニューで更新を選択すると、更新のグラフ、詳細、イベントが表示されます。最新の更新に戻るには、 「最新の更新を表示」を クリックします。
ストリーミングメトリクスを表示する
プレビュー
Lakeflow 宣言型パイプラインのストリーミング オブザーバビリティはパブリック プレビュー段階です。
Lakeflow宣言型パイプラインの各ストリーミングフローにおいて、Apache Kafka、Amazon Kinesis、Deltaテーブル、Auto Loaderなど、Spark構造化ストリーミングでサポートされているデータソースからストリーミング メトリクスを表示できます。メトリクスは、 Lakeflow 宣言型パイプライン UI の右ペインにグラフとして表示され、バックログ秒数、バックログバイト数、バックログレコード、およびバックログファイルが含まれます。 グラフには分単位で集計された最大値が表示され、グラフにカーソルを合わせるとツールチップに最大値が表示されます。データは、現在の時刻から過去 48 時間に制限されます。
ストリーミング メトリクス 使用できるパイプライン内のテーブルは、UI グラフ ビューでパイプライン DAG を表示すると、 アイコンが表示されます。ストリーミング メトリクスを表示するには、
をクリックして、右側のペインの フロー タブにストリーミング メトリクス チャートを表示します。 また、 リスト をクリックし、 ストリーミング メトリクスがある をクリックして、ストリーミング メトリクスを含むテーブルのみを表示するようにフィルターを適用することもできます。
各ストリーミング ソースは、特定のメトリクスのみをサポートします。 ストリーミング ソースでサポートされていないメトリクスは、UI で表示できません。 次の表は、サポートされているストリーミング ソースで利用可能なメトリクスを示しています。
source | バックログバイト | バックログ記録 | バックログ秒数 | バックログファイル |
---|---|---|---|---|
Kafka | ✓ | ✓ | ||
Kinesis | ✓ | ✓ | ||
Delta | ✓ | ✓ | ||
Auto Loader | ✓ | ✓ | ||
Google Pub/Sub | ✓ | ✓ |