メインコンテンツまでスキップ

LakeFlow Designerでビジュアルデータ準備を作成する方法

備考

プレビュー

この機能は パブリック プレビュー段階です。

LakeFlow Designer を使用すると、視覚的なドラッグ アンド ドロップ キャンバス上にデータ変換ワークフローを構築できます。 このページでは、データソースの追加や演算子の連結から、結果のプレビュー、 Unity Catalogへの書き込みまで、ビジュアルデータ準備の作成方法について説明します。

ビジュアルデータ準備を作成するには:

  1. 要件を確認する
  2. ビジュアルデータ準備を作成する
  3. データソースを追加する
  4. オペレーターの追加と設定
  5. オペレーターを接続する
  6. 結果をプレビュー
  7. 結果をUnity Catalogに書き込む
  8. 本番運用でのスケジュールまたは実行

要件

LakeFlow Designer を使用するには、以下が必要です。

  • Unity Catalog が有効になっている Databricks ワークスペース。
  • CAN USE 少なくとも 1 つのコンピュート リソース (サーバレスまたは汎用のいずれか) に対する許可。
  • Databricks AI 支援機能が有効になりました。お住まいの地域でモデルが利用できない場合は、クロスジオ処理を有効にする必要がある場合もあります。

新しいビジュアルデータ準備を作成します

新しいビジュアルデータ準備を作成するには、クリックします。プラスアイコン。サイドバーの 「新規」 から 「ビジュアルデータ準備」 を選択します。

Designerを起動すると、ウェルカム画面が表示され、そこでデータソースを追加したり、サンプルとなるビジュアルデータ準備を試したりできます。

データソースを追加する

すべてのデザイナーのワークフローは、1つ以上のデータソースから始まります。 ソース 演算子は、キャンバス上のデータ ソースを表します。

データソースを追加するには:

  1. ソース演算子を追加します。ようこそ画面から、 [ソース オペレータの選択] をクリックします。キャンバスから演算子メニューを開き、 ソース を選択します。
  2. ソース構成ペインで、データを取り込む方法を選択します。既存のテーブルを参照したり、ローカルの CSV または Excel ファイルをアップロードしたり、ファイルからテーブルを作成したり、Google ドライブまたは SharePoint からインポートしたりできます。
  3. データソースを選択または設定します。 ソース演算子がキャンバスに表示されます。

CSV または Excel ファイルをキャンバスに直接ドラッグ アンド ドロップして、ソース演算子をすばやく作成することもできます。

後でソースを変更するには、ソース演算子を開いて、 「新しいデータソースの選択」 をクリックします。 ソースを変更すると、すべての下流演算子の出力キャッシュが無効になります。

各取り込みオプションの詳細については、 LakeFlow Designer へのデータの取り込み」を参照してください。

オペレーターの追加と設定

オペレーターを追加するには、キャンバス左側のサイドパネルにあるオペレーターメニューを開きます。オペレーターをクリックしてキャンバスに追加するか、メニューからオペレーターをキャンバスにドラッグしてください。既存のオペレーターの横にある 「+」 ボタンをクリックすると、自動接続で新しいオペレーターを追加することもできます。

LFDオペレーターメニューは、キャンバス上にドラッグ&ドロップで配置できます。

オペレーターを設定するには、それをダブルクリックするか、ポインターをオペレーターの上に置いてクリックします。鉛筆アイコン。編集オペレーター )をクリックして、設定ペインを開きます。そのオペレータータイプのオプションを設定し、 [適用] をクリックします。

利用可能な各演算子の詳細については、 LakeFlow Designer の組み込み演算子」を参照してください。

オペレーターを接続する

2つの演算子を接続するには、出力ハンドル(演算子の右端にある小さな円)から入力ハンドル(次の演算子の左端にある小さな円)までクリックしてドラッグします。これは、データが最初の演算子から2番目の演算子へ流れることを指定するものです。データはビジュアルデータ準備プロセスにおいて、左から右へと流れます。

LFDキャンバスには、2人のオペレーター間の接続状況が表示されている。

JoinCombine などの一部の演算子は複数の入力を受け入れます。

Genie Codeを使用する

LakeFlow Designerで編集作業を行っている間はいつでも、 Genie Codeへのプロンプトを作成して作業を補助することができます。

LFD Genie Codeプロンプト

Genie Codeを使用する際、以下のボタンは追加機能を提供します。

  • 画像アイコン。プロンプトの一部として使用する画像をアップロードします。
  • アイコンで。: プロンプトの一部として使用するテーブルやファイルなどのオブジェクトを指定する場合に使用します。
  • 吹き出しアイコン。新しいエージェントコンテキストで新しいチャットスレッドを開始します。
  • リーダーモードのアイコン。会話履歴と、エージェントの操作内容をより詳細に表示するためのサイドパネルを開きます。

プレビュー結果

任意の演算子を選択すると、画面下部の出力ペインに結果が表示されます。ほとんどの演算子タイプでは、入力データは左側にあり、出力データは右側にあります。

キャンバスの下にあるLFD出力ペイン。

デフォルトでは、演算子は最大 1,000 行のデータのサンプルに対して実行されます。完全なデータセットで実行するには、出力ペインで [サンプル データセット] をクリックし、 [完全なデータセット] に切り替えます。

警告

完全なデータセットで実行すると、すべての上流オペレーターが完全で無制限のデータセットで再実行されるため、長い時間がかかることがあります。

データプロファイリング

出力ペインでは、出力データの詳細を表示するかどうかを選択できます。出力ペインの右上隅で、サイドバーアイコン。サイドバーのボタンをクリックして、選択内容の詳細を開きます。選択したデータの詳細を表示するには、データの一部を選択してください。

選択した出力データに関するグラフと詳細情報を表示するサイドバー。

結果をUnity Catalogに書き込む

出力 オペレーターを追加して、結果を Unity Catalog のテーブルに書き込みます。

  1. 演算子メニューを開いて [出力] を選択するか、最後の演算子の横にある + を クリックして [出力] を選択します。
  2. まだ接続されていない場合は、最後の変換の出力ハンドルを出力 オペレータ の入力ハンドルに接続します。
  3. 出力 オペレーターをダブルクリックして、その構成ペインを開きます。
  4. テーブル名 を入力し、 出力場所 (カタログとスキーマ) を選択します。
  5. 実行 をクリックします。

本番運用でのスケジュールまたは実行

ワークフローをジョブとしてスケジュールすることで、自動化できます。

  • 直接スケジュールする :上部メニューの 「スケジュール」 ボタンをクリックして、ビジュアルデータ準備のスケジュール済みジョブを作成します。
  • ジョブに追加 : Databricksジョブを作成し、デザイナー ビジュアル データ準備をタスクとして選択します。 これにより、ビジュアルデータ準備作業を他のタスクと組み合わせて、より大規模なパイプラインを構築できます。

LFDスケジュール制御により、ビジュアルデータ準備をジョブとして自動化できます。

キャンバスで作業する際の追加のヒント

キャンバス上では、ビジュアルデータの準備を編集するのに役立つ以下の操作が利用できます。

  • オペレーターの名前を変更する :設定ペインの上部にあるテキストフィールドをクリックして、オペレーターの名前を変更します。分かりやすい名前を使うことで、ビジュアルデータの準備が一目で理解しやすくなります。SQL演算子など、一部の演算子は、他の演算子の出力を名前で参照できます。
  • 演算子をコピーする : 演算子の上にポインタを置いてクリックしますアイコンをコピーします。、または演算子を選択して、 Cmd/Ctrl+C を押してから Cmd/Ctrl+V を 押します。
  • 自動レイアウト :クリックDAG 水平アイコン。左下のツールバーで、すべての演算子を自動的にコンパクトなレイアウトに配置します。
  • フィットビュー : クリックアイコンに合わせて拡大します。左下のツールバーで、現在のビューポート内のすべてのオペレータを表示します。
  • 元に戻すおよびやり直し : Cmd/Ctrl+Z および Cmd/Ctrl+Shift+Z を押すか、上部のツールバーのボタンを使用します。

次のステップ