Lakeflow Designerでビジュアルデータ準備を作成する方法
プレビュー
この機能は パブリック プレビュー段階です。
Lakeflow Designer を使用すると、視覚的なドラッグ アンド ドロップ キャンバス上にデータ変換ワークフローを構築できます。 このページでは、データソースの追加や演算子の連結から、結果のプレビュー、 Unity Catalogへの書き込みまで、ビジュアルデータ準備の作成方法について説明します。
視覚的なデータ準備を作成するには:
- 要件を確認する
- ビジュアルデータ準備を作成する
- データソースを追加する
- オペレーターの追加と設定
- オペレーターを接続する
- 結果をプレビュー
- 結果をUnity Catalogに書き込む
- 本番運用でのスケジュールまたは実行
- Gitで保存および管理
要件
Lakeflow Designer を使用するには、以下が必要です。
- Unity Catalog が有効になっている Databricks ワークスペース。
CAN USE少なくとも 1 つの汎用コンピュート リソース (サーバレスまたは汎用) に対する許可。
新しいビジュアルデータ準備を作成する
新しいビジュアルデータ準備を作成するには、クリックします。サイドバーの 「新規」 から 「ビジュアルデータ準備」 を選択します。
Designerを起動すると、ウェルカム画面が表示され、そこでデータソースを追加したり、サンプルとなるビジュアルデータ準備を確認したりできます。
データソースを追加する
すべてのデザイナーのワークフローは、1つ以上のデータソースから始まります。 ソース 演算子は、キャンバス上のデータ ソースを表します。
データソースを追加するには:
- ソース演算子を追加します。ようこそ画面から、 [ソース オペレータの選択] をクリックします。キャンバスから演算子メニューを開き、 ソース を選択します。
- ソース構成ペインで、データを取り込む方法を選択します。既存のテーブルを参照したり、ローカルの CSV または Excel ファイルをアップロードしたり、ファイルからテーブルを作成したり、Google ドライブまたは SharePoint からインポートしたりできます。
- データソースを選択または設定します。 ソース演算子がキャンバスに表示されます。
CSV または Excel ファイルをキャンバスに直接ドラッグ アンド ドロップして、ソース演算子をすばやく作成することもできます。
後でソースを変更するには、ソース演算子を開いて、 「新しいデータソースの選択」 をクリックします。 ソースを変更すると、すべての下流演算子の出力キャッシュが無効になります。
各取り込みオプションの詳細については、 Lakeflow Designer へのデータの取り込み」を参照してください。
オペレーターの追加と設定
オペレーターを追加するには、キャンバス左側のサイドパネルにあるオペレーターメニューを開きます。オペレーターをクリックしてキャンバスに追加するか、メニューからオペレーターをキャンバスにドラッグしてください。既存のオペレーターの横にある 「+」 ボタンをクリックすると、自動接続で新しいオペレーターを追加することもできます。

オペレーターを設定するには、それをダブルクリックするか、ポインターをオペレーターの上に置いてクリックします。 ( 編集オペレーター )をクリックして、設定ペインを開きます。そのオペレータータイプのオプションを設定し、 [適用] をクリックします。
各オペレーターの詳細については、 「Lakeflow Designer の組み込みオペレーター」を参照してください。独自のユーザー定義演算子を作成する方法の詳細については、 「Lakeflow Designer のユーザー定義演算子」を参照してください。
オペレーターを接続する
2つの演算子を接続するには、出力ハンドル(演算子の右端にある小さな円)から入力ハンドル(次の演算子の左端にある小さな円)までクリックしてドラッグします。これは、データが最初の演算子から2番目の演算子へ流れることを指定するものです。データは、ビジュアルデータ準備プロセスにおいて左から右へと流れます。

Join や Combine などの一部の演算子は複数の入力を受け入れます。
Genie Codeを使用する
Lakeflow Designerで編集作業を行っている間はいつでも、 Genie Codeへのプロンプトを作成して作業を補助することができます。

Genie Codeを使用する際、以下のボタンは追加機能を提供します。
プロンプトの一部として使用する画像をアップロードします。
: プロンプトの一部として使用するテーブルやファイルなどのオブジェクトを指定する場合に使用します。
新しいエージェントコンテキストで新しいチャットスレッドを開始します。
会話履歴と、エージェントの操作内容をより詳細に表示するためのサイドパネルを開きます。
プレビュー結果
任意の演算子を選択すると、画面下部の出力ペインに結果が表示されます。ほとんどの演算子タイプでは、入力データは左側にあり、出力データは右側にあります。

デフォルトでは、オペレーターは限られたデータサンプルを処理します。出力ペインの 「スキャンする行数」 ドロップダウンを使用して、処理する行数を制御します。
- スキャンされる行数:制限 :最初のN行の入力を処理します。ドロップダウンリストの横にある欄に、行数を指定してください。
- スキャンされた行数: 最大 : すべての入力行を処理します。
行 スキャンを実行しても、Max は 完全な無制限のデータセットを使用してすべての上流オペレーターを再実行するため、時間がかかる場合があります。
データプロファイリング
出力ペインでは、出力データの詳細を表示するかどうかを選択できます。出力ペインの右上隅で、サイドバーのボタンをクリックして、選択内容の詳細を開きます。選択したデータの詳細を表示するには、データの一部を選択してください。

結果をUnity Catalogに書き込む
出力 オペレーターを追加して、結果を Unity Catalog のテーブルに書き込みます。
- 演算子メニューを開いて [出力] を選択するか、最後の演算子の横にある + を クリックして [出力] を選択します。
- まだ接続されていない場合は、最後の変換の出力ハンドルを出力 オペレータ の入力ハンドルに接続します。
- 出力 オペレーターをダブルクリックして、その構成ペインを開きます。
- テーブル名 を入力し、 出力場所 (カタログとスキーマ) を選択します。
- 実行 をクリックします。
本番運用でのスケジュールまたは実行
ワークフローをジョブとしてスケジュールすることで、自動化できます。
- 直接スケジュールする :上部メニューの 「スケジュール」 ボタンをクリックして、ビジュアルデータ準備のスケジュール済みジョブを作成します。
- ジョブに追加 : Databricksジョブを作成し、ビジュアル データの準備をタスクとして選択します。 これにより、視覚的なデータ準備作業を、より大規模なパイプライン内の他のタスクと組み合わせることが可能になります。

ビジュアルデータ準備ファイルをGitに保存および管理する
ビジュアルデータ準備ファイルは、ワークスペース内にネイティブに保存されます。Gitで使用するには、Gitフォルダを作成し、そこにファイルを配置してください。ファイルがGitフォルダ内にある場合、通常のファイルやノートブックと同様にGitを使用できます。
ファイルはGitではfile_name.designer.ipynbという形式のノートブックとして表示されます。
キャンバスで作業する際の追加のヒント
キャンバス上では、ビジュアルデータの準備を編集するのに役立つ以下の操作が利用できます。
- オペレーターの名前を変更する :設定ペインの上部にあるテキストフィールドをクリックして、オペレーターの名前を変更します。分かりやすい名前を使うことで、視覚的なデータ準備が一目で理解しやすくなります。SQL演算子など、一部の演算子は、他の演算子の出力を名前で参照できます。
- 演算子をコピーする : 演算子の上にポインタを置いてクリックします
、または演算子を選択して、 Cmd/Ctrl+C を押してから Cmd/Ctrl+V を 押します。
- 自動レイアウト :クリック
ヘッダーツールバーで、すべての演算子をコンパクトなレイアウトに自動的に配置します。
- フィット表示 :クリック
ヘッダーツールバーで、現在のビューポート内のすべての演算子を表示します。
- 元に戻す/やり直し : Cmd/Ctrl+Z と Cmd/Ctrl+Shift+Z を押すか、ヘッダーツールバーの元に戻す/やり直しボタンを使用します。
- 生成されたコードの表示 :Designerによって生成されたPySparkコードを表示するには、右側のパネルで バージョン履歴を 開き、ファイルをGitフォルダーにプッシュしてそこで表示するか、ジョブ実行の詳細でコードを表示します。