Lakeflow Designer でビジュアルデータ準備を作成する

Lakeflow Designer を使用すると、視覚的なドラッグアンドドロップキャンバス上にデータ変換ワークフローを構築できます。このページでは、データソースの追加や演算子の連結から、結果のプレビュー、 Unity Catalogへの書き込みまで、ビジュアルデータ準備の作成方法について説明します。

要件

Lakeflow Designer を使用するには、以下が必要です。

Unity Catalog が有効になっている Databricks ワークスペース。
CAN USE 少なくとも 1 つの汎用コンピュートリソース (サーバレスまたは汎用) に対する許可。

Designerの右上にある スケジュール ボタンの横にあるコンピュートピッカーから、使用するコンピュートを選択します。

新しいビジュアルデータ準備を作成する

新しいビジュアルデータ準備を作成するには、クリックします。サイドバーの 「新規」 から 「ビジュアルデータ準備」 を選択します。

Designerを起動すると、ウェルカム画面が表示され、そこでデータソースを追加したり、サンプルとなるビジュアルデータ準備を確認したりできます。

既存のビジュアルデータ準備ファイルを見つけるには、サイドバーから**Visual data prep**ページを開きます。 このページには、すべてのビジュアルデータ準備ファイルが一覧表示され、Lakeflow Designer の使用を起動するのに役立つ入門ビデオが含まれています。

データソースを追加する

すべてのビジュアルデータ準備は、1つ以上のデータソースから始まります。 ソース オペレーターは、キャンバス上のデータソースを表します。

データソースを追加するには:

ソース演算子を追加します。ようこそ画面から、 [ソースオペレータの選択] をクリックします。キャンバスから演算子メニューを開き、 ソース を選択します。
ソース 構成ペインで、データの取り込み方法を選択します：
- 既存のテーブルを選択します。
- ローカルのCSVファイルまたはExcelファイルをuploadしてください。
- ファイルからテーブルを作成する。
- GoogleドライブまたはSharePointからインポートしてください。
データソースを選択または設定します。ソース演算子がキャンバスに表示されます。

CSV または Excel ファイルをキャンバスに直接ドラッグアンドドロップして、ソース演算子をすばやく作成することもできます。

後でソースを変更するには、ソース演算子を開いて、 「新しいデータソースの選択」 をクリックします。ソースを変更すると、すべての下流演算子の出力キャッシュが無効になります。

各取り込みオプションの詳細については、 Lakeflow Designer へのデータの取り込み」を参照してください。

オペレーターの追加と設定

オペレーターを追加するには、キャンバスの左側にあるサイドペインでオペレーターメニューを開きます。演算子をクリックしてキャンバスに追加します、または、メニューから演算子をキャンバスにドラッグします。既存の演算子の横にある**+**ボタンをクリックして、自動接続で新しい演算子を追加することもできます。

LFDオペレーターメニューは、キャンバス上にドラッグ＆ドロップで配置できます。

オペレーターを構成するには、ダブルクリックするか、またはその上にカーソルを合わせて (オペレーターの編集) をクリックして、構成ペインを開きます。そのオペレータータイプのオプションを設定し、適用をクリックします。

各オペレーターの詳細については、「Lakeflow Designer の組み込みオペレーター」を参照してください。独自のユーザー定義演算子を作成する方法の詳細については、「Lakeflow Designer のユーザー定義演算子」を参照してください。

オペレーターを接続する

2つの演算子を接続するには、出力ハンドル（演算子の右端にある小さな円）から入力ハンドル（次の演算子の左端にある小さな円）までクリックしてドラッグします。これは、データが最初の演算子から2番目の演算子へ流れることを指定するものです。データは、ビジュアルデータ準備プロセスにおいて左から右へと流れます。

LFDキャンバスには、2人のオペレーター間の接続状況が表示されている。

Join や Combine などの一部の演算子は複数の入力を受け入れます。

接続を削除するには、接続の上にカーソルを合わせ、表示されるツールバーのをクリックします。

Genie Codeを使用する

Lakeflow Designerで編集作業を行っている間はいつでも、Genie Codeへのプロンプトを作成して作業を補助することができます。See Genie Code.

LFD Genie Codeプロンプト

Genie Codeを使用する際、以下のボタンは追加機能を提供します。

：プロンプトの一部として使用するファイルを添付します。
: プロンプトの一部として使用するテーブルやファイルなどのオブジェクトを指定する場合に使用します。
新しいエージェントコンテキストで新しいチャットスレッドを開始します。
: 会話履歴のサイドペインを開き、エージェントが行っていることの詳細を表示します。

Genie Codeは、入力ボックスの上に最新の編集の1行の要約を表示します。

プレビュー結果

画面下部の出力ペインで結果を表示するには、任意の演算子を選択してください。ほとんどの演算子では、入力データは左側に、出力データは右側にあります。プロット、HTML、または画像など、表形式以外の結果を生成するオペレーターは、その出力を出力ペインに直接表示します。

出力ペインの表示コントロールを使用して、入力と出力（デフォルト）、入力のみ、または出力のみを切り替えます。結合ビューで、区切りをドラッグして入力ペインと出力ペインのサイズを変更します。

キャンバスの下にあるLFD出力ペイン。

By default, オペレーターはプレビュー用に限られたデータサンプルを処理します。出力ペインで スキャンされた行数 ドロップダウンメニューを使用して、処理する行数を制御します。

スキャンされた行数：制限 : 最初の N 個の入力行を処理します。ドロップダウンメニューの隣のフィールドに行数を指定します。
スキャンされた行数: 最大 : すべての入力行を処理します。

警告

行 スキャンを実行しても、Max は 完全な無制限のデータセットを使用してすべての上流オペレーターを再実行するため、時間がかかる場合があります。

「 スキャンされた行 」設定は、プレビュー処理のみを制御します。スケジュールされた実行とジョブの実行は、常に完全なデータセットを処理します。

結果を書き込みます

結果を書き込むには、**Output**演算子を追加します。 Output演算子は、Unity Catalogテーブルへの書き込み、結果をマテリアライズドビューとして発行、またはCSV、Excel、JSONファイルをUnity Catalogボリュームに書き込むことができます。

演算子メニューを開いて [出力] を選択するか、最後の演算子の横にある + を クリックして [出力] を選択します。
まだ接続されていない場合は、最後の変換の出力ハンドルを出力 オペレータ の入力ハンドルに接続します。
出力オペレーターをダブルクリックして、その構成ペインを開きます。
出力タイプ を選択し、送信先を構成します。テーブルの場合は、 テーブル名 を入力し、 出力場所 （カタログとスキーマ）を選択してから、 書き込みモード を選択します。
実行をクリックします。

出力タイプと書き込みモードの全セットについては、出力を参照してください。

本番運用でのスケジュールまたは実行

ワークフローをジョブとしてスケジュールすることで、自動化できます。上部メニューの [スケジュール] ボタンをクリックしてビジュアルデータ準備のスケジュール設定済みジョブを作成するか、ビジュアルデータ準備をより大きな Databricks ジョブにタスクとして追加します。

ビジュアルデータ準備を本番運用に移行し、Gitに保存し、宣言型自動化バンドルでデプロイし、環境間でパラメーター化する方法については、ビジュアルデータ準備ファイルを本番運用に移行するを参照してください。

LFDスケジュール制御により、ビジュアルデータ準備をジョブとして自動化できます。

ビジュアルデータ準備ファイルのインポートとエクスポート

ビジュアルデータの準備ファイルは、ワークスペースにネイティブに保存されます。それらをエクスポートおよびインポートして、ワークスペース間で移動したり、共有したりできます。

ビジュアルデータ準備ファイルをエクスポートするには：

右上隅にあるをクリックします。
「 ファイル 」>「 エクスポート 」を選択します。
ファイルは<file_name>.designer.ipynbとしてエクスポートされます。

ビジュアルデータ準備ファイルをインポートするには：

ワークスペースファイルシステムで、をクリックします。
「 インポート 」を選択します。
インポートするビジュアルデータ準備ファイルを選択します。

Git でビジュアルデータ準備ファイルをバージョン管理し、本番運用に移行する方法については、ビジュアルデータ準備ファイルを本番運用に移行するを参照してください。

ビジュアルデータ準備ファイルの名前を変更する

ビジュアルデータ準備ファイルの名前を変更するには、エディターの上部にある名前が表示されているtabをクリックし、新しい名前を入力します。

ビジュアルデータ準備ファイルを削除する

ビジュアルデータ準備ファイルを削除するには、ファイルのケバブメニューを開き、**ゴミ箱に移動**を選択します。

複数のビジュアルデータ準備ファイルを一度に削除するには、左側のナビゲーションから ワークスペース を開き、削除するファイルを選択し、リストの一番上にある ゴミ箱に移動 を選択します。

キャンバスで作業する際の追加のヒント

キャンバス上では、ビジュアルデータの準備を編集するのに役立つ以下の操作が利用できます。

**オペレーターの名前を変更する**：オペレーターの名前を変更するには、任意の構成ペインの上部にあるボックスをクリックします。分かりやすい名前は、ビジュアルデータプレップを一目で理解しやすくします。SQLオペレーターなど、一部のオペレーターは他のオペレーターの出力を名前で参照できます。
オペレーターのコピー ：オペレーターにカーソルを合わせ、をクリックするか、オペレーターを選択して Cmd/Ctrl+C を押してから Cmd/Ctrl+V を押します。
演算子を削除します : 演算子にカーソルを合わせ、その上に表示されるツールバーのをクリックするか、演算子を選択して Delete キーを押します。
自動レイアウト ：クリックヘッダーツールバーで、すべての演算子をコンパクトなレイアウトに自動的に配置します。
フィット表示 ：クリックヘッダーツールバーで、現在のビューポート内のすべての演算子を表示します。
元に戻す/やり直し ： Cmd/Ctrl+Z と Cmd/Ctrl+Shift+Z を押すか、ヘッダーツールバーの元に戻す/やり直しボタンを使用します。
コマンドパレットを開く ：macOS で Cmd+Shift+P または Windows で Ctrl+Shift+P を押すと、エディターのアクションにすばやくアクセスできます。
生成されたコードを表示 : 左メニューの Table of contents tabを開き、演算子を選択してから、 生成されたコード セクションを展開して、Designer がそのコードを生成するのを確認します。詳細については、目次を参照してください。
バージョン履歴を表示：右ペインのをクリックして、ビジュアルデータ準備のバージョン履歴を開きます。そこに変更が一覧表示されます。以下のバージョンと比較するバージョンを選択してください。

要件​

新しいビジュアルデータ準備を作成する​

データソースを追加する​

オペレーターの追加と設定​

オペレーターを接続する​

Genie Codeを使用する​

プレビュー結果​

結果を書き込みます​

本番運用でのスケジュールまたは実行​

ビジュアルデータ準備ファイルのインポートとエクスポート​

ビジュアルデータ準備ファイルの名前を変更する​

ビジュアルデータ準備ファイルを削除する​

キャンバスで作業する際の追加のヒント​

その他のリソース​

要件