Lakeflow Designer とは何ですか?
プレビュー
この機能は パブリック プレビュー段階です。
Lakeflow Designerは、アナリストがデータ分析、データ準備、および基本的な自動化を実行するための視覚的なキャンバスを提供します。Designerでは、視覚的なデータ準備ファイルを作成します。各ファイルは、結果を生成するためにDAGとして配置された一連の演算子(フィルタ、結合、変換など)で構成されます。すべての変換はコードによってサポートされているため、 Gitでファイルのバージョンを管理し、それらをジョブとしてスケジュールして、本番運用にシームレスに移行できます。
Lakeflow Designer を使用すると、次のことが可能になります。
- ドラッグ&ドロップ式のキャンバスを使った デザインワークフロー 。
- 組み込み演算子を使用してデータをフィルタリング、集計、結合、および再形成することで 、コードを記述せずにデータを変換します 。
- Genie Code を使用すると 、自然言語を使ってビジュアルデータ準備における変換を生成または調整できます。
- パイプライン全体を実行せずに、 各中間ステップをプレビューできます 。

上の画像には、以下のものが写っています。
重要な概念
キャンバス
キャンバスは、オペレーターを追加、設定、接続してビジュアルデータ準備を構築するメインのワークスペースです。
キャンバス内を移動するには:
- パン : スペースキー を押しながらクリックしてドラッグするか、トラックパッド上で 2 本の指をスライドします。
- ズーム : トラックパッド上でピンチまたはストレッチするか、 Ctrl キー を押しながらスクロールします。
キャンバスツールバーは、キャンバスナビゲーションツールとともにヘッダー部分に配置されています。ズームイン、
ズームアウトして、
フィットビュー、
自動レイアウト、そして
ドラッグモード。
キャンバス上の任意の場所を右クリックすると、演算子の追加、元に戻すとやり直し、自動レイアウト、ビューの調整、コード ペインのオープンなどの一般的なアクションにアクセスできます。
Excel または CSV ファイルをキャンバスに直接ドラッグ アンド ドロップして、そのファイルのソース演算子を作成することもできます。
オペレーター
オペレーターはビジュアルデータの準備の構成要素です。演算子は、結合、変換、フィルタなどのアクションです。キャンバス上でオペレーターを連結して、ワークフローを構築できます。各演算子は、その種類に基づいて設定できます。演算子には、AI支援による効果の説明が表示されます。説明を編集すると、演算子が再構成されます。

Lakeflow Designer には、一般的なデータ変換タスク用の組み込み演算子が含まれています。 詳細については、 Lakeflow Designer の組み込み演算子」を参照してください。
接続
接続とは、オペレーター間でデータがどのように流れるかを定義するものです。接続を作成するには、一方の演算子の右端にある小さな円を、もう一方の演算子の左端にある小さな円にドラッグします。これは、データが最初の演算子から2番目の演算子へ流れることを指定するものです。データは、ビジュアルデータ準備プロセスにおいて左から右へと流れます。 Join や Combine などの一部の演算子は、複数の入力接続を受け入れます。

出力ペイン
オペレーターを選択すると、出力ペインが画面の下部に表示されます。いずれかの演算子を選択して、画面下部の出力ウィンドウで結果を確認します。ほとんどの演算子では、入力データは左側に、出力データは右側にあります。プロット、HTML、または画像など、表形式以外の結果を生成するオペレーターは、その出力を出力ペインに直接表示します。
出力ペインの表示コントロールを使用して、入力と出力(デフォルト)、入力のみ、または出力のみを切り替えます。結合ビューで、区切りをドラッグして入力ペインと出力ペインのサイズを変更します。
デフォルトでは、オペレーターは限られたデータサンプルを処理します。出力ペインの 「スキャンする行数」 ドロップダウンを使用して、処理する行数を制御します。
- スキャンされる行数:制限 :最初のN行の入力を処理します。ドロップダウンリストの横にある欄に、行数を指定してください。
- スキャンされた行数: 最大 : すべての入力行を処理します。

行 スキャンを実行しても、Max は 完全な無制限のデータセットを使用してすべての上流オペレーターを再実行するため、時間がかかる場合があります。
出力ペインでは、出力データの詳細を表示するかどうかを選択できます。出力ペインの右上隅で、サイドバーのボタンをクリックして、選択内容の詳細を開きます。選択したデータの詳細を表示するには、データの一部を選択してください。

Genie Code
Genie Codeは、自然言語で変換を記述できます。すべてのインタラクションはエージェント指向であり、Databricks プラットフォームからのコンテキストを使用します。See Genie Code.

変換を生成または修正するプロンプトを入力します。Genie Codeのやり取りの履歴を表示し、各応答の詳細を確認するには、右サイドバーのをクリックしてGenie Codeサイドペインを開きます。サイドペインが開いているとき、キャンバス内ツールバーは最小化されます。Genie Codeは、入力ボックスの上に最新の編集の1行の要約を表示します。
パラメーター
パラメーターは、ビジュアルデータプレップ全体に対して定義され、SQLおよびPythonオペレーターから参照できる名前付きの値です。パラメーターを管理するには、左側のペインの**オペレーター** タブの横にある**パラメーター**タブを開きます。
各パラメーターには、定義するときに設定する値があります。ビジュアルデータの準備をスケジュールして実行する際、各スケジュールで必要に応じてこれらの値を上書きできます。例えば、同じビジュアルデータの準備を、environmentパラメーターをtestに設定して毎日正午に実行するように、またenvironmentをproductionに設定して午後2時に実行するようにスケジュール設定できます。
オペレーターからパラメーターを次のように参照します。
- SQL operator : Use named パラメーター marker syntax, such as
:environment. 名前付きパラメーターマーカーの使用を参照してください。 - Python演算子 :
dbutils.widgets.get("environment")のようなdbutils.widgets.get()を呼び出します。「ウィジェット・ユーティリティ(dbutils.widgets)」を参照してください。
SQLまたはPythonオペレーターを編集するために開くと、Designerはソースエディターの上に利用可能なパラメーターを参照する方法の例を表示します。