LakeFlow Designer の組み込みオペレーター
プレビュー
この機能は パブリック プレビュー段階です。
LakeFlow Designer には、一般的なデータの準備と変換タスクのための組み込みオペレーターが含まれています。 左側のサイドパネルにあるオペレーターメニューを開いてカテゴリ別にオペレーターを閲覧するか、パネル上部の 「オペレーターを検索...」 を使用してください。オペレーターをキャンバスに追加した後、オペレーターの設定ペインを開くには、それをダブルクリックするか、ポインターをその上に置いてクリックします。 ( 編集演算子 )
ソースと出力
ソース
Designerにデータをインポートします。ソース オペレーターはUnity Catalogテーブルまたはその他のサポートされているソースから読み取ります。 2つの段階があります。
- テーブルまたはファイルの選択 : テーブルまたはファイルを名前で検索するか、カタログとスキーマで参照します。このペインから新しいテーブルを作成することもできます。
- テーブルの概要 : テーブルを選択すると、構成ペインにテーブルの名前、所有者、最終更新時刻が表示されます。 [新しいデータ ソースを選択] をクリックしてソースを変更します。 ソースを変更すると、すべての下流演算子の出力キャッシュが無効になります。
データ取り込みオプションの全範囲については、 LakeFlow Designer へのデータの取り込み」を参照してください。
出力
Designer からデータをエクスポートし、結果をUnity Catalogのテーブルに書き込みます。
出力構成ペインで、以下を指定します。
- テーブル名 : 作成するテーブルの名前。
- 出力場所 : テーブルが作成されるカタログとスキーマ。
「実行」 をクリックしてビジュアルデータを実行し、結果を書き込みます。
AI機能
データに対して組み込みAI操作を実行します。 設定ペインで 「機能の選択」を 開き、以下の機能のいずれかを選択します。各関数は、入力(列、プロンプト、ラベル、言語など)と出力に関するオプションをペインに表示します。
関数 | 説明 |
|---|---|
| 入力テキストに対して感情分析を実行します。 |
| ユーザーが指定したラベルを使用して、テキストまたは解析済みドキュメントを分類します。 |
| 定義したフィールドを使用して、テキストまたは解析済みドキュメントから構造化データを抽出します。 |
| テキスト内の文法的な誤りを修正します。 |
| 入力内容に対して、ユーザーが指定したプロンプトに回答します。 |
| テキスト内の特定のエンティティをマスクします(たとえば、匿名化のため)。 |
| 2つの文字列を比較し、意味的な類似度スコアを返します。 |
| テキストの要約を生成します。 |
| 指定した言語にテキストを翻訳します。 |
変革
以下の演算子は、データに対して変換処理を実行します。
集計
データをグループ化し、集計値を計算することで、行を要約します。
- 集計方法 : 列を選択し、集計関数を選択して、出力列の名前を指定します。さらに追加するには、 「+ 集計を追加」 をクリックします。
- グループ化 : グループ化する列を選択します。 さらに追加するには、 「+ グループを追加」 をクリックします。
サポートされている集計関数: AVG、COUNT、MAX、MEAN、MEDIAN、MIN、PERCENTILE、STDDEV、SUM、VARIANCE。
Group by で使用される列は、出力に自動的に含まれます。
組み合わせる
スキーマが一致する2つのテーブルのデータを、1つの出力にマージします。
- 集合演算 : Union 、 Intersect 、または Except を選択します。
- マージ戦略 : 重複行を出力から除外するには 「Distinct」 を選択し、重複行を含むすべての行を保持するには 「All」 を選択します。
フィルター
グラフィカルな条件ビルダーを使用して、1つ以上の条件を満たす行のみを残すことで、一致する行を選択します。各条件について、 列 、 条件タイプ 、および条件一致させる 値 を選択してください。
サポートされている条件タイプ:
- 等しい / 等しくない
- 1つである / 1つではない
- 含む/含まない
- で始まる / で始まらない
- 終わる/終わらない
- より大きい / より小さい
- null です / null ではありません
参加する
一致する列値に基づいて2つの入力データセットを結合することにより、キーに基づいて2つのテーブルをリンクします。
参加を構成するには:
- 結合する 2 つの入力テーブルを選択します。
- 2 つのテーブルから一致する列を選択して、少なくとも 1 つの結合条件を指定します。さらに条件を追加するには、 「+ 結合式の追加」 をクリックします。
- 結合タイプ( 完全結合 、 内部結合 、 左結合 、または 右結合) を選択します。
- オプション: 出力に含める列を選択します。デフォルトでは、両方のテーブルのすべての列が含まれます。重複する列名にはテーブル名プレフィックスが付けられます。
- オプション: 結合された結果に基づいてカスタム式列を追加します。
制限
指定した最大行数までしか処理を通過させないことで、行数を制限します。
ピボット
表形式のデータを2つの方向に整形します。設定ペイン上部のタブを使用してモードを選択してください。
- 行 → 列 (ピボット): ある列の異なる値を新しい列ヘッダーに変換し、それらの列に別の列の集計値を入力します。
- 列 → 行 (アンピボット): 1 つ以上の列を行に折りたたみます。出力キー列と値列の名前を設定します。
行→列 モードで:
- ピボット列 :重複のない値が新しいヘッダーとなる列を選択します。
- 値と集計 :ピボットセルに値を入力する列を選択し、集計関数(SUM、AVG、COUNT、MIN、MAXなど)を選択します。ペインで設定可能な場合は、欠損値(例えば、nullやゼロ)の処理方法を設定します。
「列」→「行」 モードで、ピボット解除する列を選択し、出力キーと値の列名を設定します。
列を含める : テーブルを使用して、ピボットされた値またはピボットされていない値とともに出力に残す列を選択します(変換前に不要な列を削除します)。デザイナーは、ピボット、値、またはアンピボットの役割に割り当てられていない列から、固定(グループ化)列を推測します。
選別
1つまたは複数の列に基づいて行を並べ替えます。各列について、 ASC (昇順)または DESC (降順)を選択してください。 「+ 並べ替え式を追加」 をクリックすると、追加の列で並べ替えることができます。ソートは標準的な語彙順序に従います。
SQL
他の演算子でカバーされていない変換処理に対して、カスタムSQLコードを作成します。
エディタにSQL SELECT文を入力してください。入力演算子の出力を参照するには、クエリ内でその演算子の名前をテーブル名として使用します。例えば:
SELECT COUNT(*)
FROM aggregate_2
WHERE 1 = 1
クリックエディターのボタンをクリックすると、完全な SQL コード ペインが開き、ステートメントが完全なワークフローにどのように適合するかを確認できます。
変身
入力データから列を選択、作成、または変換します。
変換構成ペインで次の操作を行います。
- 列を含めるか除外するか : チェックボックスを使用して、出力に渡す列を選択します。ヘッダーのチェックボックスをクリックして、すべての列を選択するか、選択をクリアします。
- 列の名前を変更する : 任意の列の横にある「 名前の変更」 フィールドに新しい名前を入力します。
- 列 の順序を変更する : 行の左側にあるハンドルをドラッグして、列の順序を変更します。
- カスタム列を追加する : + カスタム列を追加 をクリックして、式エディターを開きます。以下を参照してください。
カスタム列
式エディタを使用すると、自然言語またはコードを使用して新しい列を定義できます。エディターには 2 つの入力ボックスがあり、双方向です。
- 説明 : 列に何を実行させたいかを自然言語で説明します。Designer は Genie を使用して、以下の対応するコード式を生成します。
- 式 : コードを直接記述または編集する場合は、式の編集ボタンをクリックします。式を編集すると、自然言語による説明が自動的に生成されます。
カスタム列を削除するには、その行にポインタを置いてクリックします。 。
Python
入力データに対してカスタムPython(PySpark)を実行します。コードはアップストリーム データセットをSpark DataFramesとして受け取り、単一のDataFrame result に割り当てる必要があります。これがこのオペレーターの出力になります。 設定パネルを使用して入力を接続し、エディタが提供するオプションを確認してください。
inputs["data"] これは、入力DataFramesの リスト であり、上流順になっています。 オペレーター詳細ペインには、各入力項目の名前が順番に表示されます。例えば、 Available inputs: inputs["data"][0] (customers), inputs["Data"][1] (sales) 。
最小限のパターンとしては、入力値が存在する場合は最初の入力値を使用し、存在しない場合は空のDataFrame使用する方法があります。
# inputs["data"] is a list of input DataFrames
result = inputs["data"][0] if inputs["data"] else spark.createDataFrame([], "col: string")
そこから、代入が終了する前にresultに対して DataFrame の操作 (例えば、 select 、 filter 、 withColumn 、または結合) を連鎖させたり、 result inputs["data"]から構築された新しい DataFrame に置き換えたりすることができます。
組織
注記
キャンバス上にメモを追加することで、ワークフロー自体を文書化できます。その目的、前提条件、注意点、または後でビジュアルデータ準備を開く人への引き継ぎ状況などです。注釈の内容はMarkdownに対応しているため、プレーンテキストだけでは不十分な箇所で、見出し、リスト、リンク、強調表示などを使用できます。注記は、オペレーターを通過するデータの流れに影響を与えません。
グループ
データフローを変更することなく、キャンバス上で演算子を視覚的にグループ化します。これは、ビジュアルデータ準備の規模が大きくなった場合や、論理的な段階を反映させたい場合に役立ちます。
グループを作成するには:
- 演算子をグループにドラッグする :1つまたは複数の演算子をグループにドラッグして追加します。
- 選択範囲からグループを作成する :1つまたは複数の演算子を選択し、コンテキストメニュー(右クリック)を開いて、[ 新しいグループを作成] を選択すると、選択範囲が新しいグループで囲まれます。
演算子をグループ化した後、グループに分かりやすい名前を付けたり、グループを 最小化 または 展開して キャンバス上にその内容を表示または非表示にしたりできます。