bamboolib
このドキュメントは廃止されており、更新されない可能性があります。 bamboolib は非推奨です。 コード生成の詳細については、「 Databricks Assistant」を参照してください。
bamboolib は、Databricks Runtime 11.3 LTS 以降でサポートされています。
bamboolib は、Databricks ノートブック内からノーコードでデータ分析と変換を行うことができるユーザーインターフェースコンポーネントです。 bamboolib は、ユーザーがデータをより簡単に操作できるようにし、一般的なデータ ラングリング、探索、視覚化タスクを高速化します。 ユーザーがデータを使用してこの種のタスクを完了すると、bamboolib はバックグラウンドで Python コードを自動的に生成します。 ユーザーはこのコードを他のユーザーと共有でき、他のユーザーは自分のノートブックでこのコードを実行して、元のタスクをすばやく再現できます。 また、bamboolibを使用して、コーディング方法を知らなくても、元のタスクを追加のデータタスクで拡張することもできます。 コーディングの経験がある人は、このコードを拡張して、さらに洗練された結果を作成できます。
舞台裏では、bamboolibはIPythonカーネル 用のインタラクティブなHTMLウィジェットフレームワークであるipywidgets を使用しています。ipywidgets は IPython カーネル内で実行されます。
内容
必要条件
- 11.1 Databricks RuntimeDatabricks以降のDatabricksクラスター にアタッチ されている ノートブック 。
bamboolib
ライブラリはノートブックで使用できる必要があります。- PyPI から特定のクラスターにのみライブラリをインストールするには、クラスター ライブラリを参照してください。
%pip
コマンドを使用して、ライブラリを特定のノートブックでのみ使用できるようにするには、「 ノートブック スコープの Python ライブラリ」を参照してください。
クイックスタート
-
Python ノートブックを作成します。
-
要件を満たす クラスターにノートブック をアタッチ します。
-
ノートブックの最初の セルに次のコードを入力し、セル を実行します 。bamboolibワークスペースまたはクラスタリングに既にインストールされている場合は、この手順をスキップします。
Python%pip install bamboolib
-
ノートブックの 2 番目のセルに次のコードを入力し、セルを実行します。
Pythonimport bamboolib as bam
-
ノートブックの 3 番目のセルに次のコードを入力し、セルを実行します。
Pythonbam
または、既存のPandasデータフレーム を印刷bamboolib して、その特定の で使用するデータフレーム を表示することもできます。
- 主要なタスクを続行します。
ウォークスルー
bamboolib は単独で使用することも、既存のPandas データフレームと一緒に使用することもできます。
bamboolibを単独で使用する
このチュートリアルでは、bamboolib を使用して、サンプルの売上データ セットの内容をノートブックに表示します。次に、 bamboolib が自動的に生成する関連するノートブック コードの一部を使用してエクスペリメントします。 最後に、sales データ セットの内容のコピーをクエリして並べ替えます。
-
Python ノートブックを作成します。
-
要件を満たす クラスターにノートブック をアタッチ します。
-
ノートブックの最初の セルに次のコードを入力し、セル を実行します 。bamboolibワークスペースまたはクラスタリングに既にインストールされている場合は、この手順をスキップします。
Python%pip install bamboolib
-
ノートブックの 2 番目のセルに次のコードを入力し、セルを実行します。
Pythonimport bamboolib as bam
-
ノートブックの 3 番目のセルに次のコードを入力し、セルを実行します。
Pythonbam
-
[ ダミーデータの読み込み ] をクリックします。
-
( ダミーデータのロード ) ペインの [ Load a dummy data set for testing bamboolib] (テスト用のダミーデータセットをロード ) で、[ Sales データセット ] を選択します。
-
「実行」 をクリックします。
-
item_type Baby Food であるすべての行を表示します。
- [検索アクション ] リストで、[ 行のフィルター ] を選択します。
- [ 行のフィルター ] ペインの [選択 ] リスト ( その上) で、[ 行の選択] を選択します。
- 下のリストで 、[ item_type ] を選択します。
- item_type の横にある 選択 リストで、 値ありを選択します 。
- [値あり ] の横にある [値を選択 ] ボックスで、[ ベビーフード ] を選択します。
- 「実行」 をクリックします。
-
このクエリに対して自動的に生成された Python コードをコピーします。
- [ コピー コード ] をクリックします。
-
コードを貼り付けて変更します。
- ノートブックの 4 番目のセルに、コピーしたコードを貼り付けます。次のようになります。
Pythonimport pandas as pd
df = pd.read_csv(bam.sales_csv)
# Step: Keep rows where item_type is one of: Baby Food
df = df.loc[df['item_type'].isin(['Baby Food'])]- このコードに追加して、 order_prio が C の行のみが表示されるようにし、セルを実行します。
Pythonimport pandas as pd
df = pd.read_csv(bam.sales_csv)
# Step: Keep rows where item_type is one of: Baby Food
df = df.loc[df['item_type'].isin(['Baby Food'])]
# Add the following code.
# Step: Keep rows where order_prio is one of: C
df = df.loc[df['order_prio'].isin(['C'])]
df
このコードを書く代わりに、3 番目のセルで bamboolib を使用して、 order_prio が C の行のみを表示することで、同じことを行うこともできます。 この手順は、以前にbamboolibが自動的に生成したコードを拡張する例です。
-
行を地域 別に昇順で並べ替えます。
-
ウィジェットの 4 番目のセル内の [検索アクション ] リストで、[ 行の並べ替え] を選択します。
-
[列の並べ替え ] ペインの [ 列の選択 ] ボックスの一覧で、 地域 を選択します。
-
[region ] の横にあるリストで、[ ascending (A-Z)] を選択します。
-
「実行」 をクリックします。
-
これは、次のコードを自分で記述するのと同じです。
df = df.sort_values(by=['region'], ascending=[True])
df
また、3 番目のセルで bamboolib を使用して、 行を地域 ごとに昇順で並べ替えることもできます。 この手順では、bamboolib を使用して記述するコードを拡張する方法を示します。 bamboolibを使用すると、バックグラウンドで追加のコードが自動的に生成されるため、すでに拡張されているコードをさらに拡張できます。
- 主要なタスクを続行します。
既存の データフレーム で bamboolib を使用する
このチュートリアルでは、bamboolib を使用して、Pandas DataFrameの内容をノートブックに表示します。この DataFrame には、サンプルの売上データ セットのコピーが含まれています。次に、 bamboolib が自動的に生成する関連するノートブック コードの一部を使用してエクスペリメントします。 最後に、DataFrame の内容の一部をクエリして並べ替えます。
-
Python ノートブックを作成します。
-
要件を満たす クラスターにノートブック をアタッチ します。
-
ノートブックの最初の セルに次のコードを入力し、セル を実行します 。bamboolibワークスペースまたはクラスタリングに既にインストールされている場合は、この手順をスキップします。
Python%pip install bamboolib
-
ノートブックの 2 番目のセルに次のコードを入力し、セルを実行します。
Pythonimport bamboolib as bam
-
ノートブックの 3 番目のセルに次のコードを入力し、セルを実行します。
Pythonimport pandas as pd
df = pd.read_csv(bam.sales_csv)
dfbamboolib は pandas データフレームsのみをサポートしていることに注意してください。 PySpark データフレームをpandas データフレームに変換するには、PySpark データフレームで toPandas を呼び出します。 Spark データフレーム 上の Pandas API を Pandas データフレーム に変換するには、Spark データフレーム 上の Pandas API で to_pandas を呼び出します。
-
[ bamboolib UI を表示 ] をクリックします。
-
item_type Baby Food であるすべての行を表示します。
- [検索アクション ] リストで、[ 行のフィルター ] を選択します。
- [ 行のフィルター ] ペインの [選択 ] リスト ( その上) で、[ 行の選択] を選択します。
- 下のリストで 、[ item_type ] を選択します。
- item_type の横にある 選択 リストで、 値ありを選択します 。
- [値あり ] の横にある [値を選択 ] ボックスで、[ ベビーフード ] を選択します。
- 「実行」 をクリックします。
-
このクエリに対して自動的に生成された Python コードをコピーします。 これを行うには、データ プレビューの下にある [コードのコピー ] をクリックします。
-
コードを貼り付けて変更します。
-
ノートブックの 4 番目のセルに、コピーしたコードを貼り付けます。次のようになります。
Python# Step: Keep rows where item_type is one of: Baby Food
df = df.loc[df['item_type'].isin(['Baby Food'])] -
このコードに追加して、 order_prio が C の行のみが表示されるようにし、セルを実行します。
Python# Step: Keep rows where item_type is one of: Baby Food
df = df.loc[df['item_type'].isin(['Baby Food'])]
# Add the following code.
# Step: Keep rows where order_prio is one of: C
df = df.loc[df['order_prio'].isin(['C'])]
df
-
このコードを書く代わりに、3 番目のセルで bamboolib を使用して、 order_prio が C の行のみを表示することで、同じことを行うこともできます。 この手順は、以前にbamboolibが自動的に生成したコードを拡張する例です。
-
行を地域 別に昇順で並べ替えます。
ある。 ウィジェットの 4 番目のセル内で、[ 行の並べ替え] をクリックします。
-
[列の並べ替え ] ペインの [ 列の選択 ] ボックスの一覧で、 地域 を選択します。
-
[region ] の横にあるリストで、[ ascending (A-Z)] を選択します。
-
「実行」 をクリックします。
-
これは、次のコードを自分で記述するのと同じです。
df = df.sort_values(by=['region'], ascending=[True])
df
また、3 番目のセルで bamboolib を使用して、 行を地域 ごとに昇順で並べ替えることもできます。 この手順では、bamboolib を使用して記述するコードを拡張する方法を示します。 bamboolibを使用すると、バックグラウンドで追加のコードが自動的に生成されるため、すでに拡張されているコードをさらに拡張できます。
- 主要なタスクを続行します。
主なタスク
このセクションの内容:
- ウィジェットをセルに追加する
- ウィジェットをクリアする
- データ読み込みタスク
- データアクションタスク
- データアクション履歴タスク
- ウィジェットの現在の状態を DataFrame としてプログラムで再作成するコードを取得する
ウィジェットをセルに追加する
シナリオ : bamboolib ウィジェットをセルに表示します。
-
ノートブックが bamboolib の 要件を満たしている ことを確認します。
-
bamboolibワークスペースまたはクラスターにまだインストール されていない場合は、ノートブックのセル (できれば最初のセル) で次のコードを実行します。
Python%pip install bamboolib
-
ノートブックで、できればノートブックの 1 番目または 2 番目のセルで次のコードを実行します。
Pythonimport bamboolib as bam
-
オプション 1 : ウィジェットを表示するセルに、次のコードを追加してから、セルを実行します。
Pythonbam
ウィジェットは、コードの下のセルに表示されます。
又は:
オプション 2 : pandas のデータフレームへの参照を含むセルで、データフレームを印刷します。 たとえば、次の データフレーム 定義があると、セルを実行します。
Pythonimport pandas as pd
from datetime import datetime, date
df = pd.DataFrame({
'a': [ 1, 2, 3 ],
'b': [ 2., 3., 4. ],
'c': [ 'string1', 'string2', 'string3' ],
'd': [ date(2000, 1, 1), date(2000, 2, 1), date(2000, 3, 1) ],
'e': [ datetime(2000, 1, 1, 12, 0), datetime(2000, 1, 2, 12, 0), datetime(2000, 1, 3, 12, 0) ]
})
dfウィジェットは、コードの下のセルに表示されます。
bamboolib は pandas データフレームsのみをサポートしていることに注意してください。 PySpark データフレームをpandas データフレームに変換するには、PySpark データフレームで toPandas を呼び出します。 Spark データフレーム 上の Pandas API を Pandas データフレーム に変換するには、Spark データフレーム 上の Pandas API で to_pandas を呼び出します。
ウィジェットをクリアする
シナリオ : ウィジェットの内容をクリアしてから、新しいデータを既存のウィジェットに読み込もうとします。
オプション 1 : ターゲット ウィジェットを含むセル内で次のコードを実行します。
bam
ウィジェットがクリアされ、 [ Databricks : DBFS から CSV ファイルを読み取る ] ボタン、 [Databricks: データベース テーブルの読み込み ] ボタン、 [ ダミー データの読み込み ] ボタンが再表示されます。
エラー name 'bam' is not defined
が表示された場合は、ノートブック (できればノートブックの最初のセル) で次のコードを実行してから、もう一度やり直してください。
import bamboolib as bam
オプション 2 : pandas のデータフレームへの参照を含むセルで、セルを再度実行してデータフレームを再度印刷します。 ウィジェットがクリアされ、新しいデータが表示されます。
データ読み込みタスク
このセクションの内容:
サンプル データセットの内容をウィジェットに読み込みます
シナリオ : ウィジェットの機能をテストするために、サンプルデータ (たとえば、見せかけの販売データ) をウィジェットに読み込ませます。
- [ ダミーデータの読み込み ] をクリックします。
[ ダミー データの読み込み ] が表示されない場合は、 オプション 1 でウィジェットをクリア し、もう一度やり直してください。
-
( ダミーデータのロード ) ペインの [ Load a dummy data set for testing bamboolib] (bamboolib をテストするためのダミーデータセットのロード ) で、ロードするデータセットの名前を選択します。
-
[ データフレーム name ] に、テーブルの内容のプログラム識別子の名前を データフレーム として入力するか、デフォルトのプログラム識別子として df をそのまま使用します。
-
「実行」 をクリックします。
ウィジェットには、データセットの内容が表示されます。
現在のウィジェットを切り替えて、別のサンプルデータセットの内容を表示することができます。
- 現在のウィジェットで、[ ダミー データの読み込み ] タブをクリックします。
- 前の手順に従って、他のサンプル データセットのコンテンツをウィジェットに読み込みます。
CSV ファイルの内容をウィジェットに読み込みます
シナリオ : Databricks ワークスペース内の CSV ファイルの内容をウィジェットに読み込もうとします。
- [Databricks: DBFS から CSV ファイルを読み取る ] をクリックします。
[Databricks: DBFS から CSV ファイルを読み取る ] が表示されない場合は、オプション 1 でウィジェットをクリアし、もう一度やり直してください。
-
[ DBFS から CSV を読み取り ] ウィンドウで、ターゲット CSV ファイルが含まれている場所を参照します。
-
対象のCSVファイルを選択します。
-
[ Dataframe name ] に、CSV ファイルの内容のプログラム識別子の名前を DataFrame として入力するか、デフォルトのプログラム識別子として df をそのまま使用します。
-
[CSV 値の区切り記号 ] には、CSV ファイル内の値を区切る文字を入力するか、デフォルト値の区切り文字として , (カンマ)文字をそのまま使用します。
-
[小数点] には、CSV ファイル内の小数点を区切る文字を入力するか、 . (ドット) 文字をデフォルト値の区切り文字として使用します。
-
[行制限] の場合: 最初の N 行を読み取ります - 制限がない場合は空のままにし、 ウィジェットに読み取る最大行数を入力するか、デフォルトの行数として 100000 のままにするか、このボックスを空のままにして行制限を指定しません。
-
[ CSV ファイルを開く] をクリックします。
ウィジェットには、指定した設定に基づいて CSV ファイルの内容が表示されます。
現在のウィジェットを切り替えて、別のCSVファイルの内容を表示することができます。
- 現在のウィジェットで、[ DBFS から CSV を読み取る ] タブをクリックします。
- 上記の手順に従って、他の CSV ファイルの内容をウィジェットに読み込みます。
データベーステーブルの内容をウィジェットに読み込みます
シナリオ : Databricks ワークスペース内のデータベース テーブルの内容をウィジェットに読み込む必要があります。
- [Databricks: データベース テーブルの読み込み ] をクリックします。
[Databricks: データベース テーブルの読み込み ] が表示されない場合は、オプション 1 でウィジェットをクリアし、もう一度やり直してください。
-
[ Databricks: Load database table ] ペインの [ Database - left empty for デフォルト database ] に、ターゲット テーブルが配置されているデータベースの名前を入力します。または、このボックスを空のままにして デフォルト データベースを指定します。
-
[テーブル ] に、ターゲットテーブルの名前を入力します。
-
[行制限] の場合: 最初の N 行を読み取ります - 制限がない場合は空のままにし、 ウィジェットに読み取る最大行数を入力するか、デフォルトの行数として 100000 のままにするか、このボックスを空のままにして行制限を指定しません。
-
[ データフレーム name ] に、テーブルの内容のプログラム識別子の名前を データフレーム として入力するか、デフォルトのプログラム識別子として df をそのまま使用します。
-
「実行」 をクリックします。
ウィジェットには、指定した設定に基づいてテーブルの内容が表示されます。
現在のウィジェットを切り替えて、別のテーブルの内容を表示することができます。
- 現在のウィジェットで、[ Databricks: データベース テーブルの読み込み ] タブをクリックします。
- 前の手順に従って、他のテーブルの内容をウィジェットに読み込みます。
データアクションタスク
bamboolib には 50 を超えるデータアクションが用意されています。 以下は、より一般的な開始データアクションタスクの一部です。
このセクションの内容:
列の選択
シナリオ : 特定のテーブル列のみを名前別、データ型別、または正規表現に一致する列で表示したいとします。 たとえば、ダミーの Sales データセット で、 item_type
列と sales_channel
列のみを表示する場合や、列名に文字列 の _date
が含まれる列のみを表示するとします。
-
「 データ 」タブの「 検索アクション 」ドロップダウンリストで、次のいずれかの操作を行います。
- 「select 」と入力し、 [ 列の選択またはドロップ] を選択します。
- [列の選択またはドロップ ] を選択します。
-
[ 列の選択またはドロップ ] ペインの [選択 ] ドロップダウン リストで、[ 選択] を選択します。
-
ターゲットカラムの名前または包含基準を選択します。
-
[ データフレーム name ] に、テーブルの内容のプログラム識別子の名前を データフレーム として入力するか、デフォルトのプログラム識別子として df をそのまま使用します。
-
「実行」 をクリックします。
列の削除
シナリオ : 特定のテーブル列を名前、データ型、または正規表現に一致する列で非表示にします。 たとえば、ダミーの Sales データセット で、 order_prio
列、 order_date
列、 ship_date
列を非表示にするか、日時値のみを含むすべての列を非表示にするとします。
-
「 データ 」タブの「 検索アクション 」ドロップダウンリストで、次のいずれかの操作を行います。
- 「drop 」と入力し、 [ 列の選択またはドロップ ] を選択します。
- [列の選択またはドロップ ] を選択します。
-
[ 列の選択またはドロップ ] ペインの [選択 ] ドロップダウン リストで、[ ドロップ ] を選択します。
-
ターゲットカラムの名前または包含基準を選択します。
-
[ データフレーム name ] に、テーブルの内容のプログラム識別子の名前を データフレーム として入力するか、デフォルトのプログラム識別子として df をそのまま使用します。
-
「実行」 をクリックします。
行のフィルタリング
シナリオ : 一致する、または欠落している特定の列の値などの基準に基づいて、特定のテーブル行を表示または非表示にします。たとえば、ダミー の Sales データセット で、 item_type
列の値が Baby Food
に設定されている行のみを表示するとします。
-
「 データ 」タブの「 検索アクション 」ドロップダウンリストで、次のいずれかの操作を行います。
- 「filter 」と入力し、[ 行のフィルター ] を選択します。
- [行のフィルター ] を選択します。
-
[ 行のフィルター ] ペイン の上にある [選択] ドロップダウン リストで、[ 行の選択 ] または [行のドロップ] を選択します。
-
最初のフィルター条件を指定します。
-
別のフィルター条件を追加するには、[ 条件の追加 ] をクリックし、次のフィルター条件を指定します。 必要に応じて繰り返します。
-
[ データフレーム name ] に、テーブルの内容のプログラム識別子の名前を データフレーム として入力するか、デフォルトのプログラム識別子として df をそのまま使用します。
-
「実行」 をクリックします。
行の並べ替え
シナリオ : 1 つ以上の列内の値に基づいてテーブルの行を並べ替えます。たとえば、ダミーの Sales データセット で、 region
列の値の行を A から Z までのアルファベット順に表示するとします。
-
「 データ 」タブの「 検索アクション 」ドロップダウンリストで、次のいずれかの操作を行います。
- 「sort 」と入力し、[ 行の並べ替え] を選択します。
- [行の並べ替え] を選択します。
-
[列の並べ替え] パネルで、並べ替える最初の列と並べ替え順序を選択します。
-
別のソート基準を追加するには、「 列の追加 」をクリックし、次のソート基準を指定します。 必要に応じて繰り返します。
-
[ データフレーム name ] に、テーブルの内容のプログラム識別子の名前を データフレーム として入力するか、デフォルトのプログラム識別子として df をそのまま使用します。
-
「実行」 をクリックします。
行と列のグループ化タスク
このセクションの内容:
1 つの集計関数による行と列のグループ化
シナリオ : 計算されたグループ化ごとに行と列の結果を表示し、それらのグループにカスタム名を割り当てる必要があります。たとえば、ダミー の Sales データセット で、 country
列の値で行をグループ化し、同じ country
値を含む行の数を表示し、計算されたカウントのリストに country_count
という名前を付けるとします。
-
「 データ 」タブの「 検索アクション 」ドロップダウンリストで、次のいずれかの操作を行います。
- 「グループ 」と入力し、[ グループ by] と [集計 (名前変更あり)] を選択します。
- [グループ化と集計 (名前の変更あり)] を選択します。
-
[グループ化と列の名前変更] ウィンドウで、グループ化する列、最初の計算を選択し、必要に応じて計算列の名前を指定します。
-
別の計算を追加するには、[ 計算の追加 ] をクリックし、次の計算と列名を指定します。 必要に応じて繰り返します。
-
結果を保存する場所を指定します。
-
[ データフレーム name ] に、テーブルの内容のプログラム識別子の名前を データフレーム として入力するか、デフォルトのプログラム識別子として df をそのまま使用します。
-
「実行」 をクリックします。
複数の集計関数による行と列のグループ化
シナリオ : 行と列の結果を計算されたグループ化で表示したいとします。たとえば、ダミー の Sales データセット で、region
、 country
、sales_channel
列の値で行をグループ化し、同じ region
と country
の値を含む行の数を sales_channel
で示し、region
の一意の組み合わせでtotal_revenue
を表示するとします。 country
、およびsales_channel
。
-
「 データ 」タブの「 検索アクション 」ドロップダウンリストで、次のいずれかの操作を行います。
- 「グループ 」と入力し、[ グループ by] と [集計 (デフォルト)] を選択します。
- [グループ化と集計] (デフォルト) を選択します。
-
[Group by with column rename (グループ化 by と列の名前変更 )] ペインで、グループ化する列と最初の計算を選択します。
-
別の計算を追加するには、[ 計算の追加 ] をクリックし、次の計算を指定します。 必要に応じて繰り返します。
-
結果を保存する場所を指定します。
-
[ データフレーム name ] に、テーブルの内容のプログラム識別子の名前を データフレーム として入力するか、デフォルトのプログラム識別子として df をそのまま使用します。
-
「実行」 をクリックします。
欠損値のある行を削除する
シナリオ : 指定した列に欠損値がある行を削除する必要があります。 たとえば、ダミーの Sales データセット で、 item_type
値が欠落している行をすべて削除するとします。
-
「 データ 」タブの「 検索アクション 」ドロップダウンリストで、次のいずれかの操作を行います。
- 「drop 」または 「remove 」と入力し、[ 欠落している値をドロップ] を選択します。
- [欠損値の削除 ] を選択します。
-
[欠損値のドロップ ] ウィンドウで、列を選択して、その列に欠損値がある行を削除します。
-
[ データフレーム name ] に、テーブルの内容のプログラム識別子の名前を データフレーム として入力するか、デフォルトのプログラム識別子として df をそのまま使用します。
-
「実行」 をクリックします。
重複した行を削除する
シナリオ : 指定した列に重複する値を持つ行を削除する必要があります。 たとえば、ダミーの Sales データセット で、互いに完全に重複する行を削除するとします。
-
「 データ 」タブの「 検索アクション 」ドロップダウンリストで、次のいずれかの操作を行います。
- 「drop 」または 「remove 」と入力し、[ Drop/Remove duplicates ] を選択します。
- [重複の削除] を選択します。
-
[ 重複の削除] ウィンドウで、列を選択して、それらの列に重複する値を持つ行を削除し、重複する値を持つ最初の行と最後の行のどちらを保持するかを選択します。
-
[ データフレーム name ] に、テーブルの内容のプログラム識別子の名前を データフレーム として入力するか、デフォルトのプログラム識別子として df をそのまま使用します。
-
「実行」 をクリックします。
欠損値の検索と置換
シナリオ : 欠損値を、指定した列を持つ任意の行の置換値で置き換えます。 たとえば、ダミー の Sales データセット で、 item_type
列の値が欠損している行を値 Unknown Item Type
に置き換えるとします。
-
「 データ 」タブの「 検索アクション 」ドロップダウンリストで、次のいずれかの操作を行います。
- 「検索 」または 「置換 」と入力し、[ 欠損値の検索と置換 ] を選択します。
- [欠損値の検索と置換 ] を選択します。
-
[ Replace missing values ] ペインで、欠損値を置き換える列を選択し、置換値を指定します。
-
「実行」 をクリックします。
列の数式を作成する
シナリオ : 一意の数式を使用する列を作成します。 たとえば、 ダミーの Sales データセット で、各行の total_profit
列の値を units_sold
列の値で除算した結果を表示する profit_per_unit
という名前の列を作成するとします。
-
「 データ 」タブの「 検索アクション 」ドロップダウンリストで、次のいずれかの操作を行います。
- 「式 」と入力し、[ 新しい列の式 ] を選択します。
- 新しい列の式 を選択します。
-
[ Replace missing values ] ペインで、欠損値を置き換える列を選択し、置換値を指定します。
-
「実行」 をクリックします。
データアクション履歴タスク
このセクションの内容:
ウィジェットで実行されたアクションのリストを表示する
シナリオ : ウィジェットで行われたすべての変更の一覧を、最新の変更から順に表示します。
[履歴] をクリックします。アクションのリストが [変換履歴 ] ペインに表示されます。
ウィジェットで最後に行った操作を元に戻します
シナリオ : ウィジェットで行われた最新の変更を元に戻したい。
以下のいずれかを実行します。
- 反時計回りの矢印アイコンをクリックします。
- [履歴] をクリックし、[ 変換履歴 ] ウィンドウで [ 最後のステップを元に戻す ] をクリックします。
ウィジェットで最後に実行したアクションをやり直す
シナリオ : ウィジェットで行われた最新のリバートを元に戻したいとします。
以下のいずれかを実行します。
- 時計回りの矢印アイコンをクリックします。
- [履歴 ] をクリックし、[ 変換履歴 ] ウィンドウで [ 最後のステップの回復] をクリックします。
ウィジェットで最後に実行したアクションを変更する
シナリオ : ウィジェットで行われた最新の変更を変更したいとします。
-
以下のいずれかを実行します。
- 鉛筆アイコンをクリックします。
- [履歴] をクリックし、[ 変換履歴 ] ウィンドウで [ 最後のステップの編集 ] をクリックします。
-
必要な変更を行い、[ 実行] をクリックします。
ウィジェットの現在の状態を DataFrame としてプログラムで再作成するコードを取得する
シナリオ : 現在のウィジェットの状態をプログラムで再作成する Python コード ( Pandas DataFrameとして表されます) を取得する必要があります。 このコードをこのブックの別のセルで実行するか、まったく別のブックで実行する必要があります。
-
[ コードを取得 ] をクリックします。
-
[ コードのエクスポート ] パネルで、[ コードのコピー ] をクリックします。コードがシステムのクリップボードにコピーされます。
-
このブックの別のセルまたは別のブックにコードを貼り付けます。
-
この Pandas DataFrame をプログラムで操作するための追加のコードを記述し、セルを実行します。 たとえば、DataFrame の内容を表示するには、DataFrame がプログラムによって表されると仮定して
df
Python# Your pasted code here, followed by...
df
制限
詳細については 、ノートブック Databricks 既知の制限事項 を参照してください。