bamboolib

important

このドキュメントは廃止されており、更新されない可能性があります。 bamboolib は非推奨です。コード生成の詳細については、「 Databricks Assistant」を参照してください。

注記

bamboolib は、Databricks Runtime 11.3 LTS 以降でサポートされています。

bamboolib は、Databricks ノートブック内からノーコードでデータ分析と変換を行うことができるユーザーインターフェースコンポーネントです。 bamboolib は、ユーザーがデータをより簡単に操作できるようにし、一般的なデータラングリング、探索、視覚化タスクを高速化します。ユーザーがデータを使用してこの種のタスクを完了すると、bamboolib はバックグラウンドで Python コードを自動的に生成します。ユーザーはこのコードを他のユーザーと共有でき、他のユーザーは自分のノートブックでこのコードを実行して、元のタスクをすばやく再現できます。また、bamboolibを使用して、コーディング方法を知らなくても、元のタスクを追加のデータタスクで拡張することもできます。コーディングの経験がある人は、このコードを拡張して、さらに洗練された結果を作成できます。

舞台裏では、bamboolibはIPythonカーネル用のインタラクティブなHTMLウィジェットフレームワークであるipywidgets を使用しています。ipywidgets は IPython カーネル内で実行されます。

内容

要件
クイックスタート
ウォークスルー
主なタスク
制限事項
関連リソース

必要条件

11.0 Databricks RuntimeDatabricks以降のDatabricksクラスターにアタッチされているノートブック。
bamboolib ライブラリはノートブックで使用できる必要があります。
- PyPI から特定のクラスタリングにのみライブラリをインストールするには、「コンピュートスコープのライブラリ」を参照してください。
- %pip コマンドを使用して、ライブラリを特定のノートブックでのみ使用できるようにするには、「ノートブックスコープの Python ライブラリ」を参照してください。

クイックスタート

Python ノートブックを作成します。
要件を満たすクラスターにノートブックをアタッチします。
ノートブックの最初のセルに次のコードを入力し、セルを実行します。bamboolibワークスペースまたはクラスターに既にインストールされている場合は、この手順をスキップします。
Python
```
%pip install bamboolib
```
ノートブックの 2 番目のセルに次のコードを入力し、セルを実行します。
Python
```
import bamboolib as bam
```
ノートブックの 3 番目のセルに次のコードを入力し、セルを実行します。
Python
```
bam
```

注記

または、既存のPandasデータフレームを印刷bamboolib して、その特定ので使用するデータフレームを表示することもできます。

主要なタスクを続行します。

ウォークスルー

bamboolib は単独で使用することも、既存のPandas データフレームと一緒に使用することもできます。

bamboolibを単独で使用する

このチュートリアルでは、bamboolib を使用して、サンプルの売上データセットの内容をノートブックに表示します。次に、 bamboolib が自動的に生成する関連するノートブックコードの一部を使用してエクスペリメントします。最後に、sales データセットの内容のコピーをクエリして並べ替えます。

Python ノートブックを作成します。
要件を満たすクラスターにノートブックをアタッチします。
ノートブックの最初のセルに次のコードを入力し、セルを実行します。bamboolibワークスペースまたはクラスターに既にインストールされている場合は、この手順をスキップします。
Python
```
%pip install bamboolib
```
ノートブックの 2 番目のセルに次のコードを入力し、セルを実行します。
Python
```
import bamboolib as bam
```
ノートブックの 3 番目のセルに次のコードを入力し、セルを実行します。
Python
```
bam
```
[ ダミーデータの読み込み ] をクリックします。
( ダミーデータのロード ) ペインの [ Load a dummy data set for testing bamboolib] (テスト用のダミーデータセットをロード ) で、[ Sales データセット ] を選択します。
「実行」 をクリックします。
item_type Baby Food であるすべての行を表示します。
1. [検索アクション ] リストで、[ 行のフィルター ] を選択します。
2. [ 行のフィルター ] ペインの [選択 ] リスト ( その上) で、[ 行の選択] を選択します。
3. 下のリストで 、[ item_type ] を選択します。
4. item_type の横にある選択リストで、 値ありを選択します 。
5. [値あり ] の横にある [値を選択 ] ボックスで、[ ベビーフード ] を選択します。
6. 「実行」 をクリックします。
このクエリに対して自動的に生成された Python コードをコピーします。
1. [ コピーコード ] をクリックします。

コードを貼り付けて変更します。

ノートブックの 4 番目のセルに、コピーしたコードを貼り付けます。次のようになります。

Python
import pandas as pd
df = pd.read_csv(bam.sales_csv)
# Step: Keep rows where item_type is one of: Baby Food
df = df.loc[df['item_type'].isin(['Baby Food'])]

このコードに追加して、 order_prio が C の行のみが表示されるようにし、セルを実行します。

Python
import pandas as pd
df = pd.read_csv(bam.sales_csv)
# Step: Keep rows where item_type is one of: Baby Food
df = df.loc[df['item_type'].isin(['Baby Food'])]

# Add the following code.
# Step: Keep rows where order_prio is one of: C
df = df.loc[df['order_prio'].isin(['C'])]
df

ヒント

このコードを書く代わりに、3 番目のセルで bamboolib を使用して、 order_prio が C の行のみを表示することで、同じことを行うこともできます。この手順は、以前にbamboolibが自動的に生成したコードを拡張する例です。

行を地域 別に昇順で並べ替えます。
1. ウィジェットの 4 番目のセル内の [検索アクション ] リストで、[ 行の並べ替え] を選択します。
2. [列の並べ替え ] ペインの [ 列の選択 ] ボックスの一覧で、地域を選択します。
3. [region ] の横にあるリストで、[ ascending (A-Z)] を選択します。
4. 「実行」 をクリックします。

注記

これは、次のコードを自分で記述するのと同じです。

Python
df = df.sort_values(by=['region'], ascending=[True])
df

また、3 番目のセルで bamboolib を使用して、 行を地域 ごとに昇順で並べ替えることもできます。この手順では、bamboolib を使用して記述するコードを拡張する方法を示します。 bamboolibを使用すると、バックグラウンドで追加のコードが自動的に生成されるため、すでに拡張されているコードをさらに拡張できます。

主要なタスクを続行します。

既存のデータフレームで bamboolib を使用する

このチュートリアルでは、bamboolib を使用して、Pandas DataFrameの内容をノートブックに表示します。この DataFrame には、サンプルの売上データセットのコピーが含まれています。次に、 bamboolib が自動的に生成する関連するノートブックコードの一部を使用してエクスペリメントします。最後に、DataFrame の内容の一部をクエリして並べ替えます。

Python ノートブックを作成します。
要件を満たすクラスターにノートブックをアタッチします。
ノートブックの最初のセルに次のコードを入力し、セルを実行します。bamboolibワークスペースまたはクラスターに既にインストールされている場合は、この手順をスキップします。
Python
```
%pip install bamboolib
```
ノートブックの 2 番目のセルに次のコードを入力し、セルを実行します。
Python
```
import bamboolib as bam
```
ノートブックの 3 番目のセルに次のコードを入力し、セルを実行します。
Python
```
import pandas as pd

df = pd.read_csv(bam.sales_csv)
df
```
bamboolib は pandas データフレームsのみをサポートしていることに注意してください。 PySpark データフレームをpandas データフレームに変換するには、PySpark データフレームで toPandas を呼び出します。 Spark データフレーム上の Pandas API を Pandas データフレームに変換するには、Spark データフレーム上の Pandas API で to_pandas を呼び出します。
[ bamboolib UI を表示 ] をクリックします。
item_type Baby Food であるすべての行を表示します。
1. [検索アクション ] リストで、[ 行のフィルター ] を選択します。
2. [ 行のフィルター ] ペインの [選択 ] リスト ( その上) で、[ 行の選択] を選択します。
3. 下のリストで 、[ item_type ] を選択します。
4. item_type の横にある選択リストで、 値ありを選択します 。
5. [値あり ] の横にある [値を選択 ] ボックスで、[ ベビーフード ] を選択します。
6. 「実行」 をクリックします。
このクエリに対して自動的に生成された Python コードをコピーします。これを行うには、データプレビューの下にある [コードのコピー ] をクリックします。

コードを貼り付けて変更します。

ノートブックの 4 番目のセルに、コピーしたコードを貼り付けます。次のようになります。
Python
```
# Step: Keep rows where item_type is one of: Baby Food
df = df.loc[df['item_type'].isin(['Baby Food'])]
```

このコードに追加して、 order_prio が C の行のみが表示されるようにし、セルを実行します。

Python
# Step: Keep rows where item_type is one of: Baby Food
df = df.loc[df['item_type'].isin(['Baby Food'])]

# Add the following code.
# Step: Keep rows where order_prio is one of: C
df = df.loc[df['order_prio'].isin(['C'])]
df

ヒント

行を地域 別に昇順で並べ替えます。

ある。ウィジェットの 4 番目のセル内で、[ 行の並べ替え] をクリックします。
1. [列の並べ替え ] ペインの [ 列の選択 ] ボックスの一覧で、地域を選択します。
2. [region ] の横にあるリストで、[ ascending (A-Z)] を選択します。
3. 「実行」 をクリックします。

注記

これは、次のコードを自分で記述するのと同じです。

Python
df = df.sort_values(by=['region'], ascending=[True])
df

主要なタスクを続行します。

主なタスク

このセクションの内容：

ウィジェットをセルに追加する
ウィジェットをクリアする
データ読み込みタスク
データアクションタスク
データアクション履歴タスク
ウィジェットの現在の状態を DataFrame としてプログラムで再作成するコードを取得する

ウィジェットをセルに追加する

シナリオ : bamboolib ウィジェットをセルに表示します。

ノートブックが bamboolib の要件を満たしていることを確認します。
bamboolibワークスペースまたはクラスターにまだインストールされていない場合は、ノートブックのセル (できれば最初のセル) で次のコードを実行します。
Python
```
%pip install bamboolib
```
ノートブックで、できればノートブックの 1 番目または 2 番目のセルで次のコードを実行します。
Python
```
import bamboolib as bam
```
オプション 1 : ウィジェットを表示するセルに、次のコードを追加してから、セルを実行します。
Python
```
bam
```
ウィジェットは、コードの下のセルに表示されます。

又は：

オプション 2 : pandas のデータフレームへの参照を含むセルで、データフレームを印刷します。たとえば、次のデータフレーム定義があると、セルを実行します。
Python
```
import pandas as pd
from datetime import datetime, date

df = pd.DataFrame({
  'a': [ 1, 2, 3 ],
  'b': [ 2., 3., 4. ],
  'c': [ 'string1', 'string2', 'string3' ],
  'd': [ date(2000, 1, 1), date(2000, 2, 1), date(2000, 3, 1) ],
  'e': [ datetime(2000, 1, 1, 12, 0), datetime(2000, 1, 2, 12, 0), datetime(2000, 1, 3, 12, 0) ]
})

df
```
ウィジェットは、コードの下のセルに表示されます。

bamboolib は pandas データフレームsのみをサポートしていることに注意してください。 PySpark データフレームをpandas データフレームに変換するには、PySpark データフレームで toPandas を呼び出します。 Spark データフレーム上の Pandas API を Pandas データフレームに変換するには、Spark データフレーム上の Pandas API で to_pandas を呼び出します。

ウィジェットをクリアする

シナリオ : ウィジェットの内容をクリアしてから、新しいデータを既存のウィジェットに読み込もうとします。

オプション 1 : ターゲットウィジェットを含むセル内で次のコードを実行します。

Python

bam

ウィジェットがクリアされ、 [ Databricks : DBFS から CSV ファイルを読み取る ] ボタン、 [Databricks: データベーステーブルの読み込み ] ボタン、 [ ダミーデータの読み込み ] ボタンが再表示されます。

注記

エラー name 'bam' is not defined が表示された場合は、ノートブック (できればノートブックの最初のセル) で次のコードを実行してから、もう一度やり直してください。

Python
import bamboolib as bam

オプション 2 : pandas のデータフレームへの参照を含むセルで、セルを再度実行してデータフレームを再度印刷します。ウィジェットがクリアされ、新しいデータが表示されます。

データ読み込みタスク

このセクションの内容：

サンプルデータセットの内容をウィジェットに読み込みます
CSV ファイルの内容をウィジェットに読み込みます
データベーステーブルの内容をウィジェットに読み込みます

サンプルデータセットの内容をウィジェットに読み込みます

シナリオ : ウィジェットの機能をテストするために、サンプルデータ (たとえば、見せかけの販売データ) をウィジェットに読み込ませます。

[ ダミーデータの読み込み ] をクリックします。

注記

[ ダミーデータの読み込み ] が表示されない場合は、オプション 1 でウィジェットをクリアし、もう一度やり直してください。

( ダミーデータのロード ) ペインの [ Load a dummy data set for testing bamboolib] (bamboolib をテストするためのダミーデータセットのロード ) で、ロードするデータセットの名前を選択します。
[ Dataframe name ] に、テーブルの内容のプログラム識別子の名前を DataFrame として入力するか、デフォルトのプログラム識別子として df をそのまま使用します。
「実行」 をクリックします。

ウィジェットには、データセットの内容が表示されます。

ヒント

現在のウィジェットを切り替えて、別のサンプルデータセットの内容を表示することができます。

現在のウィジェットで、[ ダミーデータの読み込み ] タブをクリックします。
前の手順に従って、他のサンプルデータセットのコンテンツをウィジェットに読み込みます。

CSV ファイルの内容をウィジェットに読み込みます

シナリオ : Databricks ワークスペース内の CSV ファイルの内容をウィジェットに読み込もうとします。

[Databricks: DBFS から CSV ファイルを読み取る ] をクリックします。

注記

[Databricks: DBFS から CSV ファイルを読み取る ] が表示されない場合は、オプション 1 でウィジェットをクリアし、もう一度やり直してください。

[ DBFS から CSV を読み取り ] ウィンドウで、ターゲット CSV ファイルが含まれている場所を参照します。
対象のCSVファイルを選択します。
[ Dataframe name ] に、CSV ファイルの内容のプログラム識別子の名前を DataFrame として入力するか、デフォルトのプログラム識別子として df をそのまま使用します。
[CSV 値の区切り記号 ] には、CSV ファイル内の値を区切る文字を入力するか、デフォルト値の区切り文字として , (カンマ)文字をそのまま使用します。
[小数点] には、CSV ファイル内の小数点を区切る文字を入力するか、 . (ドット) 文字をデフォルト値の区切り文字として使用します。
[行制限] の場合: 最初の N 行を読み取ります - 制限がない場合は空のままにし、 ウィジェットに読み取る最大行数を入力するか、デフォルトの行数として 100000 のままにするか、このボックスを空のままにして行制限を指定しません。
[ CSV ファイルを開く] をクリックします。

ウィジェットには、指定した設定に基づいて CSV ファイルの内容が表示されます。

ヒント

現在のウィジェットを切り替えて、別のCSVファイルの内容を表示することができます。

現在のウィジェットで、[ DBFS から CSV を読み取る ] タブをクリックします。
上記の手順に従って、他の CSV ファイルの内容をウィジェットに読み込みます。

データベーステーブルの内容をウィジェットに読み込みます

シナリオ : Databricks ワークスペース内のデータベーステーブルの内容をウィジェットに読み込む必要があります。

[Databricks: データベーステーブルの読み込み ] をクリックします。

注記

[Databricks: データベーステーブルの読み込み ] が表示されない場合は、オプション 1 でウィジェットをクリアし、もう一度やり直してください。

[ Databricks: Load database table ] ペインの [ Database - left empty for デフォルト database ] に、ターゲットテーブルが配置されているデータベースの名前を入力します。または、このボックスを空のままにして デフォルト データベースを指定します。
[テーブル ] に、ターゲットテーブルの名前を入力します。
[行制限] の場合: 最初の N 行を読み取ります - 制限がない場合は空のままにし、 ウィジェットに読み取る最大行数を入力するか、デフォルトの行数として 100000 のままにするか、このボックスを空のままにして行制限を指定しません。
[ Dataframe name ] に、テーブルの内容のプログラム識別子の名前を DataFrame として入力するか、デフォルトのプログラム識別子として df をそのまま使用します。
「実行」 をクリックします。

ウィジェットには、指定した設定に基づいてテーブルの内容が表示されます。

ヒント

現在のウィジェットを切り替えて、別のテーブルの内容を表示することができます。

現在のウィジェットで、[ Databricks: データベーステーブルの読み込み ] タブをクリックします。
前の手順に従って、他のテーブルの内容をウィジェットに読み込みます。

データアクションタスク

bamboolib には 50 を超えるデータアクションが用意されています。以下は、より一般的な開始データアクションタスクの一部です。

このセクションの内容：

列を選択
列の削除
行のフィルタリング
行の並べ替え
行と列のグループ化タスク
欠損値のある行を削除する
重複した行を削除する
欠損値の検索と置換
列の数式を作成する

列の選択

シナリオ : 特定のテーブル列のみを名前別、データ型別、または正規表現に一致する列で表示したいとします。たとえば、ダミーの Sales データセット で、 item_type 列と sales_channel 列のみを表示する場合や、列名に文字列の _date が含まれる列のみを表示するとします。

「 データ 」タブの「 検索アクション 」ドロップダウンリストで、次のいずれかの操作を行います。
- 「select 」と入力し、 [ 列の選択またはドロップ] を選択します。
- [列の選択またはドロップ ] を選択します。
[ 列の選択またはドロップ ] ペインの [選択 ] ドロップダウンリストで、[ 選択] を選択します。
ターゲットカラムの名前または包含基準を選択します。
[ Dataframe name ] に、テーブルの内容のプログラム識別子の名前を DataFrame として入力するか、デフォルトのプログラム識別子として df をそのまま使用します。
「実行」 をクリックします。

列の削除

シナリオ : 特定のテーブル列を名前、データ型、または正規表現に一致する列で非表示にします。たとえば、ダミーの Sales データセット で、 order_prio列、 order_date列、 ship_date 列を非表示にするか、日時値のみを含むすべての列を非表示にするとします。

「 データ 」タブの「 検索アクション 」ドロップダウンリストで、次のいずれかの操作を行います。
- 「drop 」と入力し、 [ 列の選択またはドロップ ] を選択します。
- [列の選択またはドロップ ] を選択します。
[ 列の選択またはドロップ ] ペインの [選択 ] ドロップダウンリストで、[ ドロップ ] を選択します。
ターゲットカラムの名前または包含基準を選択します。
[ Dataframe name ] に、テーブルの内容のプログラム識別子の名前を DataFrame として入力するか、デフォルトのプログラム識別子として df をそのまま使用します。
「実行」 をクリックします。

行のフィルタリング

シナリオ : 一致する、または欠落している特定の列の値などの基準に基づいて、特定のテーブル行を表示または非表示にします。たとえば、ダミー の Sales データセット で、 item_type 列の値が Baby Foodに設定されている行のみを表示するとします。

「 データ 」タブの「 検索アクション 」ドロップダウンリストで、次のいずれかの操作を行います。
- 「filter 」と入力し、[ 行のフィルター ] を選択します。
- [行のフィルター ] を選択します。
[ 行のフィルター ] ペイン の上にある [選択] ドロップダウンリストで、[ 行の選択 ] または [行のドロップ] を選択します。
最初のフィルター条件を指定します。
別のフィルター条件を追加するには、[ 条件の追加 ] をクリックし、次のフィルター条件を指定します。必要に応じて繰り返します。
[ Dataframe name ] に、テーブルの内容のプログラム識別子の名前を DataFrame として入力するか、デフォルトのプログラム識別子として df をそのまま使用します。
「実行」 をクリックします。

行の並べ替え

シナリオ : 1 つ以上の列内の値に基づいてテーブルの行を並べ替えます。たとえば、ダミーの Sales データセット で、 region 列の値の行を A から Z までのアルファベット順に表示するとします。

「 データ 」タブの「 検索アクション 」ドロップダウンリストで、次のいずれかの操作を行います。
- 「sort 」と入力し、[ 行の並べ替え] を選択します。
- [行の並べ替え] を選択します。
[列の並べ替え] パネルで、並べ替える最初の列と並べ替え順序を選択します。
別のソート基準を追加するには、「 列の追加 」をクリックし、次のソート基準を指定します。必要に応じて繰り返します。
[ Dataframe name ] に、テーブルの内容のプログラム識別子の名前を DataFrame として入力するか、デフォルトのプログラム識別子として df をそのまま使用します。
「実行」 をクリックします。

行と列のグループ化タスク

このセクションの内容：

1 つの集計関数による行と列のグループ化
複数の集計関数による行と列のグループ化

1 つの集計関数による行と列のグループ化

シナリオ : 計算されたグループ化ごとに行と列の結果を表示し、それらのグループにカスタム名を割り当てる必要があります。たとえば、ダミー の Sales データセット で、 country 列の値で行をグループ化し、同じ country 値を含む行の数を表示し、計算されたカウントのリストに country_countという名前を付けるとします。

「 データ 」タブの「 検索アクション 」ドロップダウンリストで、次のいずれかの操作を行います。
- 「グループ 」と入力し、[ グループ by] と [集計 (名前変更あり)] を選択します。
- [グループ化と集計 (名前の変更あり)] を選択します。
[グループ化と列の名前変更] ウィンドウで、グループ化する列、最初の計算を選択し、必要に応じて計算列の名前を指定します。
別の計算を追加するには、[ 計算の追加 ] をクリックし、次の計算と列名を指定します。必要に応じて繰り返します。
結果を保存する場所を指定します。
[ Dataframe name ] に、テーブルの内容のプログラム識別子の名前を DataFrame として入力するか、デフォルトのプログラム識別子として df をそのまま使用します。
「実行」 をクリックします。

複数の集計関数による行と列のグループ化

シナリオ : 行と列の結果を計算されたグループ化で表示したいとします。たとえば、ダミー の Sales データセット で、region、 country、sales_channel 列の値で行をグループ化し、同じ region と country の値を含む行の数を sales_channelで示し、regionの一意の組み合わせでtotal_revenueを表示するとします。 country、およびsales_channel。

「 データ 」タブの「 検索アクション 」ドロップダウンリストで、次のいずれかの操作を行います。
- 「グループ 」と入力し、[ グループ by] と [集計 (デフォルト)] を選択します。
- [グループ化と集計] (デフォルト) を選択します。
[Group by with column rename (グループ化 by と列の名前変更 )] ペインで、グループ化する列と最初の計算を選択します。
別の計算を追加するには、[ 計算の追加 ] をクリックし、次の計算を指定します。必要に応じて繰り返します。
結果を保存する場所を指定します。
[ Dataframe name ] に、テーブルの内容のプログラム識別子の名前を DataFrame として入力するか、デフォルトのプログラム識別子として df をそのまま使用します。
「実行」 をクリックします。

欠損値のある行を削除する

シナリオ : 指定した列に欠損値がある行を削除する必要があります。たとえば、ダミーの Sales データセット で、 item_type 値が欠落している行をすべて削除するとします。

「 データ 」タブの「 検索アクション 」ドロップダウンリストで、次のいずれかの操作を行います。
- 「drop 」または 「remove 」と入力し、[ 欠落している値をドロップ] を選択します。
- [欠損値の削除 ] を選択します。
[欠損値のドロップ ] ウィンドウで、列を選択して、その列に欠損値がある行を削除します。
[ Dataframe name ] に、テーブルの内容のプログラム識別子の名前を DataFrame として入力するか、デフォルトのプログラム識別子として df をそのまま使用します。
「実行」 をクリックします。

重複した行を削除する

シナリオ : 指定した列に重複する値を持つ行を削除する必要があります。たとえば、ダミーの Sales データセット で、互いに完全に重複する行を削除するとします。

「 データ 」タブの「 検索アクション 」ドロップダウンリストで、次のいずれかの操作を行います。
- 「drop 」または 「remove 」と入力し、[ Drop/Remove duplicates ] を選択します。
- [重複の削除] を選択します。
[ 重複の削除] ウィンドウで、列を選択して、それらの列に重複する値を持つ行を削除し、重複する値を持つ最初の行と最後の行のどちらを保持するかを選択します。
[ Dataframe name ] に、テーブルの内容のプログラム識別子の名前を DataFrame として入力するか、デフォルトのプログラム識別子として df をそのまま使用します。
「実行」 をクリックします。

欠損値の検索と置換

シナリオ : 欠損値を、指定した列を持つ任意の行の置換値で置き換えます。たとえば、ダミー の Sales データセット で、 item_type 列の値が欠損している行を値 Unknown Item Typeに置き換えるとします。

「 データ 」タブの「 検索アクション 」ドロップダウンリストで、次のいずれかの操作を行います。
- 「検索 」または 「置換 」と入力し、[ 欠損値の検索と置換 ] を選択します。
- [欠損値の検索と置換 ] を選択します。
[ Replace missing values ] ペインで、欠損値を置き換える列を選択し、置換値を指定します。
「実行」 をクリックします。

列の数式を作成する

シナリオ : 一意の数式を使用する列を作成します。たとえば、 ダミーの Sales データセット で、各行の total_profit 列の値を units_sold 列の値で除算した結果を表示する profit_per_unit という名前の列を作成するとします。

「 データ 」タブの「 検索アクション 」ドロップダウンリストで、次のいずれかの操作を行います。
- 「式」と入力し、[ 新しい列の式 ] を選択します。
- 新しい列の式 を選択します。
[ Replace missing values ] ペインで、欠損値を置き換える列を選択し、置換値を指定します。
「実行」 をクリックします。

データアクション履歴タスク

このセクションの内容：

ウィジェットで実行されたアクションのリストを表示する
ウィジェットで最後に行った操作を元に戻します
ウィジェットで最後に実行したアクションをやり直す
ウィジェットで最後に実行したアクションを変更する

ウィジェットで実行されたアクションのリストを表示する

シナリオ : ウィジェットで行われたすべての変更の一覧を、最新の変更から順に表示します。

[履歴] をクリックします。アクションのリストが [変換履歴 ] ペインに表示されます。

ウィジェットで最後に行った操作を元に戻します

シナリオ : ウィジェットで行われた最新の変更を元に戻したい。

以下のいずれかを実行します。

反時計回りの矢印アイコンをクリックします。
[履歴] をクリックし、[ 変換履歴 ] ウィンドウで [ 最後のステップを元に戻す ] をクリックします。

ウィジェットで最後に実行したアクションをやり直す

シナリオ : ウィジェットで行われた最新のリバートを元に戻したいとします。

以下のいずれかを実行します。

時計回りの矢印アイコンをクリックします。
[履歴 ] をクリックし、[ 変換履歴 ] ウィンドウで [ 最後のステップの回復] をクリックします。

ウィジェットで最後に実行したアクションを変更する

シナリオ : ウィジェットで行われた最新の変更を変更したいとします。

以下のいずれかを実行します。
- 鉛筆アイコンをクリックします。
- [履歴] をクリックし、[ 変換履歴 ] ウィンドウで [ 最後のステップの編集 ] をクリックします。
必要な変更を行い、[ 実行] をクリックします。

ウィジェットの現在の状態を DataFrame としてプログラムで再作成するコードを取得する

シナリオ : 現在のウィジェットの状態をプログラムで再作成する Python コード ( Pandas DataFrameとして表されます) を取得する必要があります。このコードをこのブックの別のセルで実行するか、まったく別のブックで実行する必要があります。

[ コードを取得 ] をクリックします。
[ コードのエクスポート ] パネルで、[ コードのコピー ] をクリックします。コードがシステムのクリップボードにコピーされます。
このブックの別のセルまたは別のブックにコードを貼り付けます。
この Pandas DataFrame をプログラムで操作するための追加のコードを記述し、セルを実行します。たとえば、DataFrame の内容を表示するには、DataFrame がプログラムによって表されると仮定してdf
Python
```
# Your pasted code here, followed by...
df
```

制限

詳細については、ノートブック Databricks 既知の制限事項を参照してください。

追加のリソース

bamboolib プラグイン

必要条件​

クイックスタート​

ウォークスルー​

bamboolibを単独で使用する​

既存の データフレーム で bamboolib を使用する​

主なタスク​

ウィジェットをセルに追加する​

ウィジェットをクリアする​

データ読み込みタスク​

サンプル データセットの内容をウィジェットに読み込みます​

CSV ファイルの内容をウィジェットに読み込みます​

データベーステーブルの内容をウィジェットに読み込みます​

データアクションタスク​

列の選択​

列の削除​

行のフィルタリング​

行の並べ替え​

行と列のグループ化タスク​

1 つの集計関数による行と列のグループ化​

複数の集計関数による行と列のグループ化​

欠損値のある行を削除する​

重複した行を削除する​

欠損値の検索と置換​

列の数式を作成する​

データアクション履歴タスク​

ウィジェットで実行されたアクションのリストを表示する​

ウィジェットで最後に行った操作を元に戻します​

ウィジェットで最後に実行したアクションをやり直す​

ウィジェットで最後に実行したアクションを変更する​

ウィジェットの現在の状態を DataFrame としてプログラムで再作成するコードを取得する​

制限​

追加のリソース​

必要条件

クイックスタート

ウォークスルー

bamboolibを単独で使用する

既存のデータフレームで bamboolib を使用する

主なタスク

ウィジェットをセルに追加する

ウィジェットをクリアする

データ読み込みタスク

サンプルデータセットの内容をウィジェットに読み込みます

CSV ファイルの内容をウィジェットに読み込みます

データベーステーブルの内容をウィジェットに読み込みます

データアクションタスク

列の選択

列の削除

行のフィルタリング

行の並べ替え

行と列のグループ化タスク

1 つの集計関数による行と列のグループ化

複数の集計関数による行と列のグループ化

欠損値のある行を削除する

重複した行を削除する

欠損値の検索と置換

列の数式を作成する

データアクション履歴タスク

ウィジェットで実行されたアクションのリストを表示する

ウィジェットで最後に行った操作を元に戻します

ウィジェットで最後に実行したアクションをやり直す

ウィジェットで最後に実行したアクションを変更する

ウィジェットの現在の状態を DataFrame としてプログラムで再作成するコードを取得する

制限

追加のリソース