bamboolib

プレビュー

この機能はパブリックプレビュー段階です。

bamboolib は、Databricks Runtime 11.3 LTS 以降でサポートされています。

bamboolib は、Databricks ノートブック内からコードなしのデータ分析と変換を可能にするユーザー インターフェイス コンポーネントです。 bamboolib を使用すると、ユーザーはデータをより簡単に操作でき、一般的なデータ ラングリング、探索、視覚化のタスクを高速化できます。 ユーザーがデータを使用してこの種のタスクを完了すると、bamboolib はバックグラウンドで Python コードを自動的に生成します。 ユーザーはこのコードを他のユーザーと共有でき、他のユーザーはこのコードを自分のノートブックで実行して、元のタスクをすばやく再現できます。 また、bamboolib を使用して、コーディング方法を知らなくても、元のタスクを追加のデータタスクで拡張することもできます。 コーディングの経験がある人は、このコードを拡張して、さらに洗練された結果を作成できます。

舞台裏では、bamboolib は IPython カーネル 用のインタラクティブな HTML ウィジェットフレームワークである ipywidgets を使用しています。ipywidgets は IPython カーネル内で実行されます。

必要条件

クイックスタート

  1. Python ノートブックを作成します

  2. 要件を満たす クラスターにノートブックをアタッチ します。

  3. ノートブックの最初のセルに次のコードを入力し、 セル を実行します 。bamboolib が ワークスペースまたはクラスターに既にインストールされている場合は、このステップ をスキップできます。

    %pip install bamboolib
    
  4. ノートブックの 2 番目のセルに次のコードを入力し、セルを実行します。

    import bamboolib as bam
    
  5. ノートブックの 3 番目のセルに次のコードを入力し、セルを実行します。

    bam
    

    または、 既存のpandas DataFrame を印刷 して、その特定のデータフレームで使用するための bamboolib を表示することもできます。

  6. キータスクを続行します。

ウォークスルー

bamboolib は単独で使用することも、 既存の pandas DataFrame と共に使用することもできます。

bamboolib を単独で 使用する

このチュートリアルでは、bamboolib を使用して、サンプルの売上データ セットの内容をノートブックに表示します。 次に、bamboolib が自動的に生成する関連するノートブック コードの一部をエクスペリメントします。 最後に、Sales データ セットの内容のコピーを照会して並べ替えます。

  1. Python ノートブックを作成します

  2. 要件を満たす クラスターにノートブックをアタッチ します。

  3. ノートブックの最初のセルに次のコードを入力し、 セル を実行します 。bamboolib が ワークスペースまたはクラスターに既にインストールされている場合は、このステップ をスキップできます。

    %pip install bamboolib
    
  4. ノートブックの 2 番目のセルに次のコードを入力し、セルを実行します。

    import bamboolib as bam
    
  5. ノートブックの 3 番目のセルに次のコードを入力し、セルを実行します。

    bam
    
  6. [ ダミー データの読み込み] をクリックします。

  7. [ダミー データの読み込み] ペインの [bamboolib をテストするためのダミー データ セットの読み込み] で、 Sales データセット を選択します。

  8. [ 実行] をクリックします。

  9. item_type離乳食であるすべての行を表示します。

    1. [ 検索アクション ] リストで、[ 行のフィルター] を選択します。

    2. 行の フィルター ウィンドウの 選択 リスト ( 場所の上) で、行 の選択 を選択します。

    3. 以下のリストで、[item_type] を選択します。

    4. item_type の横にある [選択] リストで、[値を持つ] を選択します。

    5. [値を持つ] の横にある [値の選択] ボックスで、[離乳食 ] を選択します。

    6. [ 実行] をクリックします。

  10. このクエリーに対して自動的に生成された Python コードをコピーします。

    1. データプレビューの下にある[ コードをコピー ]をクリックします。

  11. コードを貼り付けて変更します。

    1. ノートブックの 4 番目のセルに、コピーしたコードを貼り付けます。 次のようになります。

      import pandas as pd
      df = pd.read_csv(bam.sales_csv)
      # Step: Keep rows where item_type is one of: Baby Food
      df = df.loc[df['item_type'].isin(['Baby Food'])]
      
    2. このコードに追加して、 order_prioCである行のみが表示されるようにしてから、セルを実行します。

      import pandas as pd
      df = pd.read_csv(bam.sales_csv)
      # Step: Keep rows where item_type is one of: Baby Food
      df = df.loc[df['item_type'].isin(['Baby Food'])]
      
      # Add the following code.
      # Step: Keep rows where order_prio is one of: C
      df = df.loc[df['order_prio'].isin(['C'])]
      df
      

    ヒント

    このコードを記述する代わりに、3番目のセルでbamboolibを使用して、 order_prioCである行のみを表示することで、同じことを行うこともできます。 このステップ は、先ほど bamboolib が自動生成したコードを拡張した例です。

  12. 地域 別に行を昇順に並べ替えます。

    1. 4 番目のセル内のウィジェットの [検索アクション ] リストで、[ 行の並べ替え] を選択します。

    2. [列の並べ替え] ウィンドウの [列の選択] リストで、 地域を選択します。

    3. [地域] の横にあるリストで、[昇順 (A から Z)] を選択します。

    4. [ 実行] をクリックします。

    これは、次のコードを自分で記述することと同じです。

    df = df.sort_values(by=['region'], ascending=[True])
    df
    

    また、3番目のセルでbamboolibを使用して、 地域 ごとに行を昇順に並べ替えることもできます。 このステップ では、bamboolib を使用して記述するコードを拡張する方法を示します。 bamboolibを使用すると、バックグラウンドで追加のコードが自動的に生成されるため、すでに拡張されているコードをさらに拡張できます。

  13. キータスクを続行します。

既存の DataFrame で bamboolib を使用する

このチュートリアルでは、bamboolib を使用して、 pandas のデータフレームの内容をノートブックに表示します。 この DataFrame には、サンプル・セールス・データ・セットのコピーが含まれています。 次に、bamboolib が自動的に生成する関連するノートブック コードの一部をエクスペリメントします。 最後に、DataFrame の内容の一部を照会して並べ替えます。

  1. Python ノートブックを作成します

  2. 要件を満たす クラスターにノートブックをアタッチ します。

  3. ノートブックの最初のセルに次のコードを入力し、 セル を実行します 。bamboolib が ワークスペースまたはクラスターに既にインストールされている場合は、このステップ をスキップできます。

    %pip install bamboolib
    
  4. ノートブックの 2 番目のセルに次のコードを入力し、セルを実行します。

    import bamboolib as bam
    
  5. ノートブックの 3 番目のセルに次のコードを入力し、セルを実行します。

    import pandas as pd
    
    df = pd.read_csv(bam.sales_csv)
    df
    

    bamboolib は pandas DataFramesのみをサポートしていることに注意してください。 PySpark データフレームをpandas データフレームに変換するには、PySpark データフレームで toPandas を呼び出します。 Spark DataFrame 上の Pandas API を Pandas DataFrame に変換するには、Spark DataFrame 上の Pandas API で to_pandas を呼び出します。

  6. [ bamboolib UI を表示] をクリックします。

  7. item_type離乳食であるすべての行を表示します。

    1. [ 検索アクション ] リストで、[ 行のフィルター] を選択します。

    2. 行の フィルター ウィンドウの 選択 リスト ( 場所の上) で、行 の選択 を選択します。

    3. 以下のリストで、[item_type] を選択します。

    4. item_type の横にある [選択] リストで、[値を持つ] を選択します。

    5. [値を持つ] の横にある [値の選択] ボックスで、[離乳食 ] を選択します。

    6. [ 実行] をクリックします。

  8. このクエリーに対して自動的に生成された Python コードをコピーします。 これを行うには、データ プレビューの下にある [ コードのコピー ] をクリックします。

  9. コードを貼り付けて変更します。

    1. ノートブックの 4 番目のセルに、コピーしたコードを貼り付けます。 次のようになります。

      # Step: Keep rows where item_type is one of: Baby Food
      df = df.loc[df['item_type'].isin(['Baby Food'])]
      
    2. このコードに追加して、 order_prioCである行のみが表示されるようにしてから、セルを実行します。

      # Step: Keep rows where item_type is one of: Baby Food
      df = df.loc[df['item_type'].isin(['Baby Food'])]
      
      # Add the following code.
      # Step: Keep rows where order_prio is one of: C
      df = df.loc[df['order_prio'].isin(['C'])]
      df
      

    ヒント

    このコードを記述する代わりに、3番目のセルでbamboolibを使用して、 order_prioCである行のみを表示することで、同じことを行うこともできます。 このステップ は、先ほど bamboolib が自動生成したコードを拡張した例です。

  10. 地域 別に行を昇順に並べ替えます。

    ある。 ウィジェットの 4 番目のセル内で、[ 行の並べ替え] をクリックします。

    1. [列の並べ替え] ウィンドウの [列の選択] リストで、 地域を選択します。

    2. [地域] の横にあるリストで、[昇順 (A から Z)] を選択します。

    3. [ 実行] をクリックします。

    これは、次のコードを自分で記述することと同じです。

    df = df.sort_values(by=['region'], ascending=[True])
    df
    

    また、3番目のセルでbamboolibを使用して、 地域 ごとに行を昇順に並べ替えることもできます。 このステップ では、bamboolib を使用して記述するコードを拡張する方法を示します。 bamboolibを使用すると、バックグラウンドで追加のコードが自動的に生成されるため、すでに拡張されているコードをさらに拡張できます。

  11. キータスクを続行します。

キー タスク

ウィジェットをセルに追加する

シナリオ: bamboolib ウィジェットをセルに表示します。

  1. ノートブックが bamboolib の要件を満たし ていることを確認します。

  2. bamboolib が ワークスペースまたはクラスターにまだインストールされていない場合は、 ノートブックのセル (できれば最初のセル) で次のコードを実行します。

    %pip install bamboolib
    
  3. ノートブックで、できればノートブックの 1 番目または 2 番目のセルで次のコードを実行します。

    import bamboolib as bam
    
  4. オプション 1: ウィジェットを表示するセルに次のコードを追加し、セルを実行します。

    bam
    

    ウィジェットがコードの下のセルに表示されます。

    又は:

    オプション 2: pandas のデータフレームへの参照を含むセルで、データフレームを印刷します。 たとえば、次の DataFrame 定義があると、セルを実行します。

    import pandas as pd
    from datetime import datetime, date
    
    df = pd.DataFrame({
      'a': [ 1, 2, 3 ],
      'b': [ 2., 3., 4. ],
      'c': [ 'string1', 'string2', 'string3' ],
      'd': [ date(2000, 1, 1), date(2000, 2, 1), date(2000, 3, 1) ],
      'e': [ datetime(2000, 1, 1, 12, 0), datetime(2000, 1, 2, 12, 0), datetime(2000, 1, 3, 12, 0) ]
    })
    
    df
    

    ウィジェットがコードの下のセルに表示されます。

    bamboolib は pandas DataFramesのみをサポートしていることに注意してください。 PySpark データフレームをpandas データフレームに変換するには、PySpark データフレームで toPandas を呼び出します。 Spark DataFrame 上の Pandas API を Pandas DataFrame に変換するには、Spark DataFrame 上の Pandas API で to_pandas を呼び出します。

ウィジェットをクリアする

シナリオ: ウィジェットの内容をクリアしてから、既存のウィジェットに新しいデータを読み込みます。

オプション 1: ターゲット ウィジェットを含むセル内で次のコードを実行します。

bam

ウィジェットがクリアされ、[Databricks: DBFS から CSV ファイルを読み取る]、[ Databricks: データベース テーブルの読み込み]、および [ダミー データの読み込み] ボタンがクリアされてから再表示されます。

エラー name 'bam' is not defined が表示された場合は、ノートブック (できればノートブックの最初のセル) で次のコードを実行してから、もう一度やり直してください。

import bamboolib as bam

オプション 2: pandas のデータフレームへの参照を含むセルで、セルを再度実行してデータフレームを再度印刷します。 ウィジェットがクリアされ、新しいデータが表示されます。

データロードタスク

サンプルデータセットのコンテンツをウィジェットに読み込む

シナリオ: ウィジェットの機能をテストするために、いくつかのサンプル データ (たとえば、販売データのふり) をウィジェットに読み込むとします。

  1. [ ダミー データの読み込み] をクリックします。

    [ ダミー データのロード ] が表示されない場合は、 オプション 1 でウィジェットをクリア して、もう一度やり直してください。

  2. [ ダミー データのロード ] ペインの [ bamboolib をテストするためのダミー データセットのロード] で、ロードするデータセットの名前を選択します。

  3. [ データフレーム名] に、テーブルの内容のプログラム識別子の名前を データフレームとして入力するか、既定のプログラム識別子として df のままにします。

  4. [ 実行] をクリックします。

    ウィジェットにデータセットのコンテンツが表示されます。

ヒント

現在のウィジェットを切り替えて、別のサンプルデータセットのコンテンツを表示できます。

  1. 現在のウィジェットで、[ ダミー データのロード ] タブをクリックします。

  2. 前の手順に従って、他のサンプルデータセットのコンテンツをウィジェットに読み込みます。

CSV ファイルの内容をウィジェットに読み込む

シナリオ: Databricks ワークスペース内の CSV ファイルの内容をウィジェットに読み込むとします。

  1. [ Databricks: DBFS から CSV ファイルを読み込みます] をクリックします。

    Databricks: DBFS から CSV ファイルを読み取る が表示されていない場合は、オプション 1 でウィジェットをクリア して、もう一度やり直してください。

  2. [ DBFS から CSV を読み取る ] ウィンドウで、ターゲット CSV ファイルを含む場所を参照します。

  3. 対象の CSV ファイルを選択します。

  4. [ データフレーム名] に、CSV ファイルの内容のプログラム識別子の名前を データフレームとして入力するか、既定のプログラム識別子として df のままにします。

  5. [CSV 値の区切り記号] には、CSV ファイル内の値を区切る文字を入力するか、既定の 値の区切り記号として , (コンマ) 文字のままにします。

  6. [小数点記号] に、CSV ファイルの小数点を区切る文字を入力するか、 . (ドット) 文字をデフォルト値の区切り文字として使用します。

  7. [行数制限]: 最初の N 行を読み取る - 制限がない場合は空のままにするか、ウィジェットに読み込む最大行数を入力するか、既定の行数として 100000 のままにするか、このボックスを空のままにして行制限を指定しません。

  8. [ CSV ファイルを開く] をクリックします。

    ウィジェットには、指定した設定に基づいて CSV ファイルの内容が表示されます。

ヒント

現在のウィジェットを切り替えて、別の CSV ファイルのコンテンツを表示できます。

  1. 現在のウィジェットで、[ DBFS から CSV を読み取る ] タブをクリックします。

  2. 上記の手順に従って、他の CSV ファイルの内容をウィジェットに読み込みます。

データベーステーブルの内容をウィジェットに読み込む

シナリオ: Databricks ワークスペース内のデータベース テーブルの内容をウィジェットに読み込むとします。

  1. [ Databricks: データベース テーブルの読み込み] をクリックします。

    Databricks: データベース テーブルの読み込み が表示されていない場合は、オプション 1 でウィジェットをクリア して、もう一度やり直してください。

  2. [Databricks: データベース テーブルの読み込み] ペインの [データベース - 既定のデータベース] は空のままにするか、ターゲット テーブルが配置されているデータベースの名前を入力するか、このボックスを 空のままにして既定のデータベースを指定します。

  3. [テーブル] に、ターゲット テーブルの名前を入力します。

  4. [行数制限]: 最初の N 行を読み取る - 制限がない場合は空のままにするか、ウィジェットに読み込む最大行数を入力するか、既定の行数として 100000 のままにするか、このボックスを空のままにして行制限を指定しません。

  5. [ データフレーム名] に、テーブルの内容のプログラム識別子の名前を データフレームとして入力するか、既定のプログラム識別子として df のままにします。

  6. [ 実行] をクリックします。

    ウィジェットには、指定した設定に基づいてテーブルの内容が表示されます。

ヒント

現在のウィジェットを切り替えて、別のテーブルの内容を表示できます。

  1. 現在のウィジェットで、[ Databricks: データベース テーブルの読み込み ] タブをクリックします。

  2. 前の手順に従って、他のテーブルの内容をウィジェットに読み込みます。

データアクションタスク

bamboolib には 50 を超えるデータアクションが用意されています。 以下は、より一般的な開始データアクションタスクの一部です。

列の選択

シナリオ: 特定のテーブル列のみを名前別、データ型別、または正規表現に一致する列のみを表示する場合。 たとえば、ダミーの Sales データセットでは、 item_type 列と sales_channel 列のみを表示したり、列名に文字列 _date を含む列のみを表示したりします。

  1. [ データ ] タブの [検索アクション ] ドロップダウン リストで、次のいずれかの操作を行います。

    • select と入力し、 列の選択またはドロップ を選択します。

    • [ 列の選択またはドロップ] を選択します。

  2. の選択または削除 ウィンドウの 選択 ドロップダウン リストで、 選択 を選択します。

  3. ターゲットカラム名または包含基準を選択します。

  4. [ データフレーム名] に、テーブルの内容のプログラム識別子の名前を データフレームとして入力するか、既定のプログラム識別子として df のままにします。

  5. [ 実行] をクリックします。

列をドロップする

シナリオ: 特定のテーブル列を名前、データ型、または正規表現に一致する列で非表示にする場合。 たとえば、ダミーの Sales データセットで、 order_prioorder_date、および ship_date 列を非表示にしたり、日時値のみを含むすべての列を非表示にしたりします。

  1. [ データ ] タブの [検索アクション ] ドロップダウン リストで、次のいずれかの操作を行います。

    • drop と入力し、 列の選択またはドロップ を選択します。

    • [ 列の選択またはドロップ] を選択します。

  2. 列の選択またはドロップ ペインの 選択 ドロップダウン リストで、 ドロップ を選択します。

  3. ターゲットカラム名または包含基準を選択します。

  4. [ データフレーム名] に、テーブルの内容のプログラム識別子の名前を データフレームとして入力するか、既定のプログラム識別子として df のままにします。

  5. [ 実行] をクリックします。

行のフィルター

シナリオ: 一致する、または欠落している特定の列値などの条件に基づいて、特定のテーブル行を表示または非表示にする場合。 たとえば、ダミーの Sales データセットでは、 item_type 列の値が Baby Foodに設定されている行のみを表示するとします。

  1. [ データ ] タブの [検索アクション ] ドロップダウン リストで、次のいずれかの操作を行います。

    • フィルター」と入力し、[行のフィルター] を選択します。

    • [ 行のフィルター] を選択します。

  2. [行のフィルター] ウィンドウ の上にある [ 選択] ドロップダウン リストで、[行 の選択] または [行の削除] を選択します。

  3. 最初のフィルター条件を指定します。

  4. 別のフィルター条件を追加するには、[ 条件の追加] をクリックし、次のフィルター条件を指定します。 必要に応じて繰り返します。

  5. [ データフレーム名] に、テーブルの内容のプログラム識別子の名前を データフレームとして入力するか、既定のプログラム識別子として df のままにします。

  6. [ 実行] をクリックします。

行の並べ替え

シナリオ: 1 つ以上の列内の値に基づいてテーブルの行を並べ替えます。 たとえば、ダミーの Sales データセットで、 region 列の値で行を A から Z のアルファベット順に表示します。

  1. [ データ ] タブの [検索アクション ] ドロップダウン リストで、次のいずれかの操作を行います。

    • 並べ替え と入力し、 行の並べ替え を選択します。

    • 行の並べ替え を選択します。

  2. [列の並べ替え] ペインで、並べ替える最初の列と並べ替え順序を選択します。

  3. 別のソート基準を追加するには、「 列の追加」をクリックし、次のソート基準を指定します。 必要に応じて繰り返します。

  4. [ データフレーム名] に、テーブルの内容のプログラム識別子の名前を データフレームとして入力するか、既定のプログラム識別子として df のままにします。

  5. [ 実行] をクリックします。

行と列のタスクのグループ化

1 つの集計関数による行と列のグループ化

シナリオ: 行と列の結果が計算されたグループ化ごとに表示され、それらのグループにカスタム名を割り当てるとします。 たとえば、ダミーの Sales データセットでは、 country 列の値で行をグループ化し、同じ country 値を含む行数を表示し、計算されたカウントのリストに country_countという名前を付けます。

  1. [ データ ] タブの [検索アクション ] ドロップダウン リストで、次のいずれかの操作を行います。

    • 「グループ」と入力し、[グループ化と集計 (名前の変更あり)] を選択します。

    • [ グループ化と集計 (名前の変更あり)] を選択します。

  2. [ 列名の変更によるグループ化 ] ウィンドウで、グループ化する列と最初の計算を選択し、必要に応じて計算列の名前を指定します。

  3. 別の計算を追加するには、[ 計算の追加] をクリックし、次の計算と列名を指定します。 必要に応じて繰り返します。

  4. 結果を保存する場所を指定します。

  5. [ データフレーム名] に、テーブルの内容のプログラム識別子の名前を データフレームとして入力するか、既定のプログラム識別子として df のままにします。

  6. [ 実行] をクリックします。

複数の集計関数による行と列のグループ化

シナリオ: 行と列の結果を計算されたグループ化で表示します。 たとえば、ダミーの Sales データセットでは、 regioncountry、および sales_channel 列の値で行をグループ化し、同じ region を含む行の数と country 値を sales_channelで示し、 regionの一意の組み合わせで total_revenue を表示します。 country、および sales_channel.

  1. [ データ ] タブの [検索アクション ] ドロップダウン リストで、次のいずれかの操作を行います。

    • 「グループ」と入力し、[グループ化と集計 (デフォルト)] を選択します。

    • [ グループ化して集計する (デフォルト)] を選択します。

  2. [ 列名の変更によるグループ化 ] ウィンドウで、グループ化する列と最初の計算を選択します。

  3. 別の計算を追加するには、[ 計算の追加] をクリックし、次の計算を指定します。 必要に応じて繰り返します。

  4. 結果を保存する場所を指定します。

  5. [ データフレーム名] に、テーブルの内容のプログラム識別子の名前を データフレームとして入力するか、既定のプログラム識別子として df のままにします。

  6. [ 実行] をクリックします。

欠損値のある行を削除する

シナリオ: 指定した列の値が欠落している行を削除するとします。 たとえば、ダミーの Sales データセットで、 item_type 値が欠落している行を削除するとします。

  1. [ データ ] タブの [検索アクション ] ドロップダウン リストで、次のいずれかの操作を行います。

    • ドロップ 」または 「削除」と入力し、[ 欠損値の削除] を選択します。

    • [ 欠損値の削除] を選択します。

  2. [欠損値の削除] ウィンドウで、列を選択して、その列の欠損値がある行を削除します。

  3. [ データフレーム名] に、テーブルの内容のプログラム識別子の名前を データフレームとして入力するか、既定のプログラム識別子として df のままにします。

  4. [ 実行] をクリックします。

重複した行を削除する

シナリオ: 指定した列の値が重複している行を削除するとします。 たとえば、ダミーの Sales データセットで、互いに完全に重複する行を削除するとします。

  1. [ データ ] タブの [検索アクション ] ドロップダウン リストで、次のいずれかの操作を行います。

    • ドロップ 」または 削除」と入力し、[ 重複の削除/削除] を選択します。

    • [ 重複の削除/削除] を選択します。

  2. [ 重複の削除 ] ウィンドウで、列を選択して、それらの列の値が重複している行を削除し、重複した値を持つ最初の行と最後の行のどちらを保持するかを選択します。

  3. [ データフレーム名] に、テーブルの内容のプログラム識別子の名前を データフレームとして入力するか、既定のプログラム識別子として df のままにします。

  4. [ 実行] をクリックします。

欠損値の検索と置換

シナリオ: 指定された列を持つ行の欠損値を置換値に置き換える場合。 たとえば、ダミーの Sales データセットで、 item_type 列の欠損値を持つ行を値 Unknown Item Typeに置き換えるとします。

  1. [ データ ] タブの [検索アクション ] ドロップダウン リストで、次のいずれかの操作を行います。

    • 検索 または 置換」と入力し、[ 不足している値の検索と置換] を選択します。

    • [ 欠損値の検索と置換] を選択します。

  2. [ 欠損値の置換 ] ウィンドウで、欠損値を置換する列を選択し、置換値を指定します。

  3. [ 実行] をクリックします。

列の数式を作成する

シナリオ: 一意の数式を使用する列を作成します。 たとえば、ダミーの Sales データセットで、 total_profit 列の値を各行の units_sold 列の値で除算した結果を表示する profit_per_unit という名前の列を作成するとします。

  1. [ データ ] タブの [検索アクション ] ドロップダウン リストで、次のいずれかの操作を行います。

    • 数式を入力し、 新しい列の数式 を選択します。

    • 新しい列の数式 を選択します。

  2. [ 欠損値の置換 ] ウィンドウで、欠損値を置換する列を選択し、置換値を指定します。

  3. [ 実行] をクリックします。

データ操作履歴タスク

ウィジェットで実行されたアクションのリストを表示する

シナリオ: 最新の変更から順に、ウィジェットで行われたすべての変更のリストを表示する必要があります。

[ 履歴] をクリックします。 アクションのリストが [変換履歴 ] ウィンドウに表示されます。

ウィジェットで実行された最新のアクションを元に戻す

シナリオ: ウィジェットで行われた最新の変更を元に戻す場合。

次のいずれかの操作を行います。

  • 反時計回りの矢印アイコンをクリックします。

  • [ 履歴] をクリックし、[ 変換履歴 ] ウィンドウで [ 最後のステップを元に戻す] をクリックします。

ウィジェットで最後に実行されたアクションをやり直す

シナリオ: ウィジェットで行われた最新の元に戻すことを元に戻すとします。

次のいずれかの操作を行います。

  • 時計回りの矢印アイコンをクリックします。

  • [ 履歴] をクリックし、[ 変換履歴 ] ウィンドウで [ 最後のステップを回復] をクリックします。

ウィジェットで実行された最新のアクションを変更する

シナリオ: ウィジェットで行われた最新の変更を変更するとします。

  1. 次のいずれかの操作を行います。

    • 鉛筆アイコンをクリックします。

    • [ 履歴] をクリックし、[ 変換履歴 ] ウィンドウで [ 最後のステップの編集] をクリックします。

  2. 必要な変更を行い、[ 実行] をクリックします。

ウィジェットの現在の状態をプログラムで DataFrameとして再作成するコードを取得する

シナリオ: 現在のウィジェットの状態をプログラムで再作成する Python コード (pandas DataFrameとして表す) を取得するとします。 このブックの別のセルまたはまったく別のブックでこのコードを実行する場合。

  1. [ コードの取得] をクリックします。

  2. [ コードのエクスポート ] ウィンドウで、[ コードのコピー] をクリックします。 コードがシステムのクリップボードにコピーされます。

  3. このブックの別のセルまたは別のブックにコードを貼り付けます。

  4. この pandas DataFrame をプログラムで操作するための追加のコードを記述し、セルを実行します。 たとえば、 DataFrameの内容を表示するには、 DataFrame がプログラムで dfで表されると仮定します。

    # Your pasted code here, followed by...
    df
    

制限

  • データ ラングリングに bamboolib を使用することは、約 1,000 万行に制限されています。 この制限は、pandas とクラスターのコンピュートリソースに基づいています。

  • データの視覚化に bamboolib を使用することは、約 10,000 行に制限されています。 この制限はプロットに基づいています。