メインコンテンツまでスキップ

ノートブックによるデータ分析

SAP Databricksでは、ユーザーは Databricks ノートブックを使用してデータサイエンスおよびアナリティクス タスクを実行できます。 ノートブックは Databricks の堅牢なプラットフォーム機能を使用しているため、SAP データや外部データを操作できます。

ノートブックは、データサイエンスと機械学習において、コードを開発して結果を提示するための一般的なツールです。Databricksにおいて、ノートブックはデータサイエンスと機械学習のワークフローを作成し、同僚とコラボレーションするための主要なツールです。Databricksノートブックは、複数言語でのリアルタイムの共同編集、自動バージョン管理、組み込みのデータビジュアライゼーションを提供します。

SAP Databricks の Databricks ノートブックは Python と SQL をサポートしており、ユーザーはマークダウンで記述されたリンク、画像、解説と一緒にビジュアライゼーションを埋め込むことができます。

このページでは、SAP Databricks でノートブックを使用するための具体的なガイダンスについて詳しく説明します。

特徴量

ノートブックに関連する次の機能は、SAP Databricks に含まれています。

ノートブックを作成および編集する

Databricks ノートブックは、コードを記述し、対話型データ分析の結果を表示できる Web ベースのコード エディターです。

デフォルトフォルダに新しいノートブックを作成するには、左側のサイドバーで +新規 をクリックし、メニューから ノートブック を選択します。

Databricksでは、デフォルトのフォルダに新しい空白のノートブックが作成され、そこでノートブックが開かれます。デフォルトの言語は最後に使用した言語になります。またノートブックは、最後に使用したコンピュートリソースに自動的に添付されます。

サーバレスコンピュートへの接続 リソース

SAP Databricksでは、サーバレス コンピュートを使用すると、ノートブックをオンデマンドコンピューティングリソースにすばやく接続できます。

サーバレス コンピュートに接続するには、ノートブックの [Connect ] ドロップダウンメニューをクリックし、[ サーバレス ] を選択します。 また、アクセス権のある任意のサーバレス SQLウェアハウスに接続することもできます。 SAP Databricksのサーバレス コンピュートのタイプの詳細については、 サーバレス コンピュートを参照してください。

SAP データをノートブックにインポートする

アクティブな SAP データ製品は、 Unity Catalog のカタログにマウントされると、ノートブックで分析できます。このデータを分析するには、ターゲット データセットを含むカタログとスキーマに対する READ アクセス権が必要です。

クエリの例を次に示します。

SQL
select * from sap_data.cashflow.cashflowforecast

ビジュアライゼーションの作成

Databricks には、 Databricks SQL とノートブックの両方でグラフと視覚化の組み込みサポートがあります。 Databricks ノートブック内の組み込み視覚化ツールを使用して、データをすばやく分析し、視覚化を生成します。

ビジュアライゼーションを作成するには:

  1. 表形式のデータ結果を含むノートブック セルを実行した後、結果の上にある [+ ] をクリックし、[ 視覚化] を選択します。視覚化エディターが表示されます。
  2. ビジュアライゼーションの名前を新しいタイトルとして、ビジュアライゼーションエディタに入力します。
  3. [視覚化の種類 ] ドロップダウンで、グラフの種類を選択します。
  4. ビジュアライゼーションのプロパティをカスタマイズして確認します。プロットする列と、データをグループ化する方法を選択します。必要に応じて外観をカスタマイズします。使用可能なフィールドは、選択したタイプによって異なります。
  5. 保存 をクリックします。

デバッグ ノートブック

Pythonで作業している場合は、Databricks ノートブックの組み込みインタラクティブ デバッガーを使用して、コードのデバッグに役立てることができます。対話型デバッガーには、ブレークポイント、ステップバイステップの実行、変数の検査、およびノートブックでのコードをより効率的に開発するのに役立つその他のツールが用意されています。

デバッガを有効にするには、次の手順に従います。

  1. ワークスペースの右上にあるユーザー名をクリックし、ドロップダウンリストから 設定 を選択します。
  2. 設定 サイドバーで、 開発者 を選択します。
  3. [Editor settings (エディタ設定 )] セクションで、[ Python Notebook Interactive Debugger (Python ノートブック インタラクティブ デバッガー)] を切り替えます。

ノートブックのスケジュール

ノートブック UI で直接ノートブック ジョブを作成および管理できます。ノートブックがすでに 1 つ以上のジョブに割り当てられている場合は、それらのジョブのスケジュールを作成および管理できます。ノートブックがジョブに割り当てられていない場合は、ノートブックを実行するためのジョブとスケジュールを作成できます。「ノートブックのスケジュール設定」を参照してください。

Git フォルダ

Databricks Git フォルダーは、Databricks のビジュアル Git クライアントおよび API です。リポジトリのクローン作成、コミットとプッシュ、プル、ブランチ管理、コミット時の差分の視覚的な比較など、一般的な Git 操作をサポートしています。

Gitフォルダ内では、ノートブックやその他のファイルでコードを開発し、バージョン管理、コラボレーション、およびGit CI/CDのための を使用して、データサイエンスとエンジニアリングのコード開発のベストプラクティスに従うことができます。

Databricks Assistant

Databricks Assistant は、データとコードで支援できるコンテキスト認識型 AI アシスタントです。アシスタントには、SQL エディターとノートブックでアクセスできます。アシスタントは以下を提供します。

  • AIベースのオートコンプリート。
  • 自然言語プロンプトによるデータフィルタリング。
  • エラーの診断 を使用したコードのデバッグ。
  • クイックフィックスは、コードエラーを修正するための自動推奨事項を表示し、 それを受け入れて実行できます

Webターミナル

Databricks Webターミナルは、シェル コマンドを実行するための便利で高度にインタラクティブな方法を提供します。これは、既存のユーザーインターフェース (UI) が完全にサポートしていない可能性のある複数のファイルに対するバッチ操作など、高度なユースケースに特に役立ちます。

アカウント管理者によってWebターミナルが有効になっている場合は、サーバレス コンピュート環境version 2を実行しているノートブックからWebターミナルを起動できます。

ノートブックからWebターミナルを起動するには:

  1. ノートブックをコンピュートに接続します。
  2. ノートブックの右サイドバーの下部にある [ 下部パネルを開く ] アイコン ノートブックの底板を開くをクリックします。
  3. または、添付のコンピュートドロップダウンをクリックし、添付のコンピュートにカーソルを合わせて、[ Webターミナル ]をクリックします。

Webターミナルは、画面下部のパネルで開きます。パネルの右上にあるボタンを使用すると、次のことができます。

  • 新しいタブ 新しいターミナルセッションを開くで新しいターミナルセッションを開きます。
  • ターミナル セッション 端末セッションの再読み込みを再読み込みします。
  • 底面パネル ボトムパネルを閉じるを閉じます。パネルを再度開くには、右側のサイドバーの下部にある [ 底面パネルを再度開く ] をクリックします。