Databricks コンポーネント

この記事では、Databricks を効果的に使用するために理解する必要がある基本的なコンポーネントを紹介します。

アカウントとワークスペース

Databricksは ワークスペース はクラウド内の Databricks デプロイメントであり、チームが Databricksアセットにアクセスするための環境として機能します。ニーズに応じて、複数のワークスペースを使用するか、 1つのワークスペースのみ使用するかを選択することが可能です。

Databricks アカウント は、複数のワークスペースを含めることができる 1 つのエンティティを表します。 Unity Catalog が有効になっているアカウントを使用すると、アカウント内のすべてのワークスペースでユーザーとデータへのアクセスを一元的に管理できます。請求とサポートもアカウントレベルで処理されます。

請求: Databricks ユニット (DBU)

Databricks は、VM インスタンスの種類に基づく時間あたりの処理能力の単位である Databricks ユニット (DBU) に基づいて課金されます。

「Databricks on AWS の料金見積もり」を参照してください。

認証と承認

このセクションでは、Databricks IDとDatabricks アセットへのアクセスを管理する際に知っておくべき概念について説明します。

ユーザー

システムにアクセスできる一意の個人。ユーザー ID は Eメールアドレスで表されます。「ユーザーの管理」を参照してください。

サービスプリンシパル

ジョブ、自動化ツール、およびスクリプト、アプリ、CI/CD プラットフォームなどのシステムで使用するサービス ID。サービスプリンシパルは、アプリケーション ID で表されます。「サービスプリンシパル」を参照してください。

グループ

ID のコレクション。グループを使用すると ID 管理が簡素化され、ワークスペース、データ、その他のセキュリティ保護可能なオブジェクトへのアクセスを簡単に割り当てることができます。すべての Databricks ID は、グループのメンバーとして割り当てることができます。グループを参照してください。

アクセス制御リスト (ACL)

ワークスペース、クラスター、ジョブ、テーブル、またはエクスペリメントにアタッチされたアクセス許可の一覧。 ACL は、オブジェクトへのアクセスを許可するユーザーまたはシステムプロセスと、アセットに対して許可される操作を指定します。一般的な ACL の各エントリは、サブジェクトと操作を指定します。アクセス制御リストを参照してください。

パーソナルアクセストークン(PAT)

パーソナルアクセストークンは、 REST API 呼び出し、技術パートナー接続、およびその他のツールを認証するために使用される文字列です。 Databricks 個人用アクセストークン認証を参照してください。

Databricks インターフェイス

このセクションでは、Databricks でアセットにアクセスするためのインターフェイスについて説明します。

UI

Databricks UI は、ワークスペースフォルダとそれに含まれるオブジェクト、データオブジェクト、コンピューティングリソースなどの機能を操作するためのグラフィカルインターフェイスです。

REST API

Databricks REST API は、Databricks アカウントとワークスペースオブジェクトに関する情報を変更または要求するためのエンドポイントを提供します。アカウント参照およびワークスペース参照を参照してください。

SQL REST API

SQL REST API を使用すると、SQL オブジェクトに対するタスクを自動化できます。 SQL APIを参照してください。

CLI

Databricks CLI は GitHub でホストされています。CLI は、Databricks REST API の上に構築されています。

データマネジメント

このセクションでは、Databricks のデータを整理および管理するために使用されるツールと論理オブジェクトについて説明します。 Databricks のデータベースオブジェクトを参照してください。

Unity Catalog

Unity Catalogは、AI 上のデータとDatabricks 資産のための統合ガバナンスソリューションであり、ワークスペース全体で一元的なアクセス制御、監査、リネージ、およびデータディスカバリー機能を提供します。Databricks「Unity Catalog とは」を参照してください。

カタログ

カタログは、Databricks 上のデータを整理および分離するための最上位のコンテナーです。同じリージョンとアカウント内のワークスペース間でカタログを共有できます。「Databricks のカタログとは」を参照してください。

スキーマ

スキーマ (データベースとも呼ばれます) はカタログ内に含まれており、より詳細なレベルの編成を提供します。これには、データベースオブジェクトと、ボリューム、テーブル、関数、モデルなどのAIアセットが含まれています。「Databricks のスキーマとは」を参照してください。

テーブル

テーブルは、構造化データへのアクセスを整理し、管理します。テーブルに対してクエリを実行するには、 Apache Spark SQL と Apache Spark APIを使用します。「テーブルとは」を参照してください。

ビュー

ビューは、1 つ以上のテーブルとビューから派生した読み取り専用オブジェクトです。ビューは、テーブルに対して定義されたクエリを保存します。「ビューとは」を参照してください。

ボリューム

ボリュームは、クラウド・オブジェクト・ストレージ・ロケーション内のストレージの論理ボリュームを表し、表形式以外のデータへのアクセスを編成および制御します。 Databricks では、クラウドオブジェクトストレージ上の非表形式データへのすべてのアクセスを管理するために、ボリュームを使用することをお勧めします。 Unity Catalogボリュームとはを参照してください。

Delta テーブル

既定では、Databricksで作成されるすべてのテーブルはDeltaテーブルとなります。Deltaテーブルは、クラウドオブジェクトストア上の高性能 ACIDテーブルストレージのフレームワークである、 Delta Lake オープンソースプロジェクトに基づいています。Deltaテーブルは、データをクラウドオブジェクトストレージ上のファイルのディレクトリとして保存し、テーブルのメタデータをカタログおよびスキーマ内のメタストアに登録します。

Deltaとしてブランド化されたテクノロジーの詳細をご覧ください。

メタストア

Unity Catalog は、データ、AI、およびカタログ、スキーマ、テーブルに関するアクセス許可に関するメタデータを登録するアカウントレベルのメタストアを提供します。メタストアを参照してください。

Databricksは、Hive metastore を採用していない顧客に対してレガシーUnity Catalog を提供します。「Hive metastore テーブルアクセスコントロール (レガシー)」を参照してください。

カタログエクスプローラー

カタログエクスプローラを使用すると、スキーマ (データベース)、テーブル、モデル、ボリューム (非表形式データ)、関数、登録済み ML モデルなど、データと AI 資産を探索および管理できます。これを使用して、データオブジェクトと所有者の検索、テーブル間のデータリレーションシップの理解、アクセス許可と共有の管理を行うことができます。「カタログエクスプローラとは」を参照してください。

DBFSルート

important

DBFSルートマウントまたは DBFS マウントを使用したデータの格納とアクセスは非推奨のパターンであり、Databricksでは推奨されません。代わりに、Databricks では、Unity Catalog を使用してすべてのデータへのアクセスを管理することをお勧めします。「Unity Catalog とは」を参照してください。

DBFSルートは、デフォルトですべてのユーザーが使用できるストレージの場所です。 DBFS とはを参照してください。

計算管理

このセクションでは、Databricks で計算を実行するために知っておく必要がある概念について説明します。

クラスター

ノートブックとジョブを実行するための一連の計算リソースと構成。クラスターには、汎用と job の 2 種類があります。コンピュートを参照してください。

汎用クラスター は、UI、CLI、または REST APIを使用して作成します。汎用クラスターは手動で終了・再起動することができます。複数のユーザーでクラスターを共有し、インタラクティブな分析を共同で行うことが可能です。
Databricks ジョブスケジューラは、 新しいジョブクラスター でジョブを実行するとジョブ クラスター を作成し、ジョブが完了するとクラスターを終了します。ジョブクラスターは再起動 できません 。

プール

すぐに使用できるアイドル状態のインスタンスのセットで、クラスターの開始時間と自動スケーリング時間を短縮します。プールにアタッチされると、クラスターはプールからドライバーノードとワーカーノードを割り当てます。プール構成リファレンスを参照してください。

プールにクラスターの要求に対応するのに十分なアイドルリソースがない場合、プールはインスタンスプロバイダーから新しいインスタンスを割り当てることによって拡張されます。アタッチされたクラスターが終了すると、そのインスタンスが使用していたインスタンスはプールに戻され、別のクラスターで再利用できます。

Databricks ランタイム

Databricksによって管理されるクラスターで実行されるコアコンポーネントのセット。コンピュートを参照してください。Databricks には、次のランタイムがあります。

Databricks ランタイムにはApache Sparkが含まれていますが、ビッグデータ分析の使いやすさ、パフォーマンス、およびセキュリティを大幅に向上させる多数のコンポーネントと更新プログラムも追加されています。
Databricks機械学習ランタイムは Databricks ランタイム上に構築されており、Databricks ワークスペースのすべての機能と統合されている事前構築済みの機械学習インフラストラクチャを提供します。これには、TensorFlow、Keras、PyTorch、XGBoost など、複数の一般的なライブラリが含まれています。

ワークフロー

ワークフロー ワークスペース UI は、ワークフローの調整とスケジュールを可能にするツールであるジョブと DLT パイプライン UI へのエントリを提供します。

ジョブ

ノートブック、ライブラリ、およびその他のタスクの調整とスケジュール設定を行うための非対話型メカニズム。Databricks ジョブを使用したオーケストレーションを参照してください

パイプライン

DLT パイプラインは、信頼性、保守性、テスト性に優れたデータ処理パイプラインを構築するための宣言型フレームワークを提供します。 DLTを参照してください。

ワークロード

ワークロードは、タスクまたはタスクのグループを実行するために必要な処理能力の量です。 Databricks では、データエンジニアリング (ジョブ) とデータ分析 (汎用) の 2 種類のワークロードを識別します。

データエンジニアリング ： ジョブクラスター 上で実行される（自動化された）ワークロードであり、Databricks ジョブスケジューラによって個々に作成されます。
データ分析 汎用クラスター で実行される(インタラクティブな)ワークロード。対話型ワークロードは、通常、Databricks ノートブック内でコマンドを実行します。ただし、 既存の汎用 クラスターで実行された ジョブ は、対話型ワークロードとして扱われます。

実行コンテキスト

サポートされている各プログラミング言語の入力ー評価ー出力ループ（REPL）環境の状態を指します。サポートされている言語は、Python、R、Scala、SQL です。

データエンジニアリング

データエンジニアリングツールは、データサイエンティスト、データエンジニア、データアナリスト、機械学習エンジニア間のコラボレーションを支援します。

ワークスペース

ワークスペースは、すべての Databricks アセットにアクセスするための環境です。ワークスペースは、オブジェクト (ノートブック、ライブラリ、ダッシュボード、エクスペリメント) をフォルダーに整理し、データオブジェクトと計算リソースへのアクセスを提供します。

ノートブック

データサイエンスと機械学習のワークフローを作成するための Web ベースのインターフェイスで、実行可能なコマンド、ビジュアライゼーション、および説明テキストを含めることができます。 Databricks ノートブックの概要を参照してください。

ライブラリ

クラスタリングで実行されているノートブックまたはジョブで使用できるコードのパッケージ。 Databricks ランタイムには多くのライブラリが含まれており、独自のライブラリをアップロードすることもできます。ライブラリのインストールを参照してください。

Git フォルダ (旧称 Repos)

内容がリモート Git リポジトリに同期されることで共同バージョン管理されるフォルダー。 Databricks Git フォルダーは Git と統合され、プロジェクトのソースとバージョン管理を提供します。

AIと機械学習

Databricks は、 AI および機械学習アプリケーションを開発およびデプロイするためのマネージドサービスを備えた、統合されたエンドツーエンドの環境を提供します。

Mosaic AI

Databricks Mosaic AI Researchの製品とサービスのブランド名、Databricks最大のブレークスルーをAIに担当する研究者とエンジニアのチーム。Mosaic AI 製品には、Databricks の ML および AI 機能が含まれています。 Mosaic Researchを参照してください。

機械学習ランタイム

モデルや ML、AIモデルの開発を支援するために、Databricks は、最も一般的なMLライブラリや DL ライブラリなどの事前構築済みの機械学習およびディープラーニングインフラストラクチャを使用してコンピュートの作成を自動化するDatabricks機械学習ランタイムを提供します。また、ドライバーやサポートライブラリなど、組み込み可能な事前構成済みのGPUサポートも備えています。 Databricks ランタイムリリースノートバージョンからの最新のランタイムリリースと互換性に関する情報を参照します。

エクスペリメント

機械学習モデルをトレーニングするための MLflow ランのコレクション。 MLflow エクスペリメントを使用したトレーニングランの整理を参照してください。

特徴量

特徴量は、ML モデルの重要なコンポーネントです。特徴量ストアは、組織全体での特徴量の共有と検出を可能にし、モデルのトレーニングと推論に同じ特徴量計算コードが使用されるようにします。特徴量のエンジニアリングとサービングを参照してください。

生成AIモデル

Databricks 、次のような生成AI モデルの探索、開発、デプロイをサポートします。

AI プレイグラウンドは、LLM をテスト、プロンプト、比較できるワークスペース内のチャットのような環境です。AI Playgroundを用いたLLM とのチャットおよび生成AIアプリのプロトタイプを参照してください。
クエリを実行できる事前構成済みの基盤モデルの組み込みセット:
- トークン単位の従量課金基盤モデル APIを参照してください。
- 1 回のクリックで提供できる基盤モデルについては、「 [推奨] Unity Catalog から基盤モデルをデプロイする」を参照してください。
外部モデルと呼ばれる、サードパーティがホストする LLM。これらのモデルは、そのまま使用することを意図しています。
基盤モデルをカスタマイズして、特定のアプリケーションに合わせてパフォーマンスを最適化する機能 (多くの場合、ファインチューニングと呼ばれます)。基盤モデルファインチューニングを参照してください。

モデルレジストリ

Databricksは、Unity CatalogでホストされたバージョンのMLflowモデルレジストリを提供します。Unity Catalogに登録されたモデルは、一元化されたアクセス制御、リネージ、およびワークスペース間の検出とアクセスを継承します。Unity Catalog でのモデルのライフサイクルの管理を参照してください。

モデルサービング

Mosaic AI Model Serving は、AI モデルをデプロイ、管理、クエリするための統一されたインターフェイスを提供します。提供する各モデルは、Web アプリケーションまたはクライアントアプリケーションに統合できる REST API として使用できます。 Mosaic AI Model Serving を使用すると、独自のモデル、基盤モデル、または Databricks の外部でホストされているサードパーティモデルをデプロイできます。 Mosaic AI Model Servingを使用したモデルのデプロイを参照してください。

データウェアハウジング

データウェアハウジングとは、複数のソースからデータを収集して保存し、ビジネスの知見やレポート作成のためにすばやくアクセスできるようにすることを指します。 Databricks SQL は、既存のデータレイクにデータウェアハウジングの機能とパフォーマンスをもたらすサービスのコレクションです。 Databricksのデータウェアハウジングとはを参照してください。

クエリ

クエリは、データを操作できる有効な SQL ステートメントです。プラットフォーム内の SQLエディタを使用してクエリを作成することも、 SQLコネクタ、ドライバ、またはAPIを使用して接続することもできます。クエリの操作方法の詳細については、「保存されたクエリへのアクセスと管理」を参照してください。

SQLウェアハウス

SQL クエリを実行する計算リソース。 SQLウェアハウスには、Classic、Pro、Serverレスの3種類があります。Databricks 可能な場合は、サーバレスウェアハウスを使用することをお勧めします。各ウェアハウスタイプで使用可能な機能を比較するには、SQLウェアハウスタイプを参照してください。

クエリ履歴

実行されたクエリとそのパフォーマンス特性の一覧。クエリ履歴を使用すると、クエリのパフォーマンスを監視できるため、ボトルネックを特定し、クエリの実行時間を最適化するのに役立ちます。クエリ履歴を参照してください。

視覚化

クエリの実行結果をグラフィカルに表示します。「Databricks ノートブックと SQL エディターでの視覚化」を参照してください。

ダッシュボード

データの視覚化と解説のプレゼンテーション。ダッシュボードを使用すると、Databricks アカウント内の任意のユーザーにレポートを自動的に送信できます。 Databricks Assistant を使用すると、自然言語プロンプトに基づいて視覚化を構築できます。ダッシュボードを参照してください。ノートブックからダッシュボードを作成することもできます。ノートブックのダッシュボードを参照してください。

レガシーダッシュボードについては、「レガシーダッシュボード」を参照してください。

important

Databricks では、AI/BI ダッシュボード (旧称 Lakeview ダッシュボード) の使用を推奨しています。以前のバージョンのダッシュボード (以前は Databricks SQL ダッシュボードと呼ばれていました) は、 レガシダッシュボード と呼ばれるようになりました。

サポート終了のタイムライン :

2025 年 4 月 7 日現在 : ダッシュボードの旧バージョンの公式サポートは終了しました。新しいレガシーダッシュボードを作成することはできなくなりました。重大なセキュリティ問題とサービスの停止のみが対処されます。
2025 年 11 月 3 日: Databricks は、過去 6 か月間アクセスされていないレガシーダッシュボードのアーカイブを開始します。アーカイブされたダッシュボードにはアクセスできなくなり、アーカイブプロセスはローリングベースで行われます。アクティブに使用されているダッシュボードへのアクセスは変更されません。

Databricks は、2025 年 11 月 3 日以降にアクティブなレガシダッシュボードの移行計画を策定するために、顧客と協力します。
移行ツールまたは REST API を使用して、従来のダッシュボードを変換します。組み込み移行ツールの使用手順については、「レガシーダッシュボードをAI/BIダッシュボードに複製する」を参照してください。REST API を使用したダッシュボードの作成と管理に関するチュートリアルについては、ダッシュボードのチュートリアルを参照してください。

アカウントとワークスペース​

請求: Databricks ユニット (DBU)​

認証と承認​

ユーザー​

サービスプリンシパル​

グループ​

アクセス制御リスト (ACL)​

パーソナルアクセストークン(PAT)​

Databricks インターフェイス​

UI​

REST API​

SQL REST API​

CLI​

データマネジメント​

Unity Catalog​

カタログ​

スキーマ​

テーブル​

ビュー​

ボリューム​

Delta テーブル​

メタストア​

カタログエクスプローラー​

DBFSルート​

計算管理​

クラスター​

プール​

Databricks ランタイム​

ワークフロー​

ジョブ​

パイプライン​

ワークロード​

実行コンテキスト​

データエンジニアリング​

ワークスペース​

ノートブック​

ライブラリ​

Git フォルダ (旧称 Repos)​

AIと機械学習​

Mosaic AI​

機械学習ランタイム​

エクスペリメント​

特徴量​

生成AIモデル​

モデルレジストリ​

モデルサービング​

データウェアハウジング​

クエリ​

SQLウェアハウス​

クエリ履歴​

視覚化​

ダッシュボード​