Databricks の概念
この記事では、Databricks を効果的に使用するために理解する必要がある基本的な概念を紹介します。
アカウントとワークスペース
Databricksは ワークスペース はクラウド内の Databricks デプロイメントであり、チームが Databricksアセットにアクセスするための環境として機能します。ニーズに応じて、複数のワークスペースを使用するか、 1つのワークスペースのみ使用するかを選択することが可能です。
Databricks アカウント は、課金とサポートの目的で 1 つのエンティティを表します。 アカウントには、複数のワークスペースを含めることができます。
請求: Databricks ユニット (DBU)
Databricks は、VM インスタンスの種類に基づく時間あたりの処理能力の単位である Databricks ユニット (DBU) に基づいて課金されます。
Databricks on Google Cloud価格のページをご覧ください。
認証と承認
このセクションでは、Databricks IDとDatabricks アセットへのアクセスを管理する際に知っておくべき概念について説明します。
ユーザー
システムにアクセスできる一意の個人。 ユーザー ID は Eメール アドレスで表されます。 「ユーザーの管理」を参照してください。
サービスプリンシパル
ジョブ、自動化ツール、およびスクリプト、アプリ、CI/CD プラットフォームなどのシステムで使用するサービス ID。 サービスプリンシパルは、アプリケーション ID で表されます。 Manage サービスプリンシパルを参照してください。
グループ
ID のコレクション。 グループを使用すると ID 管理が簡素化され、ワークスペース、データ、その他のセキュリティ保護可能なオブジェクトへのアクセスを簡単に割り当てることができます。 すべての Databricks ID は、グループのメンバーとして割り当てることができます。 「グループの管理」を参照してください。
アクセス制御リスト (ACL)
ワークスペース、クラスター、ジョブ、テーブル、またはエクスペリメントにアタッチされたアクセス許可の一覧。 ACL は、オブジェクトへのアクセスを許可するユーザーまたはシステムプロセスと、アセットに対して許可される操作を指定します。 一般的な ACL の各エントリは、サブジェクトと操作を指定します。 アクセス制御リストを参照してください。
パーソナルアクセストークン(PAT)
パーソナル アクセス トークンは、 REST API 呼び出し、 技術パートナー 接続、およびその他のツールを認証するために使用される文字列です。 「Databricks 個人用アクセス トークン認証」を参照してください。
Databricks インターフェイス
このセクションでは、Databricks でアセットにアクセスするためのインターフェイスについて説明します。
UI
Databricks UI は、ワークスペースフォルダとそれに含まれるオブジェクト、データオブジェクト、コンピューティングリソースなどの機能を操作するためのグラフィカルインターフェイスです。
REST API
Databricks REST API は、Databricks アカウントとワークスペース オブジェクトに関する情報を変更または要求するためのエンドポイントを提供します。 「アカウント参照」および「ワークスペース参照」を参照してください。
SQL REST API
SQL REST API を使用すると、SQL オブジェクトに対するタスクを自動化できます。 「SQL API」を参照してください。
CLI
Databricks CLI は GitHub でホストされています。CLI は、Databricks REST API の上に構築されています。
データマネジメント
このセクションでは、Databricks のデータを整理および管理するために使用されるツールと論理オブジェクトについて説明します。 「Databricks のデータベース オブジェクト」を参照してください。
Unity Catalog
Unity Catalogは、AI 上のデータとDatabricks 資産のための統合ガバナンス ソリューションであり、 ワークスペース全体で一元的なアクセス制御、監査、リネージ、およびデータディスカバリー機能を提供します。Databricks「Unity Catalog とは」を参照してください。
カタログ
カタログは、Databricks 上のデータを整理および分離するための最上位のコンテナーです。 同じリージョンとアカウント内のワークスペース間でカタログを共有できます。 「Databricks のカタログとは」を参照してください。
スキーマ
スキーマ (データベースとも呼ばれます) はカタログ内に含まれており、より詳細なレベルの編成を提供します。 これには、データベースオブジェクトと、ボリューム、テーブル、関数、モデルなどのAIアセットが含まれています。 「Databricks のスキーマとは」を参照してください。
テーブル
テーブルは、構造化データへのアクセスを整理し、管理します。 テーブルに対してクエリを実行するには、 Apache Spark SQL と Apache Spark APIsを使用します。 「テーブルとは」を参照してください。
ビュー
ビューは、1 つ以上のテーブルとビューから派生した読み取り専用オブジェクトです。 ビューは、テーブルに対して定義されたクエリを保存します。 「ビューとは」を参照してください。
ボリューム
ボリュームは、クラウド・オブジェクト・ストレージ・ロケーション内のストレージの論理ボリュームを表し、表形式以外のデータへのアクセスを編成および制御します。 Databricks では、クラウド オブジェクト ストレージ上の非表形式データへのすべてのアクセスを管理するために、ボリュームを使用することをお勧めします。 Unity Catalogボリュームとはを参照してください。
Delta テーブル
既定では、Databricksで作成されるすべてのテーブルはDeltaテーブルとなります。Deltaテーブルは、クラウドオブジェクトストア上の高性能 ACIDテーブルストレージのフレームワークである、 Delta Lake オープンソースプロジェクトに基づいています。Deltaテーブルは、データをクラウドオブジェクトストレージ上のファイルのディレクトリとして保存し、テーブルのメタデータをカタログおよびスキーマ内のメタストアに登録します。
Deltaとしてブランド化されたテクノロジーの詳細をご覧ください。
メタストア
Unity Catalog は、データ、AI、およびカタログ、スキーマ、テーブルに関するアクセス許可に関するメタデータを登録するアカウント レベルのメタストアを提供します。 「メタストア」を参照してください。
Databricksは、Hive metastore を採用していない顧客に対してレガシーUnity Catalog を提供します。「Hive metastore テーブルアクセスコントロール (レガシー)」を参照してください。
カタログエクスプローラー
Catalog Explorer を使用すると、スキーマ (データベース)、テーブル、モデル、ボリューム (非表形式データ)、関数、登録済み ML モデルなど、データと AI 資産を探索および管理できます。 これを使用して、データ オブジェクトと所有者の検索、テーブル間のデータ リレーションシップの理解、アクセス許可と共有の管理を行うことができます。 「カタログエクスプローラとは」を参照してください。
DBFSルート
DBFSルート マウントまたは DBFS マウントを使用したデータの格納とアクセスは非推奨のパターンであり、Databricksでは推奨されません。代わりに、Databricks では、Unity Catalog を使用してすべてのデータへのアクセスを管理することをお勧めします。 「Unity Catalog とは」を参照してください。
DBFSルートは、デフォルトですべてのユーザーが使用できるストレージの場所です。 DBFS とはを参照してください。
計算管理
このセクションでは、Databricks で計算を実行するために知っておく必要がある概念について説明します。
クラスター
ノートブックとジョブを実行するための一連の計算リソースと構成。 クラスターには、all-purpose と job の 2 種類があります。 コンピュートを参照してください。
- All-Purposeクラスター は、UI、CLI、または REST APIを使用して作成します。All-Purpose クラスターは手動で終了・再起動することができます。複数のユーザーでクラスターを共有し、インタラクティブな分析を共同で行うことが可能です。
- Databricks ジョブ スケジューラは、 新しいジョブ クラスター でジョブを実行するとジョブ クラスター を作成し、ジョブが完了するとクラスターを終了します。ジョブ クラスターは再起動 できません 。
プール
すぐに使用できるアイドル状態のインスタンスのセットで、クラスターの開始時間と自動スケーリング時間を短縮します。 プールにアタッチされると、クラスターはプールからドライバー ノードとワーカー ノードを割り当てます。 「プール構成リファレンス」を参照してください。
クラスターの要求に対応するのに十分なアイドルリソースがプールにない場合、インスタンスプロバイダーから新しいインスタンスを割り当ててプールを拡張します。アタッチされたクラスターが終了すると、使用していたインスタンスはプールに戻され、別のクラスターで再利用できます。
Databricks ランタイム
Databricksによって管理されるクラスターで実行されるコア コンポーネントのセット。コンピュートを参照してください。Databricks には、次のランタイムがあります。
- Databricks RuntimeにはApache Sparkが含まれていますが、ビッグデータ分析の使いやすさ、パフォーマンス、およびセキュリティを大幅に向上させる多数のコンポーネントと更新プログラムも追加されています。
- Databricks Runtime for Machine Learning は Databricks Runtime 上に構築されており、Databricks ワークスペースのすべての機能と統合されている事前構築済みの機械学習インフラストラクチャを提供します。 これには、TensorFlow、Keras、PyTorch、XGBoost など、複数の一般的なライブラリが含まれています。
ワークフロー
ワークフロー ワークスペース UI は、ワークフローの調整とスケジュールを可能にするツールであるジョブと DLT パイプライン UI へのエントリを提供します。
ジョブ
ノートブック、ライブラリ、およびその他のタスクの調整とスケジュール設定を行うための非対話型メカニズム。「Databricks ジョブを使用したオーケストレーション」を参照してください
パイプライン
DLT パイプラインは、信頼性、保守性、およびテスト性に優れたデータ処理パイプラインを構築するための宣言型フレームワークを提供します。 DLTとはを参照してください。
ワークロード
ワークロードは、タスクまたはタスクのグループを実行するために必要な処理能力の量です。 Databricks では、データエンジニアリング (ジョブ) とデータ分析 (all-purpose) の 2 種類のワークロードを識別します。
- データエンジニアリング : ジョブクラスター 上で実行される(自動化された)ワークロードであり、Databricks ジョブスケジューラによって個々に作成されます。
- データ分析 An (interactive) workload runsing on an All-Purposeクラスター . 対話型ワークロードは、通常、Databricks ノートブック内でコマンドを実行します。 ただし、 既存の汎用 クラスターで ジョブ を実行することも、対話型ワークロードとして扱われます。
実行コンテキスト
サポートされている各プログラミング言語の入力ー評価ー出力ループ(REPL)環境の状態を指します。サポートされている言語は、Python、R、Scala、SQL です。
データエンジニアリング
データエンジニアリング ツールは、 data scientists、データエンジニア、データアナリスト、機械学習エンジニア間のコラボレーションを支援します。
ワークスペース
ワークスペースは、すべての Databricks アセットにアクセスするための環境です。ワークスペースは、オブジェクト (ノートブック、ライブラリ、ダッシュボード、エクスペリメント) を フォルダー に整理し、データ オブジェクトと計算リソースへのアクセスを提供します。
ノートブック
データサイエンスと機械学習のワークフローを作成するための Web ベースのインターフェイスで、実行可能なコマンド、ビジュアライゼーション、および説明テキストを含めることができます。 「Databricks ノートブックの概要」を参照してください。
ライブラリ
クラスターで実行されているノートブックまたはジョブで使用できるコードのパッケージ。 Databricks ランタイムには多くのライブラリが含まれており、独自のライブラリをアップロードすることもできます。 「ライブラリ」を参照してください。
Git フォルダ (旧称 Repos)
内容がリモート Git リポジトリに同期されることで共同バージョン管理されるフォルダー。 Databricks Git フォルダー は Git と統合され、プロジェクトのソースとバージョン管理を提供します。
AIと機械学習
Databricks は、 AI および機械学習アプリケーションを開発およびデプロイするためのマネージドサービスを備えた、統合されたエンドツーエンドの環境を提供します。
Mosaic AI
Databricks Mosaic AI Researchの製品とサービスのブランド名、Databricks最大のブレークスルーをAIに担当する研究者とエンジニアのチーム。Mosaic AI 製品には、Databricks の ML および AI 機能が含まれています。 モザイク研究を参照してください。
機械学習ランタイム
モデルや MLAIモデルの開発を支援するために、Databricks は、最も一般的なDatabricks RuntimeML ライブラリや DL ライブラリなどの事前構築済みの機械学習およびディープラーニング インフラストラクチャを使用してコンピュートの作成を自動化する Machine Learning の を提供します。また、ドライバーやサポートライブラリなど、組み込み可能な事前構成済みのGPUサポートも備えています。 Databricks Runtime リリースノート バージョンからの最新のランタイム リリースと互換性に関する情報を参照します。
エクスペリメント
機械学習モデルをトレーニングするための MLflow 実行 のコレクション。 「MLflow エクスペリメントを使用したトレーニング 実行の整理」を参照してください。
特徴量
機能は、ML モデルの重要なコンポーネントです。 特徴ストアは、組織全体での特徴の共有と検出を可能にし、モデルのトレーニングと推論に同じ特徴計算コードが使用されるようにします。 「特徴のエンジニアリングとサービング」を参照してください。
生成AIモデル
Databricks 、次のような生成AI モデルの探索、開発、デプロイをサポートします。
-
AI プレイグラウンドは、LLM をテスト、プロンプト、比較できるワークスペース内のチャットのような環境です。「LLM とのチャット」および「 を使用したプロトタイプ生成AI アプリAI Playground 」を参照してください。
-
クエリを実行できる事前構成済みの基盤モデルの組み込みセット:
- トークン単位の従量課金 基盤モデル APIsを参照してください。
- 1 回のクリックで提供できる基盤モデルについては、「 [推奨] Unity Catalog から基盤モデルをデプロイする 」を参照してください。
-
外部モデルと呼ばれる、サードパーティがホストする LLM。これらのモデルは、そのまま使用することを意図しています。
モデルレジストリ
DatabricksMLflow Model Registryは、 でホストされたバージョンのUnity Catalog を提供します。Unity Catalogに登録されたモデルは、一元化されたアクセス制御、リネージ、およびワークスペース間の検出とアクセスを継承します。「Unity Catalog でのモデルのライフサイクルの管理」を参照してください。
モデルサービング
Mosaic AI Model Serving は、AI モデルをデプロイ、管理、クエリするための統一されたインターフェイスを提供します。 提供する各モデルは、Web アプリケーションまたはクライアント アプリケーションに統合できる REST API として使用できます。 Mosaic AI Model Serving を使用すると、独自のモデル、基盤モデル、または Databricks の外部でホストされているサードパーティモデルをデプロイできます。 Mosaic AI Model Servingを使用したモデルのデプロイを参照してください。
データウェアハウジング
データウェアハウジングとは、複数のソースからデータを収集して保存し、ビジネスの知見やレポート作成のためにすばやくアクセスできるようにすることを指します。 Databricks SQL は、既存のデータレイクにデータウェアハウジングの機能とパフォーマンスをもたらすサービスのコレクションです。 Databricksのデータウェアハウジングとはを参照してください。
クエリ
クエリは、データを操作できる有効な SQL ステートメントです。 プラットフォーム内の SQLエディタを使用してクエリを作成することも、 SQLコネクタ、ドライバ、またはAPIを使用して接続することもできます。 クエリの操作方法の詳細については、「 保存されたクエリへのアクセスと管理 」を参照してください。
SQLウェアハウス
SQL クエリを実行する計算リソース。 SQLウェアハウスには、Classic、Pro、Serverレスの3種類があります。Databricks 可能な場合は、サーバレス ウェアハウスを使用することをお勧めします。 各ウェアハウス タイプで使用可能な機能を比較するには、SQLウェアハウス タイプを参照してください。
クエリ履歴
実行されたクエリとそのパフォーマンス特性の一覧。 クエリ履歴を使用すると、クエリのパフォーマンスを監視できるため、ボトルネックを特定し、クエリの実行時間を最適化するのに役立ちます。 クエリ履歴を参照してください。
視覚化
クエリの実行結果をグラフィカルに表示します。 「Databricks ノートブックでの視覚化」を参照してください。
ダッシュボード
データの視覚化と解説のプレゼンテーション。 ダッシュボードを使用すると、Databricks アカウント内の任意のユーザーにレポートを自動的に送信できます。 Databricks Assistant を使用すると、自然言語プロンプトに基づいて視覚化を構築できます。 「ダッシュボード」を参照してください。ノートブックからダッシュボードを作成することもできます。 ノートブックのダッシュボードを参照してください。
レガシーダッシュボードについては、「 レガシーダッシュボード」を参照してください。
- Databricks では、AI/BI ダッシュボード (旧称 Lakeview ダッシュボード) の使用を推奨しています。 以前のバージョンのダッシュボード (以前は Databricks SQL ダッシュボードと呼ばれていました) は、 レガシ ダッシュボード と呼ばれるようになりました。 Databricks では、新しいレガシ ダッシュボードを作成することはお勧めしません。
サポート終了のタイムライン :
-
2025 年 4 月 7 日 : 従来のバージョンのダッシュボードの公式サポートが終了します。 重大なセキュリティ問題とサービスの停止のみが対処されます。
-
2025 年 11 月 3 日: Databricks は、過去 6 か月間アクセスされていないレガシーダッシュボードのアーカイブを開始します。 アーカイブされたダッシュボードにはアクセスできなくなり、アーカイブプロセスはローリングベースで行われます。 アクティブに使用されているダッシュボードへのアクセスは変更されません。
Databricks は、2025 年 11 月 3 日以降にアクティブなレガシ ダッシュボードの移行計画を策定するために、顧客と協力します。
-
移行ツールまたは REST API を使用して、従来のダッシュボードを変換します。 組み込み移行ツールの使用手順については、「レガシーダッシュボードをAI/BI dashboardに複製する」を参照してください。REST API を使用したダッシュボードの作成と管理に関するチュートリアルについては 、ダッシュボードのチュートリアル を参照してください。