Databricks のコンセプト

この記事では、Databricks を効果的に使用するために理解する必要がある基本的な概念を紹介します。

アカウントとワークスペース

Databricksはワークスペースはクラウド内の Databricks デプロイメントであり、チームが Databricksアセットにアクセスするための環境として機能します。ニーズに応じて、複数のワークスペースを使用するか、 1つのワークスペースのみ使用するかを選択することが可能です。

Databricksアカウントは、複数のワークスペースを含めることができる単一のエンティティです。Unity Catalogが有効なアカウントであれば、アカウント内のすべてのワークスペースにわたって、ユーザーとデータへのアクセスを一元的に管理できます。請求とサポートもアカウントレベルで処理されます。

請求:Databricks ユニット(DBU)

Databricks は、VM インスタンス タイプに基づいた 1 時間あたりの処理能力の単位である Databricks ユニット (DBU) に基づいて課金されます。

Databricks on AWS の料金見積もり」を参照してください。

認証と承認

このセクションでは、Databricks IDとDatabricks アセットへのアクセスを管理する際に知っておくべき概念について説明します。

ユーザー

システムにアクセスできる一意の個人。 ユーザーのアイデンティティは電子メールアドレスで表されます。 「 ユーザーの管理」を参照してください。

サービスプリンシパル

サービスのアイデンティティであり、ジョブ、自動化ツール、スクリプト、アプリ、CI/CD プラットフォームなどのシステムで使用されます。 サービスプリンシパルはアプリケーション ID で表されます。 「サービスプリンシパルの管理」を参照してください。

グループ

アイデンティティのコレクションを表します。 グループを使用すると アイデンティティ管理が簡素化され、ワークスペース、データ、その他のセキュリティ保護可能なオブジェクトへのアクセスの割り当てが容易になります。 すべての Databricks アイデンティティはグループのメンバーとして割り当てることができます。 「グループの管理」を参照してください。

アクセス制御リスト(ACL)

ワークスペース、クラスター、ジョブ、テーブル、または実験に添付された権限のリスト。 ACL は、オブジェクトへのアクセスを許可するユーザーまたはシステム プロセスと、資産に対して許可される操作を指定します。 一般的な ACL の各エントリは、サブジェクトと操作を指定します。 アクセス制御リストを参照してください。

個人アクセストークン (PAT)

個人のアクセス トークンは、 REST API呼び出し、テクノロジー パートナー接続、およびその他のツールを認証するために使用される文字列です。 Databricks個人アクセストークン認証を参照してください。

Databricks インターフェイス

このセクションでは、Databricks 内のアセットにアクセスするためのインターフェイスについて説明します。

UI

Databricks UI は、ワークスペースフォルダとそれに含まれるオブジェクト、データオブジェクト、コンピューティングリソースなどの機能を操作するためのグラフィカルインターフェイスです。

REST API

Databricks REST API は、Databricks アカウントおよびワークスペース オブジェクトに関する情報を変更または要求するためのエンドポイントを提供します。 アカウントリファレンスワークスペースリファレンスを参照してください。

SQL REST API

SQL REST API を使用すると、SQL オブジェクト上のタスクを自動化できます。 SQL API を参照してください。

CLI

Databricks CLI はGitHubでホストされています。 CLI は Databricks REST API 上に構築されています。

データ管理

このセクションでは、機械学習アルゴリズムに入力し、分析を実行するデータを格納する論理オブジェクトについて説明します。 また、データオブジェクトを探索および管理するためのプラットフォーム内UIについても説明します。

Unity Catalog

Unity Catalog、 上のデータと 資産の統合ガバナンス ソリューションであり、AI Databricksワークスペース全体にわたる集中アクセス制御、監査、リネージ、およびデータ ディスカバリー機能を提供します。Databricks「Unity Catalog とは何ですか?」を参照してください。

DBFSルート

重要

DBFS ルートまたは DBFS マウントを使用したデータの格納とアクセスは非推奨のパターンであり、Databricks では推奨されません。 代わりに、Databricks では、Unity Catalog を使用してすべてのデータへのアクセスを管理することを推奨しています。 「 Unity Catalog とは」を参照してください。

DBFSルートは、デフォルトですべてのユーザーが使用できるストレージの場所です。 「DBFS とは」を参照してください。

「カタログエクスプローラ」(Catalog Explorer)

Catalog Explorer を使用すると、スキーマ (データベース)、テーブル、モデル、ボリューム (非表形式データ)、関数、登録済み ML モデルなどのデータと AI アセットを探索および管理できます。 これを使用して、データ オブジェクトと所有者の検索、テーブル間のデータのリレーションシップの理解、アクセス許可と共有の管理を行うことができます。 「カタログエクスプローラとは」を参照してください。

データベース

表、ビュー、関数などのデータ・オブジェクトの集合で、簡単にアクセス、管理、および更新できるように編成されたもの。 「Databricks のスキーマとは何ですか?」を参照してください。

テーブル

構造化データの表現。 Apache Spark SQLとApache Spark APIsを使用してテーブルをクエリします。 「テーブルとは」を参照してください

Delta テーブル

既定では、Databricksで作成されるすべてのテーブルはDeltaテーブルとなります。Deltaテーブルは、クラウドオブジェクトストア上の高性能 ACIDテーブルストレージのフレームワークである、 Delta Lake オープンソースプロジェクトに基づいています。Deltaテーブルは、データをクラウドオブジェクトストレージ上のファイルのディレクトリとして保存し、テーブルのメタデータをカタログおよびスキーマ内のメタストアに登録します。

もっと詳しく知るには、Delta としてブランド化されたテクノロジーを参照してください。

メタストア

データウェアハウス内のさまざまなテーブルとパーティションの構造情報(列と列タイプ情報、データの読み取りと書き込みに必要なシリアライザーとデシリアライザー、およびデータが格納されている対応するファイルを含む)をすべて格納するコンポーネント。 「メタストア」を参照

すべての Databricks デプロイメントには、テーブルメタデータを永続化するためにすべてのクラスターからアクセスできる中央 Hive メタストアがあります。既存の外部 Hive メタストアを使用するオプションもあります。

コンピューティング管理

このセクションでは、Databricks で計算を実行するために知っておく必要がある概念について説明します。

クラスター

ノートブックやジョブを実行するための、計算資源と設定のセットです。 クラスターには、汎用クラスターとジョブクラスターの2種類があります。 「 コンピュート」を参照してください。

  • All-Purposeクラスターは、UI、CLI、または REST APIを使用して作成します。All-Purpose クラスターは手動で終了・再起動することができます。複数のユーザーでクラスターを共有し、インタラクティブな分析を共同で行うことが可能です。

  • Databricks ジョブスケジューラは、新しいジョブクラスタージョブを実行したときにジョブクラスターを作成し、ジョブが完了したときにそのクラスターを終了します。ジョブクラスターを再起動することはできません

プール

アイドル状態ですぐに使用できるインスタンスのセットであり、クラスターの起動時間と自動スケーリング時間を短縮するために使用します。 プールをアタッチすると、クラスターはドライバーノードとワーカーノードをプールから割り当てます。 「プール構成リファレンス」を参照してください。

クラスターの要求に対応するのに十分なアイドルリソースがプールにない場合、インスタンスプロバイダーから新しいインスタンスを割り当ててプールを拡張します。アタッチされたクラスターが終了すると、使用していたインスタンスはプールに戻され、別のクラスターで再利用できます。

Databricks Runtime

Databricksによって管理されるクラスターで実行される、コアコンポーネントのセットです。 「 コンピュート」を参照してください。 Databricksには次のランタイムがあります:

  • Databricks Runtime は、Apache Spark だけでなく、ビッグデータ分析の操作性やパフォーマンス、セキュリティなどを向上させる数多くのコンポーネントや更新プログラムを含みます。

  • Databricks Runtime for Machine LearningはDatabricks Runtime上に構築されており、Databricksワークスペースのすべての機能と統合された事前構築済みの機械学習インフラストラクチャを提供します。TensorFlow、Keras、PyTorch、XGBoostといった、複数の一般的なライブラリを含んでいます。

ワークフロー

データ処理パイプラインを開発および実行するためのフレームワークです:

  • ジョブ: ノートブックまたはライブラリをただちに、またはスケジュールに基づいて実行するための非対話型メカニズムです。

  • Delta Live Tables:信頼性が高く、保守可能で、テスト可能なデータ処理パイプラインを構築するためのフレームワークです。

Databricks ワークフロー入門」を参照してください。

ワークロード

ワークロードとは、タスクまたはタスクのグループを実行するために必要な処理能力の量です。 Databricks 、データエンジニアリング (ジョブ) と データ分析 (汎用) の 2 種類のワークロードを識別します。

  • データエンジニアリングジョブクラスター上で実行される(自動化された)ワークロードであり、Databricks ジョブスケジューラによって個々に作成されます。

  • データ分析All-Purpose クラスター上で実行される(対話型の)ワークロードです。通常、対話型ワークロードは Databricks ノートブック内でコマンドを実行します。ただし、既存の All-Purpose クラスター上でのジョブの実行も対話型ワークロードとして扱われます。

実行コンテキスト

サポートされている各プログラミング言語の入力ー評価ー出力ループ(REPL)環境の状態を指します。サポートされている言語は、Python、R、Scala、SQL です。

データエンジニアリング

データエンジニアリングツールは、 data scientists 、データエンジニア、データアナリスト、機械学習エンジニア間のコラボレーションを支援します。

ワークスペース

ワークスペース は、すべての Databricks 資産にアクセスするための環境です。ワークスペースは、オブジェクト (ノートブック、ライブラリ、ダッシュボード、エクスペリメント) を フォルダー に整理し、データ オブジェクトとコンピューティング リソースへのアクセスを提供します。

ノートブック

データサイエンスおよび機械学習のワークフローを作成するためのWeb ベースのインターフェイスです。実行可能なコマンド、ビジュアライゼーション、説明テキストを含めることができます 「Databricks ノートブック入門」を参照してください。

ライブラリ

クラスター上で実行されているノートブックまたはジョブで使用できるコード パッケージ。 Databricks ランタイムには多くのライブラリが含まれており、独自のライブラリをアップロードすることもできます。 ライブラリを参照してください。

Git フォルダー (以前の Repos)

コンテンツをリモートGitリポジトリに同期することによって、一緒にバージョン管理されるフォルダーです。 Databricks Git フォルダーはGitと統合され、プロジェクトのソースとバージョン管理を提供します。

AIと機械学習

Databricks 、 AIおよび機械学習アプリケーションの開発と展開のために、マネージド サービスを備えた統合されたエンドツーエンドの環境を提供します。

Mosaic AI

の生成 Databricks Mosaic AIにおける最大のブレークスルーを担う研究者とエンジニアのチームである ResearchDatabricksAI の製品とサービスのブランド名。Mosaic AI 製品には、Databricks の ML 機能と AI 機能が含まれています。 「 モザイク研究」を参照してください。

機械学習ランタイム

MLおよびAIモデルの開発を支援するために、 Databricks機械学習用のDatabricks Runtimeを提供します。これは、最も一般的なMLおよび DL ライブラリを含む、事前に構築された機械学習およびディープラーニング インフラストラクチャを使用してコンピュートの作成を自動化します。 また、ドライバーやサポートライブラリを含む組み込みの事前構成済み GPU サポートも備えています。 Databricks Runtimeリリースノートのバージョンと互換性に関する最新リリースに関する情報を参照してください。

エクスペリメント

機械学習モデルをトレーニングする MLflow ラン の集合を指します。「MLflow エクスペリメントを使用してトレーニングの実行を整理する」を参照してください。

機能

特徴は ML モデルの重要なコンポーネントです。 Feature Store 、組織全体での機能の共有と検出が可能になり、モデルのトレーニングと推論に同じ機能計算コードが使用されるようになります。 機能エンジニアリングと提供を参照してください。

GenAIモデル

Databricks 、次のような生成AIモデルの探索、開発、展開をサポートしています。

モデルレジストリ

でDatabricks のホストMLflow Model RegistryUnity Catalog バージョンを提供します。Unity Catalogに登録されたモデルは、集中アクセス制御、リネージ、ワークスペース間の検出とアクセスを継承します。 「Unity Catalog でモデルのライフサイクルを管理する」を参照してください。

モデルサービング

Mosaic AI Model Serving は、AI モデルを展開、管理、クエリするための統合インターフェースを提供します。 提供する各モデルは、Web アプリケーションまたはクライアント アプリケーションに統合できる REST API として利用できます。 Mosaic AI Model Serving を使用すると、独自のモデル、基盤モデル、または Databricks の外部でホストされているサードパーティ モデルをデプロイできます。 Databricksを使用したモデルサービングを参照してください。

データウェアハウジング

データウェアハウジングとは、複数のソースからデータを収集して保存し、ビジネス分析やレポート作成のためにすぐにアクセスできるようにすることです。 Databricks SQL 、既存のデータレイクにデータウェアハウス機能とパフォーマンスをもたらすサービスのコレクションです。 Databricksの「データウェアハウジングとは何か?」を参照してください。 。

クエリ

クエリは、データを操作できるようにする有効な SQL ステートメントです。 プラットフォーム内のSQL エディターを使用してクエリを作成したり、 SQL コネクタ、ドライバー、または API ツールを使用して接続したりできます。 クエリの操作方法の詳細については、「 保存されたクエリへのアクセスと管理 」を参照してください。

SQLウェアハウス

SQL クエリを実行する計算リソース。 SQLウェアハウスにはClassic、Pro、サーバレスの3種類があります。 Databricks 、利用可能な場合はサーバーレス ウェアハウスを使用することをお勧めします。 各ウェアハウス タイプで利用可能な機能を比較するには、 SQLウェアハウス タイプを参照してください。

クエリ履歴

実行されたクエリとそのパフォーマンス特性のリスト。 クエリ履歴を使用すると、クエリのパフォーマンスを監視できるため、ボトルネックを特定し、クエリの実行時間を最適化できます。 「 クエリ履歴」を参照してください。

ビジュアライゼーション

クエリーの実行結果をグラフィカルに表示したものを指します。「Databricks ノートブックにおけるビジュアライゼーション」を参照してください。

ダッシュボード

データの視覚化と解説のプレゼンテーション。 ダッシュボードを使用すると、Databricks アカウント内の任意のユーザーにレポートを自動的に送信できます。 Databricks Assistant使用すると、自然言語プロンプトに基づいて視覚化を構築できます。 「 ダッシュボード」を参照してください。 ノートブックからダッシュボードを作成することもできます。 ノートブックのダッシュボードを参照してください。 レガシーダッシュボードについては、「 レガシーダッシュボード」を参照してください。