データガイド

Databricks Data Intelligence Platform は、組織全体のデータ実務家が、安全に管理された共有データアセットとツールを使用して、データソリューションを共同で生産化できるようにします。

このページは、ユースケースの適切な開始点を特定するのに役立ちます。

Databricks の多くのタスクでは、昇格された権限が必要です。多くの組織では、これらの昇格された権限を少数のユーザーまたはチームに制限しています。このページでは、ほとんどのワークスペースユーザーが実行できるアクションと、特権ユーザーに制限されているアクションを区別します。

ワークスペース管理者は、アセットへのアクセスをリクエストする必要があるか、昇格された権限をリクエストする必要があるかを判断するのに役立ちます。

データの検索とアクセス

このセクションでは、使用可能なデータ資産を見つけるのに役立つタスクの概要について説明します。これらのタスクのほとんどは、管理者がデータ資産に対するアクセス許可を構成していることを前提としています。データアクセスの構成を参照してください。

機能領域	リソース
データディスカバリー	データディスカバリータスクの詳細な概要については、「データの検出」を参照してください。
カタログ	カタログは、 Unity Catalog データガバナンスモデルの最上位オブジェクトです。カタログエクスプローラを使用して、テーブル、ビュー、およびその他のデータアセットを検索します。データベース・オブジェクトの探索を参照してください。標準カタログには、Unity Catalog スキーマ、テーブル、ボリューム、モデル、およびその他のデータベースオブジェクトが含まれています。カタログの作成を参照してください。フォーリンカタログには、外部システムからのフェデレーテッド・テーブルが含まれています。フォーリンカタログの管理と操作を参照してください。 `hive_metastore`カタログオブジェクトには、データガバナンスのUnity Catalogの代わりの組み込みレガシーHive metastoreを使用するテーブルが含まれています。レガシーHive metastoreとUnity Catalogの操作を参照してください。
接続ストレージ	コンピュートリソースにアクセスできる場合は、組み込みコマンドを使用して、接続されたストレージ内のファイルを探索できます。ストレージの探索とデータファイルの検索を参照してください。
ローカルファイルのアップロード	デフォルトでは、ユーザーには、CSV などの小さなデータファイルをローカルマシンからアップロードする権限があります。ファイルのアップロードを使用したテーブルの作成または変更を参照してください。

データの操作

このセクションでは、一般的なデータタスクと、それらのタスクの実行に使用されるツールの概要について説明します。

説明されているすべてのタスクについて、ユーザーはツール、コンピュートリソース、データ、およびその他のワークスペースアーティファクトに対する適切なアクセス許可を持っている必要があります。データアクセスの構成およびワークスペースとインフラストラクチャの構成を参照してください。

機能領域	リソース
データベース・オブジェクト	Databricks では、テーブルとビューに加えて、ボリュームなどの他のセキュリティ保護可能なデータベースオブジェクトを使用して、データを安全に管理します。 Databricks のデータベースオブジェクトを参照してください。
データ権限	Unity Catalog は、有効なワークスペースでのすべての読み取りおよび書き込み操作を制御します。これらの操作を完了するには、適切なアクセス許可が必要です。「Unity Catalog のセキュリティ保護可能なオブジェクト」を参照してください。
ETL	抽出、変換、ロード (ETL) ワークロードは、Apache Spark と Databricks の最も一般的な用途の 1 つであり、プラットフォームのほとんどには ETL 用に構築および最適化された機能が備わっています。「チュートリアル: Lakeflow Spark宣言型パイプラインを使用してETLパイプラインを構築する」を参照してください。
クエリー	すべての変換、レポート、分析、またはモデルトレーニングの実行は、テーブル、ビュー、またはデータファイルに対するクエリから始まります。データのクエリは、バッチ処理またはストリーム処理のいずれかを使用して行うことができます。データのクエリを参照してください。 SQL クエリエディタまたはノートブックを使用してアドホッククエリを実行し、テーブル、ビュー、およびその他のデータ資産に対してクエリを実行します。「新しい SQL エディターとDatabricks ノートブックでのクエリの記述とデータの探索」を参照してください。
ダッシュボード & 知見	AI/BI ダッシュボードを使用すると、UIで簡単に知見を抽出して視覚化できます。「ダッシュボード」を参照してください。 Genie spacesテキストプロンプトを使用して質問に答え、データに基づいた知見を提供します。 Genieスペースとはを参照してください。
インジェスト	Lakeflowコネクトは、一般的な外部システムからデータを取り込みます。 Lakeflowコネクトの管理対象コネクタを参照してください。 Auto Loader Lakeflow Spark宣言型パイプラインまたは構造化ストリーミングジョブとともに使用して、クラウドオブジェクトストレージからデータを段階的に取り込むことができます。「Auto Loader とは何ですか?」を参照してください。 Lakeflow Spark宣言型パイプラインまたは構造化ストリーミングを使用して、 Kafkaを含むメッセージキューからデータを取り込むことができます。「ストリーミングデータのクエリ」を参照してください。
トランスフォーメーション	Databricks は、SQL CTAS ステートメントからほぼリアルタイムのストリーミングアプリケーションまで、さまざまな複雑さの変換に共通の構文とツールを使用します。 DDL と DML の SQL クエリの使用については、保存されたクエリへのアクセスと管理を参照してください。 PySpark の概要については、 DatabricksにおけるPySparkを参照してください。構造化ストリーミングの詳細については、「構造化ストリーミングの概念」を参照してください。
AIと機械学習	Databricks Data Intelligence Platform は、データサイエンス、機械学習、AI アプリケーションのための一連のツールを提供します。 Databricks の AI と機械学習をご覧ください。

データアクセスを構成する

ほとんどの Databricks ワークスペースは、ワークスペース管理者またはその他のパワーユーザーに依存して、外部データソースへの接続を構成し、チームのメンバーシップ、リージョン、またはロールに基づいてデータアセットへの権限を適用します。このセクションでは、昇格されたアクセス許可を必要とするデータアクセスを構成および制御するための一般的なタスクの概要について説明します。

注記

データソースへの新しい接続を設定するために昇格されたアクセス許可をリクエストする前に、既存の接続、カタログ、またはテーブルに対する権限が不足しているだけかどうかを確認してください。データソースが利用できない場合は、ワークスペースに新しいデータを追加するためのポリシーについて、組織に問い合わせてください。

機能領域	リソース
Unity Catalog	Unity Catalog は、Databricks Data Intelligence Platform に組み込まれたデータガバナンス機能を強化します。 Unity Catalog とはを参照してください。 Databricks アカウント管理者、ワークスペース管理者、メタストア管理者には、ユーザーの Unity Catalog データ特権を管理するためのデフォルトの特権があります。 Unity Catalog での特権の管理を参照してください。
接続とアクセス	クラウドオブジェクトストレージへの安全な接続の設定は、重要なアクティビティであり、ほぼすべての管理者およびエンドユーザー関連のタスクの前提条件です。「Unity Catalog を使用してクラウドオブジェクトストレージに接続する」を参照してください。レイクハウスフェデレーションを使用して外部システムへの接続を設定します。「クエリフェデレーション設定の概要」を参照してください。 Unity Catalog は、オープンソース APIを使用して外部システムからのアクセスを提供するようにデータガバナンスを拡張します。外部システムを使用した Databricks データへのアクセスを参照してください。サービス資格情報を使用すると、管理者はクラウドプロバイダーで定義されたアクセス許可を Unity Catalog にリンクできるため、ユーザーは統合システムでワークロードを開発するときにこれらの資格情報を活用できます。サービス資格情報の作成を参照してください。
カタログとダッシュボードの共有	管理者は新しいカタログを作成できます。カタログは、データ分離のための高レベルの抽象化を提供し、個々のワークスペースに関連付けることも、アカウント内のすべてのワークスペース間で共有することもできます。カタログの作成を参照してください。 AI/BI ダッシュボードでは、オーナーが公開時に認証情報を埋め込むように促し、閲覧者が共有結果から知見を得ることができるようにします。詳細については、ダッシュボードの共有を参照してください。

ワークスペースとインフラストラクチャを構成する

このセクションでは、ワークスペースアセットとインフラストラクチャの管理に関連する一般的なタスクの概要を説明します。広義に定義すると、ワークスペースアセットには次のものが含まれます。

コンピュートリソース : コンピュートリソースには、汎用インタラクティブクラスター、 SQLウェアハウス、ジョブクラスター、およびパイプラインコンピュートが含まれます。ユーザーまたはワークロードは、指定されたロジックを処理するために、実行中のコンピュートリソースに接続するためのアクセス許可を持っている必要があります。

注記

コンピュートリソースに接続するためのアクセス権を持たないユーザーは、 Databricksで非常に限られた機能しか使用できません。

プラットフォームツール :Databricks Data Intelligence Platformは、ノートブック、Databricks SQL、Mosaic AIなど、さまざまなユースケースやペルソナに合わせたツールスイートを提供します。管理者は、これらのツールの多くに対するデフォルトの動作、オプション機能、およびユーザーアクセスを含む設定をカスタマイズできます。
アーティファクト : アーティファクトには、ノートブック、クエリ、ダッシュボード、ファイル、ライブラリ、パイプライン、ジョブが含まれます。アーティファクトには、ユーザーがデータに対して必要なアクションを実行するために作成するコードと構成が含まれています。

重要

ワークスペースアセットを作成するユーザーには、デフォルトで 所有者 ロールが割り当てられます。ほとんどのアセットでは、所有者はワークスペース内の他のユーザーまたはグループにアクセス許可を付与できます。

データとコードのセキュリティを確保するために、 Databricks は、本番運用ワークスペースにデプロイされたすべてのアーティファクトとコンピュートリソースに対して所有者ロールを構成することをお勧めします。

機能領域	リソース
ワークスペースのエンタイトルメント	ワークスペースのエンタイトルメントには、基本的なワークスペースアクセス、 Databricks SQLへのアクセス、無制限のクラスター作成が含まれます。エンタイトルメントの管理を参照してください。
コンピュートリソースのアクセス & ポリシー	Databricksのほとんどのコストはコンピュートリソースです。さまざまなリソースを構成、デプロイ、開始、および使用できるユーザーを制御することは、コストを制御するために不可欠です。クラシック・コンピュートの概要を参照してください。コンピュートポリシーは、ワークスペースコンピュートエンタイトルメントと連携して動作し、エンタイトルメントを持つユーザーが指定された構成ルールに従ってのみコンピュートリソースをデプロイするようにします。コンピュートポリシーの作成と管理を参照してください。管理者は、デフォルト動作、データアクセスポリシー、および SQLウェアハウスへのユーザーアクセスを構成できます。ウェアハウスSQL管理者設定を参照してください。
プラットフォームツール	管理コンソールを使用して、ワークスペースの外観のカスタマイズから製品や機能の有効化または無効化まで、さまざまな動作を設定します。ワークスペースの管理を参照してください。
ワークスペース ACL	ワークスペースのアクセス制御リスト (ACL) は、ユーザーとグループがコンピュートリソース、コードアーティファクト、ジョブなどのワークスペースアセットと対話する方法を制御します。アクセス制御リストを参照してください。

ワークロードの運用化

すべての Databricks 製品は、開発から本番運用までの道のりを加速し、スケールと安定性のために構築されています。このセクションでは、ワークロードを本番運用に取り込むために推奨される一連のツールについて簡単に紹介します。

機能領域	リソース
ETL パイプライン	Lakeflow Spark宣言型パイプラインは、 ETLパイプラインを構築および運用するための宣言型パイプラインを提供します。 Lakeflow Spark宣言型パイプラインを参照してください。
オーケストレーション	ジョブを使用すると、依存関係、トリガー、スケジュールを含む複雑なワークフローを定義できます。Lakeflowジョブを参照してください。
CI/CD	宣言型オートメーションバンドルを使用すると、ワークスペース全体でのデータ、資産、アーティファクトの管理と展開が簡単になります。「宣言型自動化バンドルとは何か？」を参照してください。

データの検索とアクセス​

データの操作​

データ アクセスを構成する​

ワークスペースとインフラストラクチャを構成する​

ワークロードの運用化​

データの検索とアクセス

データの操作

データアクセスを構成する

ワークスペースとインフラストラクチャを構成する

ワークロードの運用化