メインコンテンツまでスキップ

データガイド

Databricks Data Intelligence Platform は、組織全体のデータ実務家が、安全に管理された共有データアセットとツールを使用して、データソリューションを共同で生産化できるようにします。

この記事では、ユースケースの正しい開始点を特定するのに役立ちます。

Databricks の多くのタスクでは、昇格されたアクセス許可が必要です。 多くの組織では、これらの昇格されたアクセス許可を少数のユーザーまたはチームに制限しています。 この記事では、ほとんどのワークスペース ユーザーが完了できるアクションと、特権ユーザーに限定されたアクションを明確にします。

ワークスペース管理者は、アセットへのアクセスをリクエストする必要があるか、昇格された権限をリクエストする必要があるかを判断するのに役立ちます。

データの検索とアクセス

このセクションでは、使用可能なデータ資産を見つけるのに役立つタスクの概要について説明します。 これらのタスクのほとんどは、管理者がデータ資産に対するアクセス許可を構成していることを前提としています。 データ アクセスの構成を参照してください。

機能領域

リソース

データディスカバリー

データディスカバリー タスクの詳細な概要については、「 データの検出」を参照してください。

カタログ

カタログは、 Unity Catalog データガバナンス モデルの最上位オブジェクトです。 カタログエクスプローラを使用して、テーブル、ビュー、およびその他のデータアセットを検索します。データベース・オブジェクトの探索を参照してください。

  • 標準カタログには、Unity Catalog スキーマ、テーブル、ボリューム、モデル、およびその他のデータベース オブジェクトが含まれています。 カタログの作成を参照してください。
  • フォーリンカタログには、外部システムからのフェデレーテッド・テーブルが含まれています。 フォーリンカタログの管理と操作を参照してください。
  • hive_metastoreカタログオブジェクトには、データガバナンスののためのUnity Catalogの代わりに組み込みのレガシーHive metastoreを使用するテーブルが含まれています。Unity Catalog と従来のHive metastoreの操作を参照してください。

接続ストレージ

コンピュート リソースにアクセスできる場合は、組み込み コマンドを使用して、接続されたストレージ内のファイルを探索できます。 ストレージの探索とデータファイルの検索を参照してください。

ローカルファイルのアップロード

デフォルトでは、ユーザーには、CSV などの小さなデータファイルをローカルマシンからアップロードする権限があります。 ファイルのアップロードを使用したテーブルの作成または変更を参照してください。

データの操作

このセクションでは、一般的なデータ タスクと、それらのタスクの実行に使用されるツールの概要について説明します。

説明されているすべてのタスクについて、ユーザーはツール、コンピュート リソース、データ、およびその他のワークスペース アーティファクトに対する適切なアクセス許可を持っている必要があります。 データ アクセスの構成およびワークスペースとインフラストラクチャの構成を参照してください。

機能領域

リソース

データベース・オブジェクト

Databricks では、テーブルとビューに加えて、ボリュームなどの他のセキュリティ保護可能なデータベース オブジェクトを使用して、データを安全に管理します。 Databricks のデータベース オブジェクトを参照してください。

データ権限

Unity Catalog は、有効なワークスペースでのすべての読み取りおよび書き込み操作を制御します。 これらの操作を完了するには、適切なアクセス許可が必要です。 「Unity Catalog のセキュリティ保護可能なオブジェクト」を参照してください。

ETL

抽出、変換、読み込み (ETL) ワークロードは、Apache Spark と Databricks の最も一般的な用途の 1 つであり、ほとんどのプラットフォームには ETL 用に構築および最適化された機能があります。 「Databricks で初めての ETL ワークロードを実行する」を参照してください。

クエリー

  • すべての変換、レポート、分析、またはモデル トレーニングの実行は、テーブル、ビュー、またはデータ ファイルに対するクエリから始まります。 データのクエリは、バッチ処理またはストリーム処理のいずれかを使用して行うことができます。 データのクエリを参照してください。
  • SQL クエリ エディタまたはノートブックを使用してアドホック クエリを実行し、テーブル、ビュー、およびその他のデータ資産に対してクエリを実行します。 SQL エディターでのクエリの記述とデータの探索およびDatabricks ノートブックの概要を参照してください。

ダッシュボード & 知見

  • AI/BI ダッシュボードを使用すると、UIで簡単に知見を抽出して視覚化できます。 「ダッシュボード」を参照してください。
  • Genieスペース テキストプロンプトを使用して質問に答え、データから得られる知見を提供します。 AI/BI Genieスペースとはを参照してください。

インジェスト

  • LakeFlow Connect は、一般的な外部システムからデータを取り込みます。 LakeFlow Connectを参照してください。
  • Auto Loader を DLT または構造化ストリーミング ジョブと共に使用して、クラウド オブジェクト ストレージからデータを段階的に取り込むことができます。 「Auto Loaderとは」を参照してください。
  • DLT または構造化ストリーミングを使用して、Kafka などのメッセージキューからデータを取り込むことができます。ストリーミングデータのクエリを参照してください。

トランスフォーメーション

Databricks は、SQL CTAS ステートメントからほぼリアルタイムのストリーミング アプリケーションまで、さまざまな複雑さの変換に共通の構文とツールを使用します。データ変換の概要については、 Databricks でのデータ変換とはを参照してください。

AIと機械学習

Databricks Data Intelligence Platform は、データサイエンス、機械学習、AI アプリケーションのための一連のツールを提供します。 Databricks の AI と機械学習をご覧ください。

:::

データ アクセスを構成する

ほとんどの Databricks ワークスペースは、ワークスペース管理者またはその他のパワーユーザーに依存して、外部データソースへの接続を構成し、チームのメンバーシップ、リージョン、またはロールに基づいてデータアセットへの権限を適用します。 このセクションでは、昇格されたアクセス許可を必要とするデータ アクセスを構成および制御するための一般的なタスクの概要について説明します。

注記

データソースへの新しい接続を設定するために昇格されたアクセス許可をリクエストする前に、既存の接続、カタログ、またはテーブルに対する権限が不足しているだけかどうかを確認してください。 データソースが利用できない場合は、ワークスペースに新しいデータを追加するためのポリシーについて、組織に問い合わせてください。

機能領域

リソース

Unity Catalog

  • Unity Catalog は、Databricks Data Intelligence Platform に組み込まれたデータガバナンス機能を強化します。 Unity Catalog とはを参照してください。
  • Databricks アカウント管理者、ワークスペース管理者、メタストア管理者には、ユーザーの Unity Catalog データ特権を管理するためのデフォルトの特権があります。 Unity Catalog での特権の管理を参照してください。

接続とアクセス

共有

  • Delta Sharingは、Databricks Databricks Marketplaceとクリーンルームを含む 安全なデータ共有プラットフォームの中核です。「 データと AI アセットを他の組織のユーザーと安全に共有する」を参照してください。
  • 管理者は新しいカタログを作成できます。 カタログは、データ分離のための高レベルの抽象化を提供し、個々のワークスペースに関連付けることも、アカウント内のすべてのワークスペース間で共有することもできます。 カタログの作成を参照してください。AI/BI ダッシュボードでは、オーナーが公開時に認証情報を埋め込むように促し、閲覧者が共有結果から知見を得ることができるようにします。 詳細については、 ダッシュボードの共有を参照してください。

ワークスペースとインフラストラクチャを構成する

このセクションでは、ワークスペース資産とインフラストラクチャの管理に関連する一般的なタスクの概要について説明します。 広義に定義すると、ワークスペース資産には次のものが含まれます。

  • コンピュート リソース : コンピュート リソースには、All-purpose インタラクティブ クラスター、 SQLウェアハウス、ジョブ クラスター、およびパイプライン コンピュートが含まれます。 ユーザーまたはワークロードは、指定されたロジックを処理するために、実行中のコンピュート リソースに接続するためのアクセス許可を持っている必要があります。
注記

コンピュート リソースに接続するためのアクセス権を持たないユーザーは、 Databricksで非常に限られた機能しか使用できません。

  • プラットフォームツール :Databricks Data Intelligence Platformは、ノートブック、Databricks SQL、Mosaic AIなど、さまざまなユースケースやペルソナに合わせたツールスイートを提供します。 管理者は、これらのツールの多くに対するデフォルトの動作、オプション機能、およびユーザーアクセスを含む設定をカスタマイズできます。

  • アーティファクト : アーティファクトには、ノートブック、クエリ、ダッシュボード、ファイル、ライブラリ、パイプライン、ジョブが含まれます。 アーティファクトには、ユーザーがデータに対して必要なアクションを実行するために作成するコードと構成が含まれています。

important

ワークスペースアセットを作成するユーザーには、デフォルトで 所有者 ロールが割り当てられます。 ほとんどのアセットでは、所有者はワークスペース内の他のユーザーまたはグループにアクセス許可を付与できます。

データとコードのセキュリティを確保するために、 Databricks は、本番運用ワークスペースにデプロイされたすべてのアーティファクトとコンピュート リソースに対して所有者ロールを構成することをお勧めします。

機能領域

リソース

ワークスペースのエンタイトルメント

ワークスペースのエンタイトルメントには、基本的なワークスペース アクセス、 Databricks SQLへのアクセス、無制限のクラスター作成が含まれます。 エンタイトルメントの管理を参照してください。

コンピュート リソース のアクセス & ポリシー

  • Databricksのコストのほとんどは、コンピュート リソースのコストです。さまざまなリソースを構成、デプロイ、開始、および使用できるユーザーを制御することは、コストを管理するために不可欠です。 All Purpose およびジョブ コンピュートへの接続を参照してください。
  • コンピュート ポリシーは、ワークスペース コンピュート エンタイトルメントと連携して動作し、エンタイトルメントを持つユーザーが指定された構成ルールに従ってのみコンピュート リソースをデプロイするようにします。 コンピュート ポリシーの作成と管理を参照してください。
  • 管理者は、デフォルト動作、データ アクセス ポリシー、および SQLウェアハウスへのユーザー アクセスを構成できます。 ウェアハウスSQL管理者設定を参照してください。

プラットフォームツール

管理コンソールを使用して、ワークスペースの外観のカスタマイズから製品や機能の有効化または無効化まで、さまざまな動作を設定します。 ワークスペースの管理を参照してください。

ワークスペース ACL

ワークスペースのアクセス制御リスト (ACL) は、ユーザーとグループがコンピュート リソース、コード アーティファクト、ジョブなどのワークスペース アセットと対話する方法を制御します。 アクセス制御リストを参照してください。

ワークロードの運用化

すべての Databricks 製品は、開発から本番運用までの道のりを加速し、スケールと安定性のために構築されています。 このセクションでは、ワークロードを本番運用に取り込むために推奨される一連のツールについて簡単に紹介します。

機能領域

リソース

ETL パイプライン

DLT パイプラインは、ETL パイプラインを構築および運用化するための宣言型構文を提供します。DLTとはを参照してください。

オーケストレーション

ジョブを使用すると、依存関係、トリガー、スケジュールを含む複雑なワークフローを定義できます。「Databricks ジョブを使用したオーケストレーション」を参照してください。

CI/CD

Databricks アセットバンドルを使用すると、ワークスペース間でデータ、アセット、アーティファクトを簡単に管理およびデプロイできます。 「Databricks アセットバンドルとは」を参照してください。