データガイド
Databricks Data Intelligence Platform は、組織全体のデータ実務家が、安全に管理された共有データアセットとツールを使用して、データソリューションを共同で生産化できるようにします。
この記事では、ユースケースの正しい開始点を特定するのに役立ちます。
Databricks の多くのタスクでは、昇格されたアクセス許可が必要です。 多くの組織では、これらの昇格されたアクセス許可を少数のユーザーまたはチームに制限しています。 この記事では、ほとんどのワークスペース ユーザーが完了できるアクションと、特権ユーザーに限定されたアクションを明確にします。
ワークスペース管理者は、アセットへのアクセスをリクエストする必要があるか、昇格された権限をリクエストする必要があるかを判断するのに役立ちます。
データの検索とアクセス
このセクションでは、使用可能なデータ資産を見つけるのに役立つタスクの概要について説明します。 これらのタスクのほとんどは、管理者がデータ資産に対するアクセス許可を構成していることを前提としています。 データ アクセスの構成を参照してください。
機能領域 | リソース |
---|---|
データディスカバリー | データディスカバリー タスクの詳細な概要については、「 データの検出」を参照してください。 |
カタログ | カタログは、 Unity Catalog データガバナンス モデルの最上位オブジェクトです。 カタログエクスプローラを使用して、テーブル、ビュー、およびその他のデータアセットを検索します。データベース・オブジェクトの探索を参照してください。
|
接続ストレージ | コンピュート リソースにアクセスできる場合は、組み込み コマンドを使用して、接続されたストレージ内のファイルを探索できます。 ストレージの探索とデータファイルの検索を参照してください。 |
ローカルファイルのアップロード | デフォルトでは、ユーザーには、CSV などの小さなデータファイルをローカルマシンからアップロードする権限があります。 ファイルのアップロードを使用したテーブルの作成または変更を参照してください。 |
データの操作
このセクションでは、一般的なデータ タスクと、それらのタスクの実行に使用されるツールの概要について説明します。
説明されているすべてのタスクについて、ユーザーはツール、コンピュート リソース、データ、およびその他のワークスペース アーティファクトに対する適切なアクセス許可を持っている必要があります。 データ アクセスの構成およびワークスペースとインフラストラクチャの構成を参照してください。
機能領域 | リソース |
---|---|
データベース・オブジェクト | Databricks では、テーブルとビューに加えて、ボリュームなどの他のセキュリティ保護可能なデータベース オブジェクトを使用して、データを安全に管理します。 Databricks のデータベース オブジェクトを参照してください。 |
データ権限 | Unity Catalog は、有効なワークスペースでのすべての読み取りおよび書き込み操作を制御します。 これらの操作を完了するには、適切なアクセス許可が必要です。 「Unity Catalog のセキュリティ保護可能なオブジェクト」を参照してください。 |
ETL | 抽出、変換、読み込み (ETL) ワークロードは、Apache Spark と Databricks の最も一般的な用途の 1 つであり、ほとんどのプラットフォームには ETL 用に構築および最適化された機能があります。 「Databricks で初めての ETL ワークロードを実行する」を参照してください。 |
クエリー |
|
ダッシュボード & 知見 |
|
インジェスト |
|
トランスフォーメーション | Databricks は、SQL CTAS ステートメントからほぼリアルタイムのストリーミング アプリケーションまで、さまざまな複雑さの変換に共通の構文とツールを使用します。データ変換の概要については、 Databricks でのデータ変換とはを参照してください。
|
AIと機械学習 | Databricks Data Intelligence Platform は、データサイエンス、機械学習、AI アプリケーションのための一連のツールを提供します。 Databricks の AI と機械学習をご覧ください。 |
:::
データ アクセスを構成する
ほとんどの Databricks ワークスペースは、ワークスペース管理者またはその他のパワーユーザーに依存して、外部データソースへの接続を構成し、チームのメンバーシップ、リージョン、またはロールに基づいてデータアセットへの権限を適用します。 このセクションでは、昇格されたアクセス許可を必要とするデータ アクセスを構成および制御するための一般的なタスクの概要について説明します。
データソースへの新しい接続を設定するために昇格されたアクセス許可をリクエストする前に、既存の接続、カタログ、またはテーブルに対する権限が不足しているだけかどうかを確認してください。 データソースが利用できない場合は、ワークスペースに新しいデータを追加するためのポリシーについて、組織に問い合わせてください。
機能領域 | リソース |
---|---|
Unity Catalog |
|
接続とアクセス |
|
共有 |
|
ワークスペースとインフラストラクチャを構成する
このセクションでは、ワークスペース資産とインフラストラクチャの管理に関連する一般的なタスクの概要について説明します。 広義に定義すると、ワークスペース資産には次のものが含まれます。
- コンピュート リソース : コンピュート リソースには、All-purpose インタラクティブ クラスター、 SQLウェアハウス、ジョブ クラスター、およびパイプライン コンピュートが含まれます。 ユーザーまたはワークロードは、指定されたロジックを処理するために、実行中のコンピュート リソースに接続するためのアクセス許可を持っている必要があります。
コンピュート リソースに接続するためのアクセス権を持たないユーザーは、 Databricksで非常に限られた機能しか使用できません。
-
プラットフォームツール :Databricks Data Intelligence Platformは、ノートブック、Databricks SQL、Mosaic AIなど、さまざまなユースケースやペルソナに合わせたツールスイートを提供します。 管理者は、これらのツールの多くに対するデフォルトの動作、オプション機能、およびユーザーアクセスを含む設定をカスタマイズできます。
-
アーティファクト : アーティファクトには、ノートブック、クエリ、ダッシュボード、ファイル、ライブラリ、パイプライン、ジョブが含まれます。 アーティファクトには、ユーザーがデータに対して必要なアクションを実行するために作成するコードと構成が含まれています。
ワークスペースアセットを作成するユーザーには、デフォルトで 所有者 ロールが割り当てられます。 ほとんどのアセットでは、所有者はワークスペース内の他のユーザーまたはグループにアクセス許可を付与できます。
データとコードのセキュリティを確保するために、 Databricks は、本番運用ワークスペースにデプロイされたすべてのアーティファクトとコンピュート リソースに対して所有者ロールを構成することをお勧めします。
機能領域 | リソース |
---|---|
ワークスペースのエンタイトルメント | ワークスペースのエンタイトルメントには、基本的なワークスペース アクセス、 Databricks SQLへのアクセス、無制限のクラスター作成が含まれます。 エンタイトルメントの管理を参照してください。 |
コンピュート リソース のアクセス & ポリシー |
|
プラットフォームツール | 管理コンソールを使用して、ワークスペースの外観のカスタマイズから製品や機能の有効化または無効化まで、さまざまな動作を設定します。 ワークスペースの管理を参照してください。 |
ワークスペース ACL | ワークスペースのアクセス制御リスト (ACL) は、ユーザーとグループがコンピュート リソース、コード アーティファクト、ジョブなどのワークスペース アセットと対話する方法を制御します。 アクセス制御リストを参照してください。 |
ワークロードの運用化
すべての Databricks 製品は、開発から本番運用までの道のりを加速し、スケールと安定性のために構築されています。 このセクションでは、ワークロードを本番運用に取り込むために推奨される一連のツールについて簡単に紹介します。
機能領域 | リソース |
---|---|
ETL パイプライン | DLT パイプラインは、ETL パイプラインを構築および運用化するための宣言型構文を提供します。DLTとはを参照してください。 |
オーケストレーション | ジョブを使用すると、依存関係、トリガー、スケジュールを含む複雑なワークフローを定義できます。「Databricks ジョブを使用したオーケストレーション」を参照してください。 |
CI/CD | Databricks アセットバンドルを使用すると、ワークスペース間でデータ、アセット、アーティファクトを簡単に管理およびデプロイできます。 「Databricks アセットバンドルとは」を参照してください。 |