プラットフォーム管理チートシート
この記事は、推奨されるベストプラクティスについて、アカウント管理者とワークスペース管理者に明確で主張のあるガイダンスを提供することを目的としています。 アカウント管理者またはワークスペース管理者は、Databricks アカウントのコスト、可観測性、データガバナンス、セキュリティを最適化するために、次のプラクティスを実装する必要があります。
セキュリティの詳細なベスト プラクティスについては、この PDF: Databricks AWS セキュリティのベスト プラクティスと脅威モデルを参照してください。
ベスト プラクティス |
インパクト |
ドキュメント |
---|---|---|
Unity Catalogを有効化 |
データガバナンス: Unity Catalog は、Databricks ワークスペース全体で一元化されたアクセス制御、監査、リネージ、およびデータディスカバリー機能を提供します。 |
|
クラスターポリシーを使用する |
コスト: 自動終了 (All-Purpose クラスターの場合)、最大クラスターサイズ、インスタンスタイプの制限を使用してコストを管理します。 可観測性: クラスターポリシーに セキュリティ: クラスター アクセス モードを制限して、ユーザーが Unity Catalog対応クラスターを作成してデータのアクセス許可を適用することのみを許可します。 |
|
サービスプリンシパルを使用してサードパーティのソフトウェアに接続する |
セキュリティ: サービスプリンシパルは、個々のユーザーの資格情報ではなく、サードパーティのサービスが Databricks に対して直接認証できるようにする Databricks ID の種類です。 個々のユーザーの資格情報に問題が発生した場合、サードパーティのサービスは中断されません。 |
|
SSO を設定する |
セキュリティ: ユーザーに電子メールを入力してワークスペースにログインさせる代わりに、 Databricks SSOを設定して、ユーザーが ID プロバイダー経由で認証できるようにします。 |
|
SCIM 統合を設定する |
セキュリティ: Databricks にユーザーを手動で追加する代わりに、ID プロバイダーと統合して、ユーザーのプロビジョニングとプロビジョニング解除を自動化します。 ユーザーが ID プロバイダーから削除されると、Databricks からも自動的に削除されます。 |
|
アカウントレベルのグループでアクセス制御を管理する |
データ ガバナンス: アカウント レベルのグループを作成して、ワークスペース、リソース、データへのアクセスを一括制御できるようにします。これにより、すべてのユーザーにすべてへのアクセスを許可したり、個々のユーザーに特定のアクセス許可を付与したりする必要がなくなります。 ID プロバイダーから Databricks グループにグループを同期することもできます。 |
|
IP ホワイトリスト用の IP アクセスを設定する |
セキュリティ: IP アクセス リストにより、ユーザーはセキュリティで保護されていないネットワーク内の Databricks リソースにアクセスできなくなります。 セキュリティで保護されていないネットワークからクラウド サービスにアクセスすると、特にユーザーが機密データや個人データへのアクセスを許可している場合に、企業にセキュリティ リスクをもたらす可能性があります アカウントコンソールとワークスペースの IP アクセスリストを設定してください。 |
|
リージョンエンドポイントで顧客管理 VPC を設定する |
セキュリティ: 顧客管理 VPC を使用すると、組織が必要とする特定のクラウドセキュリティおよびガバナンス標準に準拠するために、ネットワーク構成をより詳細に制御できます。 コスト: AWS サービスへのリージョン VPC エンドポイントは、AWS グローバルエンドポイントと比較して、より直接接続され、コストが削減されます。 |
|
Databricks シークレットまたはクラウド プロバイダー シークレット マネージャーを使用する |
セキュリティ: Databricks シークレットを使用すると、外部データソースの資格情報を安全に格納できます。 ノートブックに資格情報を直接入力する代わりに、シークレットを参照してデータソースを認証するだけです。 |
|
個人用アクセストークン (PAT) に有効期限を設定する |
セキュリティ: ワークスペース管理者は、ユーザー、グループ、およびサービスプリンシパルの PAT を管理できます。 PAT の有効期限を設定すると、トークンの紛失やトークンの長期化のリスクが軽減され、ワークスペースからのデータ流出につながる可能性があります。 |
|
システム テーブルを使用してアカウントの使用状況を監視する |
可観測性: システム テーブルは、監査ログ、データリネージ、課金利用など、アカウントの運用データの Databricks でホストされる分析ストアです。 システムテーブルを使用して、アカウント全体の可観測性を確保できます。 |