データのセキュリティと暗号化
この記事では、データの保護に役立つデータ セキュリティ構成について説明します。
データへのアクセスを保護する方法については、 「Unity Catalogを使用したデータガバナンス」を参照してください。
データのセキュリティと暗号化の概要
Databricks には、データの保護に役立つ暗号化機能が用意されています。 すべてのセキュリティ機能がすべての価格レベルで使用できるわけではありません。 次の表に、機能の概要と、価格プランとの整合性を示します。
特徴 |
価格レベル |
---|---|
暗号化用のカスタマー マネージド キー |
エンタープライズ |
クラスターワーカーノード間のトラフィックを暗号化する |
エンタープライズ |
クエリー、クエリー履歴、クエリー結果の暗号化 |
エンタープライズ |
顧客管理キーの暗号化を有効にする
Databricks では、データへのアクセスを保護および制御するために、顧客マネージド キーの追加がサポートされています。 さまざまな種類のデータに対して、顧客管理の主要な機能が 2 つあります。
マネージドサービスの顧客管理キー: Databricks コントロール プレーン内のマネージドサービス データは、保存時に暗号化されます。 マネージドサービスの Customer マネージド キーを追加して、次の種類の暗号化データへのアクセスを保護および制御できます。
コントロールプレーンに保存されているノートブックソースファイル。
コントロール プレーンに格納されているノートブックのノートブック結果。
シークレット マネージャーによって格納されるシークレット APIs.
Databricks SQL クエリーとクエリーの歴史。
Databricks Git フォルダーとの Git 統合をセットアップするために使用される個人アクセストークンまたはその他の資格情報。
ワークスペースストレージの顧客管理キー: ワークスペースの作成時に指定した AWS アカウントの Amazon S3 バケット上のデータを暗号化するための独自のキーを設定できます。 オプションで、同じキーを使用してクラスターの EBS ボリュームを暗号化できます。
さまざまな種類のデータを保護する Databricks のどの Customer マネージド キー機能の詳細については、「 暗号化用の CLI マネージド キー」を参照してください。
クエリー、クエリー履歴、クエリー結果の暗号化
AWS KMS の独自のキーを使用して、Databricks SQL クエリーと、Databricks コントロールプレーンに保存されているクエリ履歴を暗号化できます。 詳細については、「 クエリの暗号化」、「クエリー 履歴」、および「クエリー結果」を参照してください。
保管時の S3 バケットを暗号化する
Databricks は、サーバー側の暗号化を使用して S3 内のデータを暗号化することをサポートしています。 KMS のキーを使用して S3 への書き込みを暗号化できます。 これにより、万が一紛失したり盗まれたりした場合でも、データの安全性が確保されます。 KMS を使用して S3 の暗号化を構成するを参照してください。 ワークスペース ストレージ バケットを暗号化するには、 「暗号化用の顧客管理キー」を参照してください。
サーバ側の暗号化を設定して、外部テーブルと Unity Catalog 内のボリュームが S3内のデータにアクセスできるようにするには、 外部ロケーションでの暗号化アルゴリズムの設定を参照してください。
クラスターのワーカーノード間のトラフィックを暗号化する
ユーザーのクエリと変換は、通常、暗号化されたチャンネルを介してクラスターに送信されます。 ただし、デフォルトでは、クラスター内のワーカー ノード間で交換されるデータは暗号化されません。 保存中か転送中かにかかわらず、データを常に暗号化する必要がある場合は、TLS 1.2接続でAES 128ビット暗号化を使用して、ワーカー ノード間のトラフィックを暗号化するようにクラスタを構成するinitスクリプトを作成できます。 詳細については、「クラスター ワーカー ノード間のトラフィックを暗号化する」を参照してください。
ワークスペース設定の管理
Databricks ワークスペース管理者は、ノートブックのダウンロード機能やユーザー分離クラスター アクセス モードの適用など、ワークスペースのセキュリティ設定を管理できます。 詳細については、 「ワークスペースの管理」を参照してください。