Chaves gerenciadas pelo cliente para criptografia

Este artigo fornece uma visão geral da chave de gerenciar clientes para criptografia.

Observação

Esse recurso requer a camada Enterprise preços.

Para configurar a chave gerenciadora de clientes para criptografia, consulte Configurar a chave gerenciadora de clientes para criptografia.

Chave gerenciadora de clientes para visão geral da criptografia

Alguns serviços e dados suportam a adição de um gerenciador de clientes key para ajudar a proteger e controlar o acesso a dados criptografados. O senhor pode usar o serviço de gerenciamento key em suas nuvens para manter uma criptografia gerenciada pelo cliente key.

A Databricks tem dois casos de uso para gerenciar key clientes que envolvem diferentes tipos de dados e locais:

  • serviço gerenciado: Dados no plano de controle do Databricks (Notebook, segredos e dados de consulta do Databricks SQL ).

  • workspace armazenamento: Seu bucket de armazenamento workspace (que contém DBFS root) e os volumes EBS de compute recurso no plano clássico compute.

O Unity Catalog também oferece suporte à capacidade de ler e gravar em buckets do S3 com a criptografia KMS ativada. Consulte Criar uma credencial de armazenamento para se conectar ao AWS S3

Para configurar a chave gerenciadora de clientes para o armazenamento workspace, consulte Configurar a chave gerenciadora de clientes para criptografia.

Customer-gerenciar key for serviço gerenciado

Os dados do serviço gerenciado no plano de controle do Databricks são criptografados em repouso. O senhor pode adicionar um serviço gerenciado pelo cliente key para ajudar a proteger e controlar o acesso aos seguintes tipos de dados criptografados:

Para configurar a chave de gerenciar o cliente para o serviço gerenciado, consulte Configurar a chave de gerenciar o cliente para criptografia.

Importante

Somente os painéis AI/BI criados após 1º de novembro de 2024 são criptografados e compatíveis com a chave gerenciadora de clientes.

Chave gerenciadora de clientes para armazenamento de espaço de trabalho

O senhor pode adicionar um gerenciador de clientes key para o armazenamento workspace para proteger e controlar o acesso aos seguintes tipos de dados criptografados:

  • Seu bucket de armazenamento workspace: Se o senhor adicionar uma criptografia de armazenamento workspace key, o Databricks criptografará os dados no bucket Amazon S3 em seu AWS account que o senhor especificou ao configurar seu workspace, conhecido como bucket de armazenamento workspace. Esse bucket contém DBFS rootque inclui a área FileStore, MLflow Models e Delta Live Table em seu DBFS root (não DBFS montagens). O bucket também inclui dados do sistema workspace, que incluem resultados de Job, resultados de Databricks SQL, revisões de Notebook e outros dados de workspace. Para obter mais informações, consulte Criar um bucket S3 para a implantação do workspace .

  • Os volumes EBS de seus clusters (opcional): Para nós de clusters do Databricks Runtime e outros compute recursos no plano compute clássico, o senhor pode usar opcionalmente o key para criptografar os volumes EBS remotos da VM.

Observação

Esse recurso afeta o seu DBFS root mas não é usado para criptografar dados em quaisquer montagens DBFS adicionais. Para montagens S3 DBFS , o senhor pode usar outras abordagens para gravar dados criptografados com a sua chave. Para obter mais informações, consulte Criptografar dados em S3 buckets. As montagens são um padrão de acesso legado. A Databricks recomenda o uso do Unity Catalog para gerenciar todo o acesso aos dados. Consulte Conectar-se ao serviço e armazenamento de objetos cloud usando Unity Catalog.

Comparar os principais casos de uso do gerenciador de clientes

Na tabela abaixo, estão listados os recursos de chave gerenciados pelo cliente usados para tipos específicos de dados.

Tipo de dados

Localização

Qual recurso principal gerenciado pelo cliente usar

AI/BI painéis de controle

plano de controle

Serviços gerenciados

Origem e metadados do notebook

plano de controle

Serviços gerenciados

Personal access tokens (PAT) ou outras credenciais usadas para a integração do Git com as pastas Git da Databricks

plano de controle

Serviços gerenciados

Segredos armazenados pelas APIs do gerenciador de segredos

plano de controle

Serviços gerenciados

Consultas SQL e histórico de consultas do Databricks

plano de controle

Serviços gerenciados

Índices e metadados do Vector Search

serverless compute avião

Serviços gerenciados

Os volumes EBS remotos para nós de cluster do Databricks Runtime e outros recursos de computação.

O clássico avião compute em seu AWS account . A chave de gerenciamento do cliente para volumes EBS remotos se aplica somente a compute recurso no plano clássico compute em seu AWS account. Consulte serverless compute e a chave para gerenciar clientes.

Armazenamento do workspace

Dados raiz do DBFS acessíveis ao cliente

DBFS root em seu balde de armazenamento workspace em seu AWS account. Isso também inclui a área do FileStore.

Armazenamento do workspace

Job resultados

workspace balde de armazenamento em seu site AWS account

Armazenamento do workspace

Resultados da consulta SQL do Databricks

workspace balde de armazenamento em seu site AWS account

Armazenamento do workspace

MLflow Models

workspace balde de armazenamento em seu site AWS account

Armazenamento do workspace

Delta live table

Se o senhor usar um caminho DBFS em seu DBFS root, ele será armazenado no bucket de armazenamento workspace em seu AWS account. Isso não se aplica aos caminhosDBFS que representam pontos de montagem para outras fontes de dados.

Armazenamento do workspace

Resultados do notebook interativo

Em default, quando o senhor executa um Notebook interativamente (e não como um Job), os resultados são armazenados no plano de controle para desempenho, com alguns resultados grandes armazenados no seu balde de armazenamento workspace no seu AWS account. O senhor pode optar por configurar o Databricks para armazenar todos os resultados interativos do Notebook em seu AWS account .

Para obter resultados parciais no plano de controle, use um customer-gerenciar key para serviço gerenciado. Para os resultados no bucket de armazenamento workspace, que o senhor pode configurar para todo o armazenamento de resultados, use um gerenciador de clientes key para o armazenamento workspace.

Computação sem servidor e chaves gerenciadas pelo cliente

Databricks SQL serverless suportes:

  • Customer-gerenciar key for serviço gerenciado for Databricks SQL queries and query história.

  • O senhor pode gerenciar a chave para seu bucket de armazenamento workspace, incluindo o armazenamento DBFS root para resultados Databricks SQL.

serverless O SQL warehouse não usa a chave gerenciadora de clientes para a criptografia de armazenamento do EBS nos nós compute, que é uma parte opcional da configuração da chave gerenciadora de clientes para o armazenamento workspace. Os discos para serverless compute recurso são de curta duração e estão vinculados ao ciclo de vida da carga de trabalho serverless. Quando o recurso compute é interrompido ou reduzido, as VMs e seu armazenamento são destruídos.

Modelo de serviço

Os recursos do Model Serving, um recurso de computação sem servidor, geralmente estão em duas categorias:

  • Os recursos que você cria para o modelo são armazenados na raiz DBFS do seu workspace no bucket S3 do seu workspace. Isso inclui os artefatos do modelo e os metadados da versão. Tanto o registo do modelo de workspace como o MLflow utilizam este armazenamento. Você pode configurar esse armazenamento para usar chaves gerenciadas pelo cliente.

  • Os recursos que o Databricks cria diretamente em seu nome incluem a imagem do modelo e o armazenamento computacional efêmero sem servidor. Eles são criptografados com chaves gerenciadas pelo Databricks e não oferecem suporte a chaves gerenciadas pelo cliente.

A chave do gerenciador de clientes para o armazenamento EBS, que é uma parte opcional do recurso de armazenamento do gerenciador de clientes workspace, não se aplica aos recursos serverless compute . Os discos para serverless compute recurso são de curta duração e estão vinculados ao ciclo de vida da carga de trabalho serverless. Quando o recurso compute é interrompido ou reduzido, as VMs e seu armazenamento são destruídos.