Folha de dicas de administração da plataforma

Este artigo tem como objetivo fornecer orientações claras e opinativas para administradores account e workspace sobre as práticas recomendadas. As práticas a seguir devem ser implementadas por administradores account ou workspace para ajudar a otimizar custos, observabilidade, governança de dados e segurança em suas account do Databricks.

Para obter práticas recomendadas de segurança detalhadas, consulte este PDF: Práticas recomendadas de segurança e modelo de ameaças da Databricks AWS.

Melhor prática

Impacto

Documentos

Habilitar Unity Catalog

governança de dados: o Unity Catalog fornece recursos centralizados de controle de acesso, auditoria, linhagem e descoberta de dados em todo workspace do Databricks.

Use política de clusters

Custo: Controle os custos com encerramento automático (para clusters todo-propósito), tamanhos máximos de cluster e restrições de tipo de instância.

Observabilidade: defina custom_tags em sua política clusters para impor tags.

Segurança: restrinja o modo de acesso ao cluster para permitir apenas que os usuários criem clusters habilitados para o Unity Catalog para impor permissões de dados.

Usar entidade de serviço para conectar-se a software de terceiros

Segurança: uma entidade de serviço é um tipo de identidade do Databricks que permite que serviços de terceiros sejam autenticados diretamente no Databricks, e não por meio das credenciais de um usuário individual.

Se algo acontecer com as credenciais de um usuário individual, o serviço de terceiros não será interrompido.

Configurar SSO

Segurança: Em vez de fazer com que os usuários digitem seus email para log em um workspace, configure Databricks SSO para que os usuários possam se autenticar por meio do seu provedor de identidade.

Configurar a integração SCIM

Segurança: em vez de adicionar usuários ao Databricks manualmente, integre-se ao seu provedor de identidade para automatizar o provisionamento e desprovisionamento de usuários. Quando um usuário é removido do provedor de identidade, ele também é automaticamente removido do Databricks.

Gerenciando o controle de acesso com grupos em nível de account

governança de dados: crie grupos no nível accountpara que você possa controlar em massa o acesso ao workspace, aos recursos e aos dados. Isso evita que você tenha que conceder acesso a tudo a todos os usuários ou conceder permissões específicas a usuários individuais.

Você também pode sincronizar grupos do seu provedor de identidade com grupos do Databricks.

Configurar acesso IP para lista branca de IP

Segurança: as listas de acesso IP impedem que os usuários acessem recursos do Databricks em redes não seguras. Acessar um serviço clouds a partir de uma rede não segura pode representar riscos de segurança para uma empresa, especialmente quando o usuário pode ter autorizado acesso a dados confidenciais ou pessoais

Certifique-se de configurar listas de acesso IP para seu console account e workspace.

Configurar uma VPC gerenciada pelo cliente com endpointregional

Segurança: você pode usar uma VPC gerenciada pelo cliente para exercer mais controle sobre suas configurações de rede e cumprir padrões específicos de segurança e governança clouds que sua organização possa exigir.

Custo: endpoint VPC regional para o serviço AWS tem conexões mais diretas e custo reduzido em comparação ao endpoint global da AWS.

Use Databricks Secrets ou um gerenciador de segredos de provedor clouds

Segurança: usar segredos do Databricks permite armazenar com segurança credenciais para fontes de dados externas. Em vez de inserir credenciais diretamente em um Notebook, você pode simplesmente fazer referência a um segredo para autenticar em uma fonte de dados.

Defina datas de expiração para access token pessoal (PATs)

Segurança: os administradores workspace podem gerenciar PATs para usuários, grupos e entidades de serviço. Definir datas de expiração para PATs reduz o risco de perda de tokens ou tokens de longa duração que podem levar à exfiltração de dados do workspace.

Use tabelas do sistema para monitorar o uso account

Observabilidade: as tabelas do sistema são um armazenamento analítico hospedado no Databricks dos dados operacionais da sua account , incluindo logs de auditoria, linhagem de dados e uso faturável. Você pode usar tabelas do sistema para observação em sua account.