entidade de serviço para CI/CD
Este artigo descreve como usar a entidade de serviço para CI/CD com Databricks. Uma entidade de serviço é uma identidade criada para uso com ferramentas e aplicativos automatizados, inclusive:
- CI/CD plataformas como GitHub ActionsAzure pipeline, e GitLab CI/CD
- Airflow em pipeline de dados
- Jenkins
Como prática recomendada de segurança, a Databricks recomenda o uso de uma Databricks entidade de serviço e seus tokens em vez de seu usuário Databricks ou seus tokens de acesso pessoal Databricks para seu usuário workspace para dar às plataformas CI/CD acesso ao recurso Databricks. Alguns benefícios dessa abordagem incluem o seguinte:
- O senhor pode conceder e restringir o acesso a Databricks recurso para uma Databricks entidade de serviço independentemente de um usuário. Por exemplo, isso permite que o senhor proíba uma Databricks entidade de serviço de atuar como administrador em sua Databricks workspace e, ao mesmo tempo, permita que outros usuários específicos em sua workspace continuem a atuar como administradores.
- Os usuários podem impedir que seus tokens de acesso sejam acessados por plataformas de CI/CD.
- O senhor pode desativar temporariamente ou excluir permanentemente uma entidade de serviço da Databricks sem afetar outros usuários. Por exemplo, isso permite que o senhor pause ou remova o acesso de uma Databricks entidade de serviço que suspeita estar sendo usada de forma maliciosa.
- Se um usuário sair da sua organização, o senhor poderá removê-lo sem afetar nenhuma entidade de serviço da Databricks.
Para dar à plataforma CI/CD acesso à sua Databricks workspace, faça o seguinte:
- Crie uma Databricks entidade de serviço em seu workspace.
- Gerar um Databricks tokens de acesso para uma Databricks entidade de serviço.
- Forneça a este Databricks tokens de acesso à plataforma CI/CD.
Para concluir as etapas 1 e 2, consulte gerenciar entidade de serviço.
Para concluir a passo 3, siga as instruções neste artigo.
Requisitos
- Os tokens de acesso Databricks para uma entidade de serviço Databricks. Para criar uma entidade de serviço Databricks e seus tokens de acesso Databricks, consulte gerenciar entidade de serviço.
- Um account com seu provedor Git.
Configurar GitHub Actions
GitHub Actions deve ser capaz de acessar seu site Databricks workspace. Databricks Git workspace Se GitHub o senhor quiser usar as pastas, seu também deve ser capaz de acessar.
Para permitir que GitHub Actions acesse seu Databricks workspace, o senhor deve registrar os tokens de acesso Databricks para sua Databricks entidade de serviço com GitHub Actions.
Se também quiser permitir que seu Databricks workspace acesse GitHub quando usar Databricks Git pastas, o senhor deverá adicionar os tokens de acesso pessoal GitHub para um usuário de máquina GitHub ao seu workspace.
Registre os tokens de acesso Databricks para sua Databricks entidade de serviço com GitHub Actions
Esta seção descreve como habilitar o GitHub Actions para acessar o seu Databricks workspace.
Como prática recomendada de segurança, o site Databricks recomenda que o senhor não insira tokens de acesso Databricks diretamente no corpo de um arquivo GitHub Actions. O senhor deve registrar os tokens de acesso com Databricks GitHub Actions usando segredos criptografados.GitHub
Os arquivos e como parte do padrão Basic Python em para, como os que lista em Continuous integration and deliveryGitHub Actions usando, bem como GitHub Actionsos arquivos e como parte do padrão Basic Databricks onpush.yml
onrelease.yml
dbx
para ,GitHub Actions dependem de GitHub segredos criptografados em, como:
DATABRICKS_HOST
que é o valorhttps://
seguido pelo nome da instânciaworkspace, por exemplo,dbc-a1b2345c-d6e7.cloud.databricks.com
.DATABRICKS_TOKEN
que é o valor do valortoken_value
que o senhor copiou depois de criar os tokens de acesso Databricks para a entidade de serviço Databricks.
Para obter mais informações sobre quais segredos criptografados GitHub são necessários para um GitHub Actions, consulte gerenciar entidade de serviço e a documentação para esse GitHub Actions.
Para adicionar esses segredos criptografados do GitHub ao seu repositório do GitHub, consulte Criar segredos criptografados para um repositório na documentação do GitHub. Para outras abordagens para adicionar esses segredos de repositório do GitHub, consulte Segredos criptografados na documentação do GitHub.
Adicione os tokens de acesso pessoal GitHub para um usuário de máquina GitHub ao seu Databricks workspace
Esta seção descreve como habilitar o seu Databricks workspace para acessar GitHub com Databricks Git pastas. Essa é uma tarefa opcional em cenários de CI/CD.
Como prática recomendada de segurança, o site Databricks recomenda o uso de usuários de máquinas GitHub em vez de contas pessoais GitHub, por muitos dos mesmos motivos pelos quais o senhor deve usar uma entidade de serviço Databricks em vez de um usuário Databricks. Para adicionar os tokens de acesso pessoal GitHub de um usuário de máquina GitHub ao seu Databricks workspace, faça o seguinte:
- Crie um usuário de máquina do GitHub, se ainda não tiver um disponível. Um GitHub usuário de máquina é um GitHub pessoal,account separado do GitHub seu account pessoal, que o senhor pode usar para automatizar a atividade GitHub em. Crie um novo GitHub accountseparado para usar como usuário da máquina GitHub, se ainda não tiver um disponível.
Quando o senhor cria um novo GitHub account separado como um usuário de máquina GitHub, não é possível associá-lo ao endereço email do seu GitHub pessoal account. Em vez disso, consulte o administrador da sua organização email para obter um endereço email separado que possa ser associado a esse novo GitHub account separado como um usuário de máquina GitHub.
Consulte o administrador da sua organização account para saber como gerenciar o endereço email separado e o usuário da máquina GitHub associado e seu acesso pessoal GitHub tokens dentro da organização.
-
Dê ao usuário da máquina do GitHub acesso ao seu repositório do GitHub. Consulte Convidar uma equipe ou pessoa na documentação do GitHub. Para aceitar o convite, talvez o senhor precise primeiro sair do seu GitHub pessoal account e, em seguida, entrar novamente como usuário da máquina GitHub.
-
Faça login em GitHub como usuário da máquina e, em seguida, crie um GitHub tokens de acesso pessoal para esse usuário da máquina. Consulte Criar tokens de acesso pessoal na documentação do site GitHub. Certifique-se de conceder acesso ao GitHub repositório de tokens de acesso pessoal.
-
Reúna os tokens de acesso Databricks para sua Databricks entidade de serviço, seu nome de usuário da máquina GitHub e, em seguida, consulte Use a entidade de serviço com as pastas Databricks Git.
Configurar a CI/CD do GitLab
GitLab CI/CD deve ser capaz de acessar seu site Databricks workspace. Databricks Git workspace Se GitLab CI/CD o senhor também quiser usar as pastas, seu deve ser capaz de acessar .
Para acessar seus arquivos Databricks workspace, GitLab CI/CD .gitlab-ci.yml
, como o que faz parte do padrão Basic Python em dbx
, use variáveis personalizadas CI/CD como, por exemplo, o senhor:
DATABRICKS_HOST
que é o valorhttps://
seguido pelo nome da instânciaworkspace, por exemplo,dbc-a1b2345c-d6e7.cloud.databricks.com
.DATABRICKS_TOKEN
que é o valor do valortoken_value
que o senhor copiou depois de criar os tokens de acesso Databricks para a entidade de serviço Databricks.
Para adicionar essas variáveis personalizadas ao seu projeto GitLab CI/CD, consulte Adicionar uma variável CI/CD a um projeto na documentação do GitLab CI/CD.
Se o seu workspace usa Databricks Git as pastas e o senhor deseja habilitar o workspace para acessar o GitLab CI/CD, reúna-se:
- Os tokens de acesso Databricks para sua Databricks entidade de serviço
- Seu nome de usuário do GitLab CI/CD
Em seguida, consulte Usar uma entidade de serviço com as pastas Git do Databricks.