Comece: integração do workspace do Databricks
Este artigo apresenta um guia de configuração de 30 minutos para seu primeiro workspace do Databricks. As etapas deste artigo mostrarão como:
Criar seu primeiro workspace do Databricks.
Criar seu primeiro recurso de computação.
Carregar dados no Databricks a partir do armazenamento em nuvem.
Incluir usuários no workspace.
Dar aos usuários o acesso aos dados para poderem começar a trabalhar.
Requisitos
Para concluir as instruções deste artigo, você precisa do seguinte:
Permissão em sua conta da AWS para provisionar funções do IAM e buckets do S3.
Cotas de serviço disponíveis em sua região do AWS para uma implantação da Databricks. Você precisa de um gateway VPC e NAT disponível. Você pode ver suas cotas disponíveis e solicitar aumentos usando o serviço AWS Service Quotas console.
Acesso aos dados armazenados no armazenamento de objetos em nuvem. Este artigo apresenta instruções para buckets S3.
Observação
Se, a qualquer momento, você decidir cancelar a assinatura do Databricks, exclua todos os recursos associados do console do AWS para evitar custos continuados. Para receber instruções, consulte Cancelar sua assinatura do Databricks.
Etapa 1: crie seu primeiro workspace
Depois de se inscrever na avaliação gratuita e verificar seu endereço de e-mail, você terá acesso à sua conta do Databricks.
Ao entrar na sua account pela primeira vez, siga as instruções para configurar seu workspace. Essas instruções utilizam um início rápido para criar o workspace, que provisiona rapidamente os recursos de nuvem para você.
Insira um nome para o seu workspace que seja legível para humanos. Este nome não poderá ser alterado depois.
Selecione a região da AWS em que você deseja implantar o workspace. Lembre-se de verificar se há uma VPC e um gateway NAT disponíveis na região da sua cloud.
Clique em Abrir o Quickstart. Esta ação abre o console da AWS, em que um padrão do CloudFormation pré-preenchido implantará os recursos e o workspace para você.
Marque a caixa de seleção Tenho ciência de que o AWS CloudFormation pode criar recursos de IAM com nomes personalizados.
Aviso
A edição de campos adicionais no padrão pode atrapalhar a implantação.
Clique em Criar pilha.
Retorne ao console da conta do Databricks e aguarde a conclusão da implantação do workspace. Isso deve demorar apenas alguns minutos.
Se encontrar algum erro no processo de implantação, envie um e-mail para onboarding-help@databricks.com para receber ajuda para solucionar o problema.
Observação
Se você é o administrador de nuvem da sua organização, mas não será o administrador diário da implantação da Databricks, adicione um administrador de workspace à conta para assumir o restante dos passos de integração. Consulte Gerenciar usuários em sua conta.
Passo 2: Crie um recurso de computação
Para interagir com seus dados, os usuários do seu workspace precisam de recursos de computação em execução. Há alguns tipos diferentes de recursos de computação disponíveis no Databricks. Essas instruções criam um serverless SQL warehouse no qual todos os usuários do workspace podem executar consultas SQL.
Observação
Embora a Databricks não cobre nada de você durante a avaliação gratuita, o AWS cobrará pela computação que a Databricks implantar na sua account vinculada do AWS.
Abra seu novo workspace.
Na barra lateral, clique em SQL Warehouses.
Clique no botão Criar SQL Warehouse.
Dê um nome ao SQL warehouse.
Clique em Criar.
No modal de permissões, insira e selecione
All Users
e clique em Adicionar.
Seu SQL warehouse serverless deverá estar em funcionamento e imediatamente disponível para que você possa executar consultas SQL.
Passo 3: conectar seu workspace às fontes de dados
Para conectar o workspace do Databricks ao armazenamento em nuvem, você precisa criar um local externo. Um local externo é um objeto que combina um caminho de armazenamento em nuvem com a credencial que autoriza o acesso ao caminho de armazenamento.
No workspace do Databricks, clique em Catalog na barra lateral.
Na parte superior da página, clique em + Adicionar.
Clique em Adicionar uma localização externa.
A Databricks recomenda o uso do AWS Quickstart, que garante que seu workspace receba as permissões corretas no bucket.
Em Nome do bucket, insira o nome do bucket do qual você deseja importar dados.
Clique em Gerar novo token e copie o token.
Clique em Iniciar no Quickstart.
No console do AWS, insira o token copiado no campo Databricks Personal Access Token.
Marque a caixa de seleção Tenho ciência de que o AWS CloudFormation pode criar recursos de IAM com nomes personalizados.
Clique em Criar pilha.
Para ver os locais externos em seu workspace, clique em Catálogo na barra lateral, na parte inferior do painel de navegação esquerdo, clique em Dados Externos e, em seguida, clique em Locais Externos. Seu novo local externo terá um nome com a seguinte sintaxe: db_s3_external_databricks-S3-ingest-<id>
.
Observação
O outro local externo que o senhor vê conecta o seu workspace ao default S3 bucket provisionamento ao lado do seu workspace. Esse local externo compartilha um nome com o seu workspace.
Passo 4: Adicione seus dados ao Databricks
Agora que seu workspace tem uma conexão com o S3, você pode adicionar seus dados.
Parte deste o passo é escolher onde colocar seus dados. O Databricks possui um namespace de três níveis que organiza seus dados (catalog.schema.table
). Para este exercício, você importará os dados para o catálogo padrão com o nome do seu workspace.
Na barra lateral do workspace do Databricks, clique em Novo > Adicionar dados.
Clique em Amazon S3.
Selecione seu local externo no menu suspenso.
Selecione todos os arquivos que você deseja adicionar ao seu catálogo do Databricks.
Clique em Prévia da tabela.
Selecione o catálogo default (com o nome do workspace), o esquema default e insira um nome para a tabela.
Clique em Criar tabela.
Agora você pode usar o Catalog Explorer em seu workspace para ver seus dados no Databricks.
Etapa 5: adicionar usuários ao seu workspace
Agora que você tem um recurso de computação em execução, uma conexão com seus dados e dados na plataforma, você pode começar a adicionar mais usuários à sua conta.
Estas instruções mostram como adicionar usuários individuais à sua account e ao seu workspace.
Na barra superior do workspace do Databricks, clique no seu nome de usuário e depois em Configurações.
Na barra lateral, clique em Identidade e acesso.
Ao lado de Usuários, clique em Gerenciar.
Clique em Adicionar usuário e depois em Adicionar novo.
Insira o endereço de e-mail do usuário e clique em Adicionar.
Continue adicionando quantos usuários quiser à sua conta. Os novos usuários recebem um e-mail solicitando que configurem a conta.
Etapa 6: conceder permissões aos usuários
Agora que você tem usuários na sua conta, deverá conceder o acesso aos dados e recursos de que precisarão. Há muitas maneiras de fazer isso e seu método preferido provavelmente dependerá da sua estratégia de governança de dados.
Veja a seguir considerações comuns na configuração de permissões para seus usuários:
Os objetos protegíveis no Databricks são hierárquicos e os privilégios são herdados para baixo. Por exemplo, a concessão do privilégio
SELECT
em um catálogo ou esquema concede automaticamente o privilégio a todos os objetos atuais e futuros dentro do catálogo ou esquema.Se você conceder a um usuário a permissão
SELECT
em um esquema ou tabela, o usuário também precisará da permissãoUSE
nos objetos acima do esquema ou da tabela.Se você quiser conceder permissão a outros usuários para se conectarem a fontes de dados externas, poderá conceder a eles a permissão
CREATE EXTERNAL LOCATION
eCREATE STORAGE CREDENTIAL
.
Para ver instruções sobre como gerenciar permissões no Databricks, consulte Privilégios do Unity Catalog e objetos protegíveis.