Comece: integração do workspace do Databricks

Este artigo apresenta um guia de configuração de 30 minutos para seu primeiro workspace do Databricks. As etapas deste artigo mostrarão como:

  • Criar seu primeiro workspace do Databricks.

  • Criar seu primeiro recurso de computação.

  • Carregar dados no Databricks a partir do armazenamento em nuvem.

  • Incluir usuários no workspace.

  • Dar aos usuários o acesso aos dados para poderem começar a trabalhar.

Requisitos

Para concluir as instruções deste artigo, você precisa do seguinte:

  • Permissão em sua conta da AWS para provisionar funções do IAM e buckets do S3.

  • Cotas de serviço disponíveis em sua região do AWS para uma implantação da Databricks. Você precisa de um gateway VPC e NAT disponível. Você pode ver suas cotas disponíveis e solicitar aumentos usando o serviço AWS Service Quotas console.

  • Acesso aos dados armazenados no armazenamento de objetos em nuvem. Este artigo apresenta instruções para buckets S3.

Observação

Se, a qualquer momento, você decidir cancelar a assinatura do Databricks, exclua todos os recursos associados do console do AWS para evitar custos continuados. Para receber instruções, consulte Cancelar sua assinatura do Databricks.

Etapa 1: crie seu primeiro workspace

Depois de se inscrever na avaliação gratuita e verificar seu endereço de e-mail, você terá acesso à sua conta do Databricks.

Ao entrar na sua account pela primeira vez, siga as instruções para configurar seu workspace. Essas instruções utilizam um início rápido para criar o workspace, que provisiona rapidamente os recursos de nuvem para você.

  1. Insira um nome para o seu workspace que seja legível para humanos. Este nome não poderá ser alterado depois.

  2. Selecione a região da AWS em que você deseja implantar o workspace. Lembre-se de verificar se há uma VPC e um gateway NAT disponíveis na região da sua cloud.

  3. Clique em Abrir o Quickstart. Esta ação abre o console da AWS, em que um padrão do CloudFormation pré-preenchido implantará os recursos e o workspace para você.

  4. Marque a caixa de seleção Tenho ciência de que o AWS CloudFormation pode criar recursos de IAM com nomes personalizados.

    Aviso

    A edição de campos adicionais no padrão pode atrapalhar a implantação.

  5. Clique em Criar pilha.

  6. Retorne ao console da conta do Databricks e aguarde a conclusão da implantação do workspace. Isso deve demorar apenas alguns minutos.

Se encontrar algum erro no processo de implantação, envie um e-mail para onboarding-help@databricks.com para receber ajuda para solucionar o problema.

Observação

Se você é o administrador de nuvem da sua organização, mas não será o administrador diário da implantação da Databricks, adicione um administrador de workspace à conta para assumir o restante dos passos de integração. Consulte Gerenciar usuários em sua conta.

Passo 2: Crie um recurso de computação

Para interagir com seus dados, os usuários do seu workspace precisam de recursos de computação em execução. Há alguns tipos diferentes de recursos de computação disponíveis no Databricks. Essas instruções criam um serverless SQL warehouse no qual todos os usuários do workspace podem executar consultas SQL.

Observação

Embora a Databricks não cobre nada de você durante a avaliação gratuita, o AWS cobrará pela computação que a Databricks implantar na sua account vinculada do AWS.

  1. Abra seu novo workspace.

  2. Na barra lateral, clique em SQL Warehouses.

  3. Clique no botão Criar SQL Warehouse.

  4. Dê um nome ao SQL warehouse.

  5. Clique em Criar.

  6. No modal de permissões, insira e selecione All Users e clique em Adicionar.

Seu SQL warehouse serverless deverá estar em funcionamento e imediatamente disponível para que você possa executar consultas SQL.

Passo 3: conectar seu workspace às fontes de dados

Para conectar o workspace do Databricks ao armazenamento em nuvem, você precisa criar um local externo. Um local externo é um objeto que combina um caminho de armazenamento em nuvem com a credencial que autoriza o acesso ao caminho de armazenamento.

  1. No workspace do Databricks, clique em Catalog na barra lateral.

  2. Na parte superior da página, clique em + Adicionar.

  3. Clique em Adicionar uma localização externa.

  4. A Databricks recomenda o uso do AWS Quickstart, que garante que seu workspace receba as permissões corretas no bucket.

  5. Em Nome do bucket, insira o nome do bucket do qual você deseja importar dados.

  6. Clique em Gerar novo token e copie o token.

  7. Clique em Iniciar no Quickstart.

  8. No console do AWS, insira o token copiado no campo Databricks Personal Access Token.

  9. Marque a caixa de seleção Tenho ciência de que o AWS CloudFormation pode criar recursos de IAM com nomes personalizados.

  10. Clique em Criar pilha.

Para ver os locais externos em seu workspace, clique em Catálogo na barra lateral, na parte inferior do painel de navegação esquerdo, clique em Dados Externos e, em seguida, clique em Locais Externos. Seu novo local externo terá um nome com a seguinte sintaxe: db_s3_external_databricks-S3-ingest-<id>.

Observação

O outro local externo que o senhor vê conecta o seu workspace ao default S3 bucket provisionamento ao lado do seu workspace. Esse local externo compartilha um nome com o seu workspace.

Teste sua conexão

Para testar se os locais externos têm conexões funcionais, faça o seguinte:

  1. Clique no local externo que deseja testar.

  2. Clique em Testar conexão.

Passo 4: Adicione seus dados ao Databricks

Agora que seu workspace tem uma conexão com o S3, você pode adicionar seus dados.

Parte deste o passo é escolher onde colocar seus dados. O Databricks possui um namespace de três níveis que organiza seus dados (catalog.schema.table). Para este exercício, você importará os dados para o catálogo padrão com o nome do seu workspace.

  1. Na barra lateral do workspace do Databricks, clique em Novo > Adicionar dados.

  2. Clique em Amazon S3.

  3. Selecione seu local externo no menu suspenso.

  4. Selecione todos os arquivos que você deseja adicionar ao seu catálogo do Databricks.

  5. Clique em Prévia da tabela.

  6. Selecione o catálogo default (com o nome do workspace), o esquema default e insira um nome para a tabela.

  7. Clique em Criar tabela.

Agora você pode usar o Catalog Explorer em seu workspace para ver seus dados no Databricks.

Etapa 5: adicionar usuários ao seu workspace

Agora que você tem um recurso de computação em execução, uma conexão com seus dados e dados na plataforma, você pode começar a adicionar mais usuários à sua conta.

Estas instruções mostram como adicionar usuários individuais à sua account e ao seu workspace.

  1. Na barra superior do workspace do Databricks, clique no seu nome de usuário e depois em Configurações.

  2. Na barra lateral, clique em Identidade e acesso.

  3. Ao lado de Usuários, clique em Gerenciar.

  4. Clique em Adicionar usuário e depois em Adicionar novo.

  5. Insira o endereço de e-mail do usuário e clique em Adicionar.

Continue adicionando quantos usuários quiser à sua conta. Os novos usuários recebem um e-mail solicitando que configurem a conta.

Etapa 6: conceder permissões aos usuários

Agora que você tem usuários na sua conta, deverá conceder o acesso aos dados e recursos de que precisarão. Há muitas maneiras de fazer isso e seu método preferido provavelmente dependerá da sua estratégia de governança de dados.

Veja a seguir considerações comuns na configuração de permissões para seus usuários:

  • Os objetos protegíveis no Databricks são hierárquicos e os privilégios são herdados para baixo. Por exemplo, a concessão do privilégio SELECT em um catálogo ou esquema concede automaticamente o privilégio a todos os objetos atuais e futuros dentro do catálogo ou esquema.

  • Se você conceder a um usuário a permissão SELECT em um esquema ou tabela, o usuário também precisará da permissão USE nos objetos acima do esquema ou da tabela.

  • Se você quiser conceder permissão a outros usuários para se conectarem a fontes de dados externas, poderá conceder a eles a permissão CREATE EXTERNAL LOCATION e CREATE STORAGE CREDENTIAL .

Para ver instruções sobre como gerenciar permissões no Databricks, consulte Privilégios do Unity Catalog e objetos protegíveis.

Próximos passos

Os usuários da sua account agora devem poder acessar e consultar dados no seu workspace do Databricks.

A partir daí, você pode continuar a explorar o Databricks e desenvolver sua estratégia de dados. Tópicos populares: