Get começar: Databricks workspace onboarding

Este artigo fornece aos senhores um guia de configuração de 30 minutos para o seu primeiro Databricks workspace. Os passos deste artigo mostrarão aos senhores como fazer o seguinte:

  • Crie seu primeiro Databricks workspace.

  • Crie seu primeiro recurso compute.

  • Carregue dados em Databricks a partir de seu armazenamento cloud.

  • Adicione usuários ao site workspace.

  • Dê aos usuários acesso aos dados para que eles possam começar a trabalhar.

Requisitos

Para concluir as instruções deste artigo, o senhor precisa dos seguintes itens:

  • Permissão em seu AWS account para provisionar a função IAM e os buckets S3.

  • Cotas de serviço disponíveis em sua região do AWS para uma implantação da Databricks. O senhor precisa de uma VPC e um gateway NAT disponíveis. O senhor pode view suas cotas disponíveis e solicitar aumentos usando o console do AWS serviço Quotas.

  • Acesso aos dados armazenados no armazenamento de objetos em nuvens. Este artigo fornece instruções para os buckets S3.

Observação

Se, em algum momento, o senhor decidir cancelar sua inscrição no Databricks, exclua todos os recursos associados do console AWS para evitar custos contínuos. Para obter instruções, consulte Cancelar sua inscrição em Databricks .

o passo 1: Crie seu primeiro workspace

Depois de se inscrever para o teste grátis e verificar seu endereço email, o senhor terá acesso ao seu Databricks account.

Quando o senhor acessar o site pela primeira log in vez, siga as instruções para configurar o site account workspace. Estas instruções utilizam um quickstart para criar o workspace, que provisiona rapidamente o recurso cloud para o senhor.

  1. Digite um nome legível para seu workspace. Isso não pode ser alterado posteriormente.

  2. Selecione a região da AWS em que o senhor deseja implantar o workspace. Lembre-se de verificar se o senhor tem uma VPC e um gateway NAT disponíveis em sua região de nuvens.

  3. Clique em começar Quickstart. Isso abre o Console da AWS, onde um padrão CloudFormation pré-preenchido implantará seu recurso e workspace para o senhor.

  4. Digite sua senha da Databricks account no padrão.

  5. Marque a caixa de seleção I acknowledge that AWS CloudFormation might create IAM recurso with custom names (Eu reconheço que o AWS CloudFormation pode criar recursos IAM com nomes personalizados ).

    Aviso

    A edição de campos adicionais no padrão pode levar a uma falha na implementação.

  6. Clique em Create stack (Criar pilha).

  7. Retorne ao console do Databricksaccount e aguarde até que o workspace termine de ser implantado. Isso deve levar apenas alguns minutos.

Se o senhor encontrar algum erro no processo de implementação, acesseemail onboarding-help@databricks.com para obter ajuda na solução de problemas.

Observação

Se o senhor for o administrador cloud da sua organização, mas não for o administrador diário da implantação Databricks, adicione um administrador workspace ao account para assumir o restante da integração dos passos. Veja como gerenciar usuários em seu site account.

o passo 2: Criar um compute recurso

Para interagir com seus dados, os usuários do site workspace precisam executar o recurso compute. Há alguns tipos diferentes de compute recurso disponíveis em Databricks. Essas instruções criam um serverless SQL warehouse no qual todos os usuários do workspace podem executar consultas SQL.

Observação

Embora o Databricks não cobre nada durante o período de teste grátis, o AWS cobrará do senhor pelo compute recurso Databricks implantado no seu link AWS account.

  1. Abra seu novo site workspace.

  2. Na barra lateral, clique em SQL warehouse.

  3. Clique no botão Create SQL warehouse (Criar depósito SQL ).

  4. Dê um nome ao site SQL warehouse.

  5. Clique em Criar.

  6. No modal de permissões, digite e selecione All Users e clique em Add (Adicionar).

Seu serverless SQL warehouse deve estar funcionando imediatamente e disponível para que o senhor possa executar SQL consultas.

o passo 3: Conecte seu workspace à fonte de dados

Para conectar o Databricks workspace ao armazenamento em nuvem, o senhor precisa criar um local externo. Um local externo é um objeto que combina um caminho de armazenamento em nuvem com a credencial que autoriza o acesso ao caminho de armazenamento.

  1. No site da Databricks workspace, clique em Catalog (Catálogo ) na barra lateral.

  2. Na parte superior da página, clique em + Add (Adicionar).

  3. Clique em Add an external location (Adicionar um local externo).

  4. A Databricks recomenda o uso do AWS Quickstart, que garante que o seu workspace receba as permissões corretas no bucket.

  5. Em Bucket Name (Nome do compartimento), digite o nome do compartimento do qual o senhor deseja importar os dados.

  6. Clique em Generate New tokens (Gerar novos to kens) e copie os tokens.

  7. Clique em Launch (Iniciar) no Quickstart.

  8. No console do AWS, insira os tokens copiados no campo Databricks Personal access token.

  9. Marque a caixa de seleção I acknowledge that AWS CloudFormation might create IAM recurso with custom names (Eu reconheço que o AWS CloudFormation pode criar recursos IAM com nomes personalizados ).

  10. Clique em Create stack (Criar pilha).

Para ver os locais externos em seu site workspace, clique em Catalog (Catálogo ) na barra lateral, na parte inferior do painel de navegação esquerdo, clique em External Data (Dados externos) e, em seguida, clique em External Locations (Locais externos). Seu novo local externo terá um nome com a seguinte sintaxe: db_s3_external_databricks-S3-ingest-<id>.

Teste sua conexão

Para testar se os locais externos têm conexões funcionais, faça o seguinte:

  1. Clique no local externo que o senhor deseja testar.

  2. Clique em Testar conexão.

o passo 4: Adicione seus dados ao Databricks

Agora que o site workspace tem uma conexão com o seu bucket S3, o senhor pode adicionar seus dados.

Parte desse passo é escolher onde colocar seus dados. O Databricks tem um namespace de três níveis que organiza seus dados (catalog.schema.table). Para este exercício, o senhor importará os dados para o catálogo default com o nome de workspace.

  1. Na barra lateral do site Databricks workspace, clique em New > Add data( Novo > Adicionar dados).

  2. Clique em Amazon S3.

  3. Selecione seu local externo no menu suspenso.

  4. Selecione todos os arquivos que deseja adicionar ao catálogo do Databricks.

  5. Clique em Preview table (Visualizar tabela).

  6. Selecione o catálogo default (com o mesmo nome de workspace), o esquema default e, em seguida, digite um nome para a tabela.

  7. Clique em Create Table.

Agora o senhor pode usar o Catalog Explorer no site workspace para ver seus dados no Databricks.

o passo 5: Adicione usuários ao seu workspace

Agora que o senhor tem um recurso compute em execução, uma conexão com seus dados e dados na plataforma, pode começar a adicionar mais usuários ao seu account.

Estas instruções mostram como adicionar usuários individuais aos sites account e workspace.

  1. Na barra superior do site Databricks workspace, clique no seu nome de usuário e, em seguida, em Settings.

  2. Na barra lateral, clique em Identidade e acesso.

  3. Ao lado de Usuários, clique em gerenciar.

  4. Clique em Add user (Adicionar usuário) e depois em Add new (Adicionar novo).

  5. Digite o endereço email do usuário e clique em Add.

Continue a adicionar quantos usuários quiser ao seu account. Os novos usuários recebem um email solicitando que configurem seu account.

o passo 6: Conceder permissões aos usuários

Agora que o senhor tem usuários no site account, deve conceder-lhes acesso aos dados e recursos de que precisarão. Há muitas maneiras de fazer isso, e o método preferido provavelmente depende da sua estratégia de governança de dados.

As considerações a seguir são comuns ao configurar permissões para seus usuários:

  • Os objetos protegíveis no Databricks são hierárquicos e os privilégios são herdados de baixo para cima. Por exemplo, a concessão do privilégio SELECT em um catálogo ou esquema concede automaticamente o privilégio a todos os objetos atuais e futuros dentro do catálogo ou esquema.

  • Se o senhor conceder a um usuário a permissão SELECT em um esquema ou tabela, ele também precisará da permissão USE nos objetos acima do esquema ou da tabela.

  • Se quiser conceder permissão a outros usuários para se conectarem a fontes de dados externas, o senhor pode conceder a eles as permissões CREATE EXTERNAL LOCATION e CREATE STORAGE CREDENTIAL.

Para obter instruções sobre como gerenciar permissões no Databricks, consulte Privilégios e objetos protegidos do Unity Catalog.

Próximos passos

Os usuários do seu site account agora devem poder acessar e consultar dados no seu Databricks workspace.

A partir daí, o senhor pode continuar a explorar o Databricks e desenvolver sua estratégia de dados. Os tópicos populares incluem: