Guia de dados
A Databricks Data Intelligence Platform permite que os profissionais de dados de toda a sua organização colaborem e produzam soluções de dados usando ferramentas e ativos de dados compartilhados e governados com segurança.
Este artigo procura ajudá-lo a identificar o ponto de partida correto para o seu caso de uso.
Muitas tarefas em Databricks exigem permissões elevadas. Muitas organizações restringem essas permissões elevadas a um pequeno número de usuários ou equipes. Este artigo separa as ações que podem ser concluídas pela maioria dos usuários do workspace das ações que são restritas a usuários privilegiados.
Os administradores do workspace podem ajudá-lo a determinar se o senhor deve solicitar acesso ao ativo ou permissões elevadas.
Encontre e acesse dados
Esta seção fornece uma breve visão geral da tarefa para ajudá-lo a descobrir os dados ativos disponíveis para o senhor. A maioria dessas tarefas pressupõe que um administrador tenha configurado permissões nos dados ativos. Consulte Configurar o acesso aos dados.
área de recurso | Recursos |
---|---|
Descobrimento de dados | Para obter uma visão geral mais detalhada da tarefa Descoberta de dados, consulte Descobrir dados. |
Catálogos | Os catálogos são o objeto de nível superior no modelo de governança de dados do Unity Catalog. Use o Catalog Explorer para localizar tabelas, visualizações e outros dados ativos. Consulte Explorar objetos de banco de dados.
|
Armazenamento conectado | Se o senhor tiver acesso ao compute recurso, poderá usar o comando integrado para explorar arquivos no armazenamento conectado. Consulte Explore o armazenamento e encontre arquivos de dados. |
carregar arquivos locais | Em default, os usuários têm permissões para upload pequenos arquivos de dados do seu computador local, como CSVs. Consulte Criar ou modificar uma tabela usando o upload de arquivos. |
Trabalhe com dados
Esta seção fornece uma visão geral das tarefas de dados comuns e das ferramentas usadas para realizá-las.
Para todas as tarefas descritas, os usuários devem ter as permissões adequadas para ferramentas, compute recurso, dados e outros artefatos workspace. Consulte Configurar acesso aos dados e Configurar espaço de trabalho e infraestrutura.
área de recurso | Recursos |
---|---|
objetos de banco de dados | Além de tabelas e visualizações, o site Databricks usa outros objetos de banco de dados seguros, como volumes, para controlar os dados com segurança. Consulte Objetos de banco de dados em Databricks. |
Permissões de dados | Unity Catalog rege todas as operações de leitura e gravação no espaço de trabalho habilitado. O senhor deve ter as permissões adequadas para concluir essas operações. Consulte Objetos securizáveis no Unity Catalog. |
ETL | As cargas de trabalho de extração, transformação e carregamento (ETL) estão entre os usos mais comuns para Apache Spark e Databricks, e a maior parte da plataforma tem recursos criados e otimizados para ETL. Veja como executar sua primeira carga de trabalho ETL em Databricks. |
Consultas |
|
Dashboards & percepções |
|
Ingerir |
|
Transformações | Databricks usa sintaxe e ferramentas comuns para transformações que variam em complexidade, desde SQL declarações CTAS até aplicativos de transmissão em tempo real. Para obter uma visão geral das transformações de dados, consulte O que são transformações de dados em Databricks?
|
AI e aprendizado de máquina | A Databricks Data Intelligence Platform oferece um conjunto de ferramentas para ciência de dados, aprendizado de máquina e aplicativos AI. Consulte AI e aprendizado de máquina em Databricks. |
:::
Configurar o acesso aos dados
A maioria dos espaços de trabalho Databricks depende de um administrador workspace ou de outros usuários avançados para configurar conexões com fontes de dados externas e aplicar privilégios aos dados ativos com base na associação à equipe, região ou funções. Esta seção fornece uma visão geral das tarefas comuns para configurar e controlar o acesso aos dados que exigem permissões elevadas.
Antes de solicitar permissões elevadas para configurar uma nova conexão com uma fonte de dados, confirme se o senhor está apenas perdendo privilégios em uma conexão, catálogo ou tabela existente. Se uma fonte de dados não estiver disponível, consulte sua organização sobre a política para adicionar novos dados ao seu site workspace.
área de recurso | Recursos |
---|---|
Unity Catalog |
|
Conexões e acesso |
|
Compartilhar |
|
Configurar o espaço de trabalho e a infraestrutura
Esta seção fornece uma visão geral das tarefas comuns associadas à administração do workspace ativo e da infraestrutura. Em termos gerais, workspace ativo inclui o seguinte:
- compute recurso : compute recurso inclui clustering interativo para todos os fins, SQL warehouse, Job clustering e pipeline compute. Um usuário ou carga de trabalho deve ter permissões para se conectar ao recurso compute em execução para processar a lógica especificada.
Os usuários que não têm acesso para se conectar a qualquer recurso do compute têm funcionalidade muito limitada no Databricks.
-
Ferramentas da plataforma : A Databricks Data Intelligence Platform oferece um conjunto de ferramentas adaptadas a diferentes casos de uso e personas, como Notebook, Databricks SQL e Mosaic AI. Os administradores podem personalizar as configurações que incluem comportamentos do default, recurso opcional e acesso do usuário para muitas dessas ferramentas.
-
Artefatos : Os artefatos incluem Notebook, consultas, dashboards, arquivos, biblioteca, pipeline e Job. Os artefatos contêm código e configurações que os usuários criam para realizar as ações desejadas em seus dados.
O usuário que cria um workspace ativo recebe a função de proprietário pelo default. Na maioria dos ativos, os proprietários podem conceder permissões a qualquer outro usuário ou grupo no site workspace.
Para garantir que os dados e o código estejam seguros, o site Databricks recomenda configurar a função de proprietário para todos os artefatos e compute recurso implantado em uma produção workspace.
área de recurso | Recursos |
---|---|
direitos de espaço de trabalho | Os direitos do espaço de trabalho incluem acesso básico a workspace, acesso a Databricks SQL e criação irrestrita de clustering. Ver gerenciar direitos. |
computar acesso a recursos & políticas |
|
Ferramentas de plataforma | Use o console de administração para configurar comportamentos que vão desde a personalização da aparência do site workspace até a ativação ou desativação do produto e do recurso. Consulte gerenciar seu workspace. |
ACLs do espaço de trabalho | As listas de controle de acesso ao espaço de trabalho (ACLs) controlam como os usuários e grupos podem interagir com o workspace ativo, incluindo compute recurso, artefatos de código e trabalho. Consulte Listas de controle de acesso. |
Produtize cargas de trabalho
Todos os produtos Databricks são criados para acelerar o caminho do desenvolvimento à produção e para garantir escala e estabilidade. Esta seção fornece uma breve introdução ao conjunto de ferramentas recomendado para colocar cargas de trabalho em produção.
área de recurso | Recursos |
---|---|
ETL tubulação | O pipeline DLT fornece uma sintaxe declarativa para criar e produzir o pipeline ETL. Consulte O que é DLT? . |
Orquestração | O Jobs permite que o senhor defina fluxos de trabalho complexos com dependências, acionadores e programação. Veja a orquestração usando Databricks Jobs. |
CI/CD | Databricks Os pacotes ativos facilitam gerenciar e implantar dados, ativos e artefatos em todo o espaço de trabalho. Veja o que são Databricks ativo Bundles? |