Conceitos do Databricks
Este artigo apresenta os conceitos fundamentais que o senhor precisa entender para usar o site Databricks de forma eficaz.
Contas e workspaces
No Databricks, um workspace é uma implantação do Databricks na nuvem que funciona como um ambiente para sua equipe acessar ativos do Databricks. Sua organização pode optar por ter vários workspace ou apenas um, dependendo das suas necessidades.
Uma conta do Databricks representa uma única entidade que pode conter vários workspaces. As contas habilitadas para o Unity Catalog podem ser usadas para gerenciar usuários e seu acesso aos dados de forma centralizada em todos os workspaces da conta. O faturamento e o suporte também são tratados no nível da conta.
Faturamento: unidades Databricks (DBus)
O Databricks fatura com base em unidades de Databricks (DBUs), que são unidades de capacidade de processamento por hora com base no tipo de instância de VM.
Consulte o Databricks no estimador de definição de preço da AWS.
Autenticação e autorização
Esta seção descreve os conceitos que você precisa saber quando gerencia identidades do Databricks e seu acesso aos ativos do Databricks.
Usuário
Um indivíduo que tem acesso ao sistema. As identidades dos usuários são representadas por endereços de e-mail. Consulte Gerenciar usuários.
Entidade de serviço
Uma identidade de serviço para uso com trabalhos, ferramentas automatizadas e sistemas como scripts, aplicativos e plataformas de CI/CD. As entidades de serviço são representados por um ID de aplicativo. Consulte Gerenciar entidades de serviço.
Grupo
Uma coleção de identidades. Os grupos simplificam o gerenciamento de identidades, facilitando a atribuição de acesso a workspaces, dados e outros objetos que podem ser protegidos. Todas as identidades do Databricks podem ser atribuídas como membros de grupos. Consulte Gerenciar grupos.
Lista de controle de acesso (ACL)
Uma lista de permissões anexadas a workspace, cluster, Job, tabela ou experimento. O site ACL especifica quais usuários ou processos do sistema têm acesso aos objetos, bem como quais operações são permitidas no ativo. Cada entrada em um site típico ACL especifica um assunto e uma operação. Consulte Listas de controle de acesso.
Personal access token (PAT)
Um access token pessoal é uma cadeia de caracteres usada para autenticar REST API chamadas, conexões de parceiros tecnológicos e outras ferramentas. Consulte Databricks autenticação pessoal access token .
Interfaces do Databricks
Esta seção descreve as interfaces para acessar seu ativo em Databricks.
UI
A interface do usuário do Databricks é uma interface gráfica para interagir com recursos, como pastas de workspace e seus objetos contidos, objetos de dados e recursos computacionais.
API REST
O Databricks REST API fornece um ponto de extremidade para modificar ou solicitar informações sobre os objetos Databricks account e workspace. Consulte referência de conta e referência de espaço de trabalho.
API REST do SQL
O SQL REST API permite que o senhor automatize a tarefa em objetos SQL. Consulte API do SQL.
CLI
A CLI da Databricks está hospedada no GitHub. A CLI foi criada com base na API REST da Databricks.
Gerenciamento de dados
Esta seção descreve os objetos lógicos que armazenam os dados que são inseridos nos algoritmos do site machine learning e sobre os quais é feita a análise. Além disso, ele descreve a interface do usuário na plataforma para explorar e gerenciar objetos de dados.
Unity Catalog
Unity Catalog é uma solução de governança unificada para dados e IA ativa no site Databricks que oferece recursos centralizados de controle de acesso, auditoria, linhagem e descobrimento de dados no espaço de trabalho Databricks. Consulte O que é o Unity Catalog?
Raiz do DBFS
Importante
O armazenamento e o acesso a montagens de uso de dados DBFS root ou DBFS é um padrão obsoleto e não é recomendado por Databricks. Em vez disso, a Databricks recomenda o uso do Unity Catalog para gerenciar o acesso a todos os dados. Consulte O que é o Unity Catalog?
A raiz do DBFS é um local de armazenamento disponível para todos os usuários por padrão. Consulte O que é DBFS?
Explorador de catálogo
O Catalog Explorer permite explorar e gerenciar dados e IA ativo, incluindo esquemas (bancos de dados), tabelas, modelos, volumes (dados não tabulares), funções e modelos registrados ML. O senhor pode usá-lo para encontrar objetos e proprietários de dados, entender os relacionamentos de dados entre tabelas e gerenciar permissões e compartilhamento. Consulte O que é o Catalog Explorer?
Banco de dados
Uma coleção de objetos de dados, como tabelas ou visualizações e funções, que é organizada de forma que possa ser facilmente acessada, gerenciada e atualizada. Consulte O que são esquemas em Databricks?
Tabela
Uma representação de dados estruturados. O senhor consulta tabelas com o Apache Spark SQL e as APIs do Apache Spark. Consulte O que são tabelas e visualizações?
Tabela delta
Por padrão, todas as tabelas criadas no Databricks são tabelas Delta. As tabelas Delta são baseadas no projeto de software livre Delta Lake, uma estrutura para armazenamento de tabelas ACID de alto desempenho em armazenamentos de objetos em nuvem. Uma tabela Delta armazena dados como um diretório de arquivos no armazenamento de objetos em nuvem e registra os metadados da tabela no metastore em um catálogo e esquema.
Saiba mais sobre tecnologias com marca Delta.
Metastore
O componente que armazena todas as informações de estrutura das várias tabelas e partições no site data warehouse, incluindo informações de coluna e tipo de coluna, os serializadores e desserializadores necessários para ler e gravar dados e os arquivos correspondentes onde os dados são armazenados. Consulte Metastores
Todas as implantações do Databricks contam com um Hive metastore central acessível por todos os clusters para manter os metadados da tabela. Você também tem a opção de usar um Hive metastore externo existente.
Gerenciamento de computação
Esta seção descreve os conceitos que você precisa conhecer para executar cálculos no Databricks.
Cluster
Um conjunto de recursos de computação e configurações nos quais você executa Notebook e Job. Existem dois tipos de clusters: multiuso e Job. Consulte Computação.
Você cria um cluster para todos os fins usando a interface do usuário, a CLI ou a API REST. Você pode encerrar e reiniciar manualmente um cluster multifuncional. Vários usuários podem compartilhar esses clusters para fazer análises interativas colaborativas.
O programador de trabalho Databricks cria um trabalho cluster quando o senhor executa um trabalho em um novo trabalho cluster e o encerra cluster quando o trabalho é concluído. O senhor não pode reiniciar um trabalho cluster.
Pool
Um conjunto de instâncias paradas e prontas para uso que reduzem o tempo de início e de dimensionamento automático dos clusters. Quando anexado a um pool, um cluster aloca seu driver e worker nós do pool. Consulte pool referência de configuração.
Se o pool não tiver recursos ociosos suficientes para acomodar a solicitação do cluster, o pool se expandirá alocando novas instâncias do provedor de instâncias. Quando um cluster anexado é encerrado, as instâncias usadas são retornadas ao pool e podem ser reutilizadas por outro cluster.
Databricks runtime
O conjunto de componentes principais que o senhor executa no clusters gerenciar por Databricks. Consulte Computação. O Databricks tem os seguintes tempos de execução:
O Databricks Runtime inclui o Apache Spark, mas também adiciona uma série de componentes e atualizações que melhoram substancialmente a usabilidade, o desempenho e a segurança da análise de big data.
O Databricks Runtime for Machine Learning é baseado no Databricks Runtime e fornece infraestrutura de aprendizado de máquina pré-construída que é integrada com todos os recursos do workspace do Databricks. Ele contém várias bibliotecas populares, incluindo TensorFlow, Keras, PyTorch e XGBoost.
Fluxos de trabalho
A UI do fluxo de trabalho workspace fornece acesso às UIs do pipeline de Jobs e DLT, que são ferramentas que permitem orquestrar e programar o fluxo de trabalho.
Jobs
Um mecanismo não interativo para orquestrar e programar o Notebook, a biblioteca e outras tarefas. Ver programar e orquestrar fluxo de trabalho
tubulação
Delta Live Tables fornecem uma estrutura declarativa para a criação de um pipeline de processamento de dados confiável, sustentável e testável. Veja o que é Delta Live Tables?
Carga de trabalho
Carga de trabalho é a quantidade de capacidade de processamento necessária para executar uma tarefa ou um grupo de tarefas. Databricks identifica dois tipos de cargas de trabalho: engenharia de dados (Job) e análise de dados (all-purpose).
Data engineering Uma carga de trabalho (automatizada) é executada em um cluster de tarefas que o agendador de tarefas do Databricks cria para cada carga de trabalho.
Análise de dados Uma carga de trabalho (interativa) é executada em um cluster todo-propósito. As cargas de trabalho interativas normalmente executam comandos em um notebook do Databricks. No entanto, a execução de um job em um clusters todo-propósito existente também é tratada como uma carga de trabalho interativa.
Engenharia de dados
As ferramentas de engenharia de dados ajudam a colaboração entre data scientists, engenheiros de dados, analistas de dados e engenheiros de machine learning.
Workspace
Um espaço de trabalho é um ambiente para acessar todos os seus ativos do Databricks. Um espaço de trabalho organiza objetos (Notebook, bibliotecas, painéis e experimentos) em pastas e fornece acesso a objetos de dados e recursos computacionais.
Notebook
Uma interface baseada na web para criar fluxos de trabalho de ciência de dados e machine learning que podem conter comandos executáveis, visualizações e texto narrativo. Consulte Introdução aos blocos de anotações do Databricks.
Biblioteca
Um pacote de código disponível para o Notebook ou Job em execução no seu cluster. Databricks incluem muitas bibliotecas, e o senhor também pode upload as suas próprias. Ver biblioteca.
Pasta Git (anteriormente Repos)
Uma pasta cujo conteúdo é convertido em conjunto, sincronizando-o com um repositório Git remoto. As pastas Git da Databricks se integram ao Git para fornecer controle de origem e de versão para seus projetos.
IA e machine learning
Databricks fornece um ambiente integrado de ponta a ponta com serviço gerenciado para desenvolvimento e implantação de aplicativos IA e machine learning.
Mosaic AI
O nome da marca do produto e serviço da Databricks Mosaic AI Research, uma equipe de pesquisadores e engenheiros responsável pelos maiores avanços da Databricks em IA generativa. Mosaic AI Os produtos incluem o recurso ML e IA em Databricks. Consulte a Mosaic Research.
Tempo de execução de aprendizado de máquina
Para ajudá-lo a desenvolver modelos de ML e IA, Databricks fornece um Databricks Runtime para Machine Learning, que automatiza a criação de compute com infraestrutura pré-construída machine learning e aprendizagem profunda, incluindo a biblioteca mais comum ML e DL. Ele também tem suporte integrado e pré-configurado para GPU, incluindo drivers e biblioteca de suporte. Navegue até as informações sobre os últimos lançamentos de tempo de execução em Databricks Runtime notas sobre versões e compatibilidade.
Experimento
Uma coleção de execuções do MLflow para treinar um modelo de machine learning. Consulte Organizar execuções de treinamento com experimentos do MLflow.
recurso
Os recursos são um componente importante dos modelos do site ML. Um repositório de recursos permite o compartilhamento e a descoberta de recursos em toda a organização e também garante que o mesmo código de computação de recursos seja usado para treinamento e inferência de modelos. Ver recurso engenharia e servir.
Modelos GenAI
A Databricks oferece suporte à exploração, ao desenvolvimento e à implantação de modelos de IA generativos, incluindo:
IA playground, um ambiente semelhante a um bate-papo no site workspace onde o senhor pode testar, solicitar e comparar LLMs. Veja Chat com LLMs e protótipos de aplicativos GenAI usando o AI Playground.
Um conjunto integrado de modelos de base pré-configurados que o senhor pode consultar:
LLMs hospedados por terceiros, chamados de modelos externos. Esses modelos devem ser usados no estado em que se encontram.
Recursos para personalizar um modelo de fundação para otimizar seu desempenho para sua aplicação específica (geralmente chamado de ajuste fino). Consulte Ajuste fino do modelo básico.
Registro de modelo
A Databricks fornece uma versão hospedada do MLflow Model Registry no Unity Catalog. Os modelos registrados em Unity Catalog herdam controle de acesso centralizado, linhagem e descoberta e acesso entreworkspace. Veja como gerenciar o ciclo de vida do modelo em Unity Catalog.
Servindo modelo
Mosaic AI Model Serving fornece uma interface unificada para implantar, controlar e consultar modelos de AI. Cada modelo que o senhor atende está disponível como uma API REST que pode ser integrada ao seu aplicativo da Web ou cliente. Com o site Mosaic AI Model Serving, o senhor pode implantar seus próprios modelos, modelos de fundação ou modelos de terceiros hospedados fora do site Databricks. Veja servindo modelo com Databricks.
data warehousing
data warehousing refere-se à coleta e ao armazenamento de dados de várias fontes para que possam ser acessados rapidamente para percepções e relatórios comerciais. Databricks SQL é o conjunto de serviços que traz data warehousing recursos e desempenho para o seu lago de dados existente. Consulte O que é data warehousing na Databricks?
Consulta
Uma consulta é uma instrução SQL válida que permite que o senhor interaja com seus dados. O senhor pode criar consultas usando o editor SQL na plataforma ou conectar-se usando um conector, driver ou API SQL. Consulte Acessar e gerenciar consultas salvas para saber mais sobre como trabalhar com consultas.
SQL warehouse
Um recurso de computação no qual o senhor executa SQL consultas. Existem três tipos de armazém SQL: Classic, Pro e serverless. Databricks recomenda o uso do site serverless warehouses quando disponível. Consulte SQL warehouse types para comparar os recursos disponíveis para cada tipo de depósito.
Histórico de consultas
Uma lista de consultas executadas e suas características de desempenho. A história da consulta permite que o senhor monitore o desempenho da consulta, ajudando-o a identificar gargalos e otimizar os tempos de execução da consulta. Consulte Histórico de consultas.
Visualização
Uma apresentação gráfica do resultado da execução de uma query. Consulte Visualizações de notebooks do Databricks.
Painel
Uma apresentação de visualizações e comentários de dados. O senhor pode usar painéis para enviar relatórios automaticamente para qualquer pessoa em seu site Databricks account. Use o Databricks Assistant para ajudá-lo a criar visualizações com base em prompts de linguagem natural. Consulte Painéis. O senhor também pode criar um painel a partir de um Notebook. Consulte Dashboards no Notebook.
Para painéis legados, consulte Painéis legados.
Importante
Databricks recomenda o uso do AI/BI dashboards (anteriormente Lakeview dashboards). As versões anteriores dos painéis, anteriormente chamadas de Databricks SQL dashboards, agora são chamadas de legacy dashboards. A Databricks não recomenda a criação de novos painéis legados.
Converta painéis antigos usando a ferramenta de migração ou a API REST. Consulte Clonar um painel legado para AI/BI dashboard para obter instruções sobre como usar a ferramenta de migração integrada. Consulte o tutorial do Dashboard para obter um tutorial sobre a criação e o gerenciamento de dashboards usando o site REST API.