Glossário de terminologia técnica da Databricks
A
lista de controle de acesso (ACL)
Uma lista de permissões anexadas ao site workspace, ao clustering, ao Job, à tabela ou ao experimento. O site ACL especifica quais usuários ou processos do sistema têm acesso aos objetos e quais operações são permitidas no ativo. Cada entrada em um site típico ACL especifica um assunto e uma operação. Consulte Listas de controle de acesso.
Modo de acesso
Um recurso de segurança que determina quem pode usar um recurso compute e os dados que podem ser acessados durante o uso do recurso compute. Cada recurso do site compute em Databricks tem um modo de acesso. Consulte Modos de acesso.
Transações ACID
Transações de banco de dados que são processadas de forma confiável. ACID significa atomicidade, consistência, isolamento e durabilidade. Consulte Práticas recomendadas para confiabilidade.
inteligência artificial (AI)
A capacidade de um computador de imitar o comportamento humano inteligente. Consulte AI e aprendizado de máquina em Databricks.
Gateway de IA
As soluções Databricks para governo e monitoramento de endpoint LLM , agentes de codificação e instalação de modelo de endpoint. Utilize o AI Gateway para analisar o uso, configurar permissões e gerenciar a capacidade entre os provedores. Consulte o AI Gateway.
Playground de IA
Um recurso Databricks onde os usuários podem interagir, testar e comparar modelos generativos AI servidos em seu Databricks workspace. Consulte Bate-papo com LLMs e protótipo de aplicativos generativos AI usando AI Playground.
detecção de anomalia
Técnicas e ferramentas usadas para identificar padrões incomuns que não estão em conformidade com o comportamento esperado no conjunto de dados. Databricks facilita a detecção de anomalias por meio de seus recursos de aprendizado de máquina e processamento de dados.
Iceberg Apache
Um formato de tabela de código aberto para cargas de trabalho analíticas que suporta evolução do esquema, viagem do tempo e particionamento oculto. Databricks oferece suporte a tabelas Iceberg gerenciadas pelo Unity Catalog e por catálogos externos. Veja O que é o Apache Iceberg no Databricks?
Apache Spark
Um sistema de computação distribuído de código aberto usado para cargas de trabalho de big data. Veja a visão geral do Apache Spark.
rede neural artificial (rede neurais artificiais (ANN))
Um sistema de computação modelado de acordo com as operações dos neurônios no cérebro humano.
ativo
Uma entidade em um Databricks workspace (por exemplo, um objeto ou um arquivo).
auditoria log
Um registro das atividades e ações do usuário no ambiente Databricks, crucial para segurança, compliance e monitoramento operacional. Consulte a referência Audit log.
Carregador automático
Um recurso de ingestão de dados que processa de forma incremental e eficiente novos arquivos de dados à medida que eles chegam ao armazenamento em nuvem, sem nenhuma configuração adicional. Consulte O que é o Auto Loader?
AutoML
Um recurso Databricks que simplifica o processo de aplicação do aprendizado de máquina ao seu conjunto de dados, encontrando automaticamente o melhor algoritmo e a melhor configuração de hiperparâmetro para o senhor. Consulte O que é AutoML?
linhagem de dados automatizada
O processo de acompanhamento e visualização automática do fluxo de dados desde sua origem, passando por várias transformações até sua forma final, essencial para a depuração, compliance, e compreensão das dependências de dados. A Databricks facilita isso por meio de integrações com ferramentas de linhagem de dados.
escala automática, horizontal
Adição ou remoção do executor com base no número de tarefas que estão aguardando agendamento. Isso acontece dinamicamente durante uma única atualização.
escala automática, vertical
Aumentar ou diminuir o tamanho de uma máquina (driver ou executor) com base na pressão da memória (ou na falta dela). Isso acontece apenas no início de uma nova atualização.
Azure Databricks
Uma versão do Databricks que é otimizada para a plataforma de nuvem do Microsoft Azure.
B
processamento de lotes
Um método de processamento de dados que permite que o senhor defina instruções explícitas para processar uma quantidade fixa de dados estáticos e imutáveis como uma única operação. A Databricks usa Spark SQL ou DataFrames. Consulte Conectores padrão em LakeFlow Connect.
detecção e mitigação de viés
O processo de identificação e tratamento de vieses em dados e modelos de aprendizado de máquina para garantir a imparcialidade e a precisão. A Databricks oferece ferramentas e integrações para ajudar a detectar e atenuar o viés. Consulte Monitorar imparcialidade e preconceito para modelos de classificação.
Business Intelligence (BI)
As estratégias e a tecnologia usadas pelas empresas para a análise de dados e o gerenciamento de informações comerciais.
C
catálogo (Unity Catalog)
O primeiro nível do namespace de três níveis do Unity Catalog (catalog.schema.table-etc). Um catálogo é um contêiner para esquemas, que por sua vez contêm tabelas, visualizações, volumes, modelos e funções. Veja O que são catálogos no Databricks?
Explorador de Catálogos
Um Databricks recurso que fornece uma interface de usuário para explorar e gerenciar dados, esquemas (bancos de dados), tabelas, modelos, funções e outros AI ativos. O senhor pode usá-lo para encontrar objetos e proprietários de dados, entender os relacionamentos de dados entre tabelas e gerenciar permissões e compartilhamento. Consulte O que é o Catalog Explorer?.
CICD ou CI/CD
As práticas combinadas de integração contínua (CI) e entrega contínua (CD). Consulte CI/CD na Databricks.
limpeza de dados
Dados que passaram por um processo de Limpeza de dados, que é o processo de detecção e correção (ou remoção) de registros corrompidos ou imprecisos de um conjunto de registros, tabela ou banco de dados e refere-se à identificação de partes incompletas, incorretas, imprecisas ou irrelevantes dos dados e, em seguida, à substituição, modificação ou exclusão dos dados sujos ou grosseiros.
fornecedor da plataforma cloud
Uma empresa que fornece uma plataforma de computação em nuvem. Por exemplo, Microsoft Azure, Amazon Web serviço (AWS) e Google Cloud Platform (GCP).
Cluster
Um recurso compute não-serverless usado no pipeline declarativo Spark para Notebooks, Jobs e LakeFlow . O termo compute substituiu cluster em toda a interface do usuário Databricks , mas ainda é usado na API de clusters e nos metadados.
Compute
Refere-se a compute recurso, que são elementos de infraestrutura, seja hardware ou software, que permitem a resolução de problemas e a criação de soluções por meio do recebimento, análise e armazenamento de dados. computar.
contínuo pipeline
Um pipeline que atualiza todas as tabelas continuamente, à medida que novos dados chegam à entrada, sem parar. Consulte Modo de pipeline acionado vs. contínuo.
D
gráfico acíclico direcionado (DAG)
Um método para representar as dependências entre as tarefas em um fluxo de trabalho ou pipeline. Em um modelo de processamento DAG, as tarefas são representadas como nós em um gráfico acíclico direcionado, em que as bordas representam as dependências entre as tarefas.
Catálogo de dados
Uma ferramenta de gerenciamento de metadados para gerenciar fontes de dados, fornecendo informações sobre a estrutura, o local e o uso dos dados. Databricks integra-se ao catálogo de dados externo para aprimorar o gerenciamento de metadados.
Governança de dados
A prática de gerenciar a disponibilidade, a integridade, a segurança e a usabilidade dos dados, envolvendo políticas, procedimentos e tecnologia para garantir a qualidade dos dados e compliance.
Ingestão de dados
O processo de importação, transferência, carregamento e processamento de dados de várias fontes no Databricks para armazenamento, análise e processamento.
data lake
Um grande repositório de armazenamento que mantém uma grande quantidade de dados brutos em seu formato nativo até que sejam necessários.
Data lakehouse
Um sistema de gerenciamento de dados que combina os benefícios do data lake e do data warehouse. O site data lakehouse oferece recursos de armazenamento e processamento dimensionáveis para organizações modernas que desejam evitar sistemas isolados para o processamento de diferentes cargas de trabalho, como aprendizado de máquina (ML) e Business Intelligence (BI). Um data lakehouse pode ajudar a estabelecer uma única fonte de verdade, eliminar custos redundantes e garantir o frescor dos dados. Consulte O que é um data lakehouse?
perfil de dados
Monitora as propriedades estatísticas e a qualidade dos dados em todas as tabelas da sua account. Você também pode usá-lo para acompanhar o desempenho do modelo de machine learning e servir o endpoint do modelo, monitorando as tabelas de inferência que contêm as entradas e previsões do modelo. Veja o perfil de dados.
pipeline de dados
Uma série de estágios nos quais os dados são gerados, coletados, processados e movidos para um destino. Databricks facilita a criação e o gerenciamento de pipelines complexos de dados para processamento de lotes e dados em tempo real.
privacidade de dados
A prática de proteger dados pessoais contra acesso, uso, divulgação ou roubo não autorizados. Databricks enfatiza recursos robustos de privacidade e segurança de dados, incluindo criptografia de ponta a ponta, role-based access control, e compliance com os principais regulamentos de proteção de dados, para proteger informações confidenciais e garantir a governança de dados.
visualização de dados
Uma abordagem de gerenciamento de dados que permite que um aplicativo recupere e manipule dados sem exigir detalhes técnicos sobre os dados, como a forma como estão formatados ou onde estão fisicamente localizados. Os Databricks podem servir como parte de uma camada de virtualização de dados, fornecendo acesso contínuo e análise de dados em fontes diferentes.
Data warehousing
Refere-se à coleta e ao armazenamento de dados de várias fontes para que possam ser acessados rapidamente para percepções e relatórios de negócios. A arquitetura lakehouse e a Databricks SQL trazem os recursos da nuvem data warehousing para o seu lago de dados. Consulte Arquitetura de data warehousing.
Databricks
Uma plataforma analítica unificada e aberta para criar, implantar, compartilhar e manter análises de dados de nível empresarial e AI soluções em escala. A Databricks Data Intelligence Platform integra-se ao armazenamento em nuvem e à segurança em sua nuvem account, além de gerenciar e implantar a infraestrutura de nuvem em seu nome. Consulte O que é Databricks?
Databricks AI/BI
Um produto de Business Intelligence para fornecer compreensão da semântica de seus dados, permitindo a análise de dados de autosserviço. AI/BI foi desenvolvido com base em um sistema composto AI que extrai percepções de todo o ciclo de vida de seus dados na plataforma Databricks, incluindo o pipeline ETL, a linhagem e outras consultas. Consulte Databricks AI/BI.
O mecanismo de inteligência de dados que alimenta a plataforma Databricks. É um sistema AI composto que combina o uso de modelos AI , sistemas de recuperação, classificação e personalização para entender a semântica dos dados e padrões de uso da sua organização. Consulte recurso auxiliarDatabricks AI.
Databricks Apps
Um recurso Databricks que permite aos desenvolvedores criar e implantar aplicativos seguros de dados e AI diretamente na plataforma Databricks usando frameworks Python ou Node.js Execução de aplicativos em compute serverless e integração com Unity Catalog, Databricks SQL e OAuth. See Databricks Apps.
Pacotes de Automação Declarativa
Uma ferramenta para facilitar a adoção das melhores práticas de engenharia software , incluindo controle de versão, revisão de código, testes e integração e entrega contínuas (CI/CD), para seus projetos de dados e AI . Os Bundles permitem descrever recursos Databricks como Jobs, pipelines e Notebooks, como arquivos de origem. Veja O que são pacotes de automação declarativa?
Código Genie
Um assistente de programação em pares baseado em AIe um agente de suporte que aumenta sua eficiência na criação de notebooks, consultas, painéis e arquivos. Pode ajudar você a responder perguntas rapidamente, gerando, otimizando, completando, explicando e corrigindo códigos e consultas. Veja o código Genie.
CLI do Databricks
Uma interface de comando-line para o Databricks que permite aos usuários gerenciar e automatizar o espaço de trabalho do Databricks e implantar o Job, o Notebook e a biblioteca. Consulte O que é a CLI do Databricks?
Databricks Connect
Uma biblioteca cliente que permite que os desenvolvedores conectem suas ferramentas favoritas IDEs, Notebook e outras ferramentas com Databricks compute e executem o código Spark remotamente. Consulte O que é o Databricks Connect?
Databricks Container Services
Um recurso Databricks que permite especificar uma imagem Docker quando o senhor cria compute. Consulte Personalizar contêineres com o serviço Databricks Container.
Databricks Marketplace
Um fórum aberto para troca de dados de produtos. Os provedores devem ter um Databricks account, mas os destinatários podem ser qualquer pessoa. O marketplace ativo inclui conjunto de dados, Databricks Notebook, Databricks soluções Accelerators e modelos de aprendizado de máquina (AI). são normalmente disponibilizados como catálogos de dados tabulares, embora também haja suporte para dados não tabulares, na forma de volumes Databricks. Consulte O que é o Databricks Marketplace?
Runtime do Databricks
Um tempo de execução otimizado para análise big data. Databricks também oferece o Databricks Runtime for Machine Learning, que é otimizado para cargas de trabalho do machine learning. Consulte Databricks Runtime notas sobre as versões e a compatibilidade.
Databricks SQL (DBSQL)
A coleção de serviços que trazem data warehousing recursos e desempenho para o seu lago de dados existente. O Databricks SQL é compatível com formatos abertos e com o padrão ANSI SQL. Um editor na plataforma SQL e ferramentas de painel de controle permitem que os membros da equipe colaborem com outros usuários do Databricks diretamente no workspace. Consulte data warehousing em Databricks.
DBUs
Uma Databricks Unit (DBU) é uma unidade normalizada de poder de processamento na Databricks plataforma lakehouse usada para fins de medição e preços. O número de DBUs que uma carga de trabalho consome é determinado pelas métricas de processamento, que podem incluir o compute recurso usado e a quantidade de dados processados. Consulte Componentes do Databricks.
Sistema de Arquivos Databricks (DBFS)
Um sistema de arquivos distribuído montado em um workspace Databricks e disponível no Databricks compute. A Databricks recomenda o uso de volumes do Unity Catalog em vez do DBFS para controlar o acesso a dados não tabulares. Veja O que é DBFS?.
DataFrame
Uma estrutura de dados que organiza os dados em uma tabela bidimensional de linhas e colunas, muito parecida com uma planilha. Os DataFrames são uma das estruturas de dados mais comuns usadas na análise de dados moderna porque são uma forma flexível e intuitiva de armazenar e trabalhar com dados. Veja o tutorial: Carregamento e transformação de dados usando Apache Spark DataFrames .
dataset
Uma coleção estruturada de dados organizados e armazenados juntos para análise ou processamento. Em geral, os dados em um dataset estão relacionados de alguma forma e são obtidos de uma única fonte ou destinados a um único projeto.
Delta Lake
Uma camada de armazenamento de código aberto que traz confiabilidade ao data lake. Delta Lake fornece transações ACID, manipulação de metadados escalonável e unifica a transmissão e o processamento de dados de lotes. Consulte O que é Delta Lake na Databricks?
Pipelines
Uma estrutura declarativa para construir um pipeline de processamento de dados confiável, de fácil manutenção e testável. Você define as transformações a serem realizadas em seus dados e no pipeline declarativo LakeFlow Spark gerenciando tarefas, orquestração, gerenciamento cluster , monitoramento, qualidade de dados e tratamento de erros. Veja o pipeline declarativoLakeFlow Spark.
conjunto de dados de pipeline
As tabelas de transmissão, a visualização materializada e a visualização são mantidas como resultados de consultas declarativas.
Delta Sharing
Permite que o senhor compartilhe dados e AI ativo em Databricks com usuários fora da sua organização, quer esses usuários usem Databricks ou não. Também disponível como um projeto de código aberto para compartilhamento tabular de uso de dados, o Databricks adiciona a capacidade de compartilhar dados não tabulares e não estruturados (volumes), modelos AI, visualização, dados filtrados e Notebook. Consulte O que é Delta Sharing?
Mesas Delta
O formato da tabela de dados default em Databricks e é um recurso da estrutura de dados do código aberto Delta Lake. Delta As tabelas são normalmente usadas para data lake, onde os dados são ingeridos por meio de transmissão ou em grandes lotes. Consulte Tabelas Databricks.
E
incorporação (substantivo)
Uma representação matemática do conteúdo semântico de dados, como texto ou imagens, expressa como um vetor de números. Os embeddings são usados no Databricks para busca vetorial, geração aumentada por recuperação e outras aplicações AI . Diferente do termo "incorporar", que significa incorporar um painel de controle em uma interface de usuário. See Mosaic AI Vector Search.
ETL (extrair, transformar, carregar)
Uma abordagem moderna para integração de dados que remove dados de fontes, carrega-os no sistema de destino e depois os transforma dentro do sistema de destino. Consulte o tutorial: Criar um pipeline ETL com o pipeline declarativo LakeFlow Spark.
tabela externa
Uma tabela registrada no Unity Catalog onde os dados residem em um local de armazenamento cloud externo. Unity Catalog gerencia metadados e controle de acesso, mas o ciclo de vida dos dados é gerenciado fora do Databricks. Consulte Trabalhar com tabelas externas.
F
featureStore
Um repositório central para armazenar, gerenciar e servir recursos para modelos de aprendizado de máquina. Consulte Databricks recurso Store.
Ajuste fino
O processo de pegar um modelo de machine learning pré-treinado e treiná-lo ainda mais em um dataset menor e específico do domínio para otimizar seu desempenho para uma aplicação específica. Consulte ensino de modelos de AI e ML.
corrente
Um fluxo é um processo no pipeline declarativo LakeFlow Spark que lê dados, os transforma e os grava em um destino.
mesa estrangeira
Uma tabela somente leitura no Unity Catalog cujos dados são gerenciados por um catálogo externo ao Unity Catalog, como AWS Glue ou Snowflake. Databricks utiliza o Lakehouse Federation para recuperar metadados e ler a tabela do armazenamento de objetos. Consulte Trabalhar com tabelas estrangeiras.
G
Código Genie
Um parceiro AI autônomo projetado especificamente para trabalho com dados no Databricks. Genie Code está profundamente integrado ao Unity Catalog, fornecendo conhecimento contextual de suas tabelas, colunas e linhagem para acelerar tarefas de dados complexas e com várias etapas. See Genie Code.
Espaço Genie
Um recurso AI/BI Databricks que permite que as equipes de negócios interajam com seu uso de dados em linguagem natural. Especialistas de domínio configuram Genie spaces com conjuntos de dados, consultas de exemplo e diretrizes para que Genie possa traduzir perguntas de negócios em consultas SQL . Veja O que é um espaço Genie.
IA generativa
Um tipo de inteligência artificial focado na capacidade do computador de usar modelos para criar conteúdo como imagens, texto, código e dados sintéticos. Os aplicativos generativos da AI são criados com base em modelos generativos da AI: modelos de linguagem grandes (LLMs) e modelos básicos. Consulte AI e aprendizado de máquina em Databricks.
Pastas Git
Um cliente Git visual integrado ao workspace Databricks que oferece controle de versão, colaboração e recursos CI/CD para notebooks e arquivos. Anteriormente conhecida como Repos. Consulte as pastas Git do Databricks.
EU
Inferência
O processo de usar um modelo treinado de machine learning para gerar previsões ou resultados a partir de novos dados de entrada. Databricks oferece suporte à inferência de tempo real e lotes por meio do Mosaic AI Model Serving. Veja modelos implantados usando Mosaic AI Model Serving.
init script
Um script shell que é executado durante startup de um recurso compute Databricks . O script init pode instalar pacotes, modificar configurações ou definir variáveis de ambiente. Veja O que são scripts de inicialização?
J
job
A unidade principal para programar e orquestrar cargas de trabalho de produção no Databricks. Os trabalhos consistem em uma ou mais tarefas. Veja LakeFlow Jobs.
L
Federação lakehouse
A plataforma de federação de consultas para Databricks. O termo federação de consultas descreve um conjunto de recursos que permite que usuários e sistemas executem consultas em várias fontes de dados sem a necessidade de migrar todos os dados para um sistema unificado. A Databricks usa o Unity Catalog para gerenciar a federação de consultas. Veja o que é Lakehouse Federation?
modelo de linguagem grande (LLM)
Um modelo de processamento de linguagem natural (NLP) projetado para tarefas como resposta a perguntas abertas, bate-papo, resumo de conteúdo, execução de instruções quase arbitrárias, tradução e geração de conteúdo e código. Os LLMs são treinados a partir de grandes conjuntos de dados usando algoritmos avançados de aprendizado de máquina para aprender os padrões e estruturas da linguagem humana. Consulte Modelos de linguagem grande (LLMs) no Databricks.
Biblioteca
Um pacote de código disponível para o Notebook ou Job em execução em seu clustering. Databricks incluem muitas bibliotecas, e o senhor também pode upload as suas próprias. Ver Instalar biblioteca.
Clusters líquidos
Um recurso de otimização de disponibilidade de dados Databricks para tabelas Delta e Iceberg que clusters dados incrementalmente com base em colunas especificadas para melhorar o desempenho das consultas. Ao contrário do particionamento tradicional, clustering líquido se adapta às mudanças nos padrões de dados. Consulte Usar clustering líquido para tabelas.
M
mesa
Uma tabela cujos arquivos de dados e metadados são totalmente gerenciados pelo Unity Catalog. As tabelas são sempre armazenadas no formato Delta ou Iceberg e se beneficiam da manutenção automatizada por meio da otimização preditiva. Consulte Unity Catalog para gerenciar tabelas no Databricks para Delta Lake e Apache Iceberg.
arquitetura de medalhões
Um padrão de design de dados usado para organizar logicamente os dados em uma lakehouse, com o objetivo de melhorar de forma incremental e progressiva a estrutura e a qualidade dos dados à medida que eles fluem por cada camada da arquitetura (de Bronze ⇒ Prata ⇒ ouro). O que é a arquitetura medallion lakehouse?
metastore
O componente que armazena todas as informações de estrutura das várias tabelas e partições no site data warehouse, incluindo informações de coluna e tipo de coluna, os serializadores e desserializadores necessários para ler e gravar dados e os arquivos correspondentes onde os dados são armazenados. Veja Metastore.
viewdo orelhão
Um objeto do Unity Catalog que fornece uma maneira centralizada de definir e gerenciar métricas de negócios reutilizáveis. As métricas permitem visualizar definições de medidas separadas dos agrupamentos de dimensões, possibilitando definir as métricas uma única vez e consultá-las de forma flexível em qualquer dimensão. Veja a visualização de métricasUnity Catalog.
MLflow
A maior plataforma de código aberto de engenharia AI para agentes, LLMs e modelos ML . MLflow permite que equipes de todos os tamanhos depurem, avaliem, monitorem e otimizem seus aplicativos AI , controlando custos e gerenciando o acesso a modelos e dados. MLflow no Databricks é um serviço completo com funcionalidades adicionais para clientes corporativos, proporcionando uma implantação escalável e segura do MLflow. Veja MLflow no Databricks.
MLflow Tracing
Um recurso do MLflow para GenAI que fornece observabilidade de ponta a ponta, registrando cada passo que um agente ou aplicativo AI realiza. Utilize o MLflow Tracing para depurar, monitorar e auditar o comportamento do agente em ambientes de desenvolvimento e produção. Veja MLflow Tracing - Observabilidade GenAI.
Protocolo de Contexto do Modelo (MCP)
Um padrão de código aberto que conecta agentes AI a ferramentas, recursos, prompts e outras informações contextuais por meio de uma interface padronizada. Databricks fornece servidores MCP gerenciados, externos e personalizados. Consulte o Protocolo de Contexto do Modelo (MCP) no Databricks.
treinamento de modelos
O processo de treinamento de aprendizado de máquina e modelos de aprendizagem profunda em Databricks usando muitos códigos abertos populares da biblioteca. Consulte os modelos de trem AI e ML.
Mosaic AI
O recurso que fornece ferramentas unificadas para criar, implantar, avaliar e administrar soluções AI e ML - desde a criação de modelos ML preditivos até os mais recentes aplicativos AI generativos. Consulte AI e aprendizado de máquina em Databricks.
Mosaic AI Model Serving
A interface unificada para implantar, controlar e consultar modelos AI para inferência de tempo real e lotes. Veja os modelos implantados usando Mosaic AI Model Serving.
Mosaic AI Vector Search
Um índice de pesquisa vetorial incorporado à Plataforma de Inteligência de Dados da Databricks e integrado às suas ferramentas de governança e produtividade. Consulte Mosaic AI Vector Search.
N
notebook
Uma interface interativa da Web usada por data scientists e engenheiros para escrever e executar códigos em vários idiomas (por exemplo, Python, Scala, SQL) no mesmo documento. Consulte Databricks Notebook.
O
OAuth
OAuth é um padrão aberto para delegação de acesso, comumente usado como uma forma para usuários da internet concederem a sites ou aplicativos acesso às suas informações em outros sites, mas sem fornecer a eles as senhas. Veja Autorizar acesso ao recurso Databricks.
P
Conexão de parceiros
Um programa Databricks que fornece integrações mantidas pelo fornecedor de software independente para se conectar à maioria dos sistemas de dados corporativos. Consulte O que é o Databricks Partner Connect?
tokens de acesso pessoal (PAT)
Uma sequência de caracteres usada para autenticar um usuário ao acessar um sistema de computador em vez de uma senha. Veja Autorizar acesso ao recurso Databricks.
Photon
Um mecanismo de consulta vetorizado nativo de alto desempenho Databricksque executa suas cargas de trabalho SQL e chamadas DataFrame API mais rapidamente para reduzir seu custo total por carga de trabalho. O Photon é compatível com as APIs do Apache Spark, portanto, funciona com seu código existente. Veja o que é Photon?.
Otimização preditiva
Um recurso Databricks que identifica e executa automaticamente operações de manutenção no Unity Catalog gerenciando tabelas para melhorar o desempenho das consultas e reduzir custos de armazenamento. Consulte Otimização preditiva para Unity Catalog gerenciar tabelas.
pipeline
Um DAG de tabelas, visualizações, visualizações materializadas, fluxos e sumidouros que são atualizados de forma preguiçosa em uma ordem de dependência determinada pelo sistema.
R
S
schema (Unity Catalog)
O filho de um catálogo em Unity Catalog que pode conter tabelas, visualizações, volumes, modelos e funções. Um esquema é o segundo nível do espaço de nomes de três níveis do Unity Catalog (catalog.schema.table-etc). Consulte O que é o Unity Catalog?
Compute serverless
compute gerenciar por Databricks, o que reduz a sobrecarga de gerenciamento e fornece compute instantâneo para aumentar a produtividade do usuário. Consulte Conectar-se a serverless compute .
entidade de serviço
Uma identidade criada para uso com ferramentas automatizadas, trabalho em execução e aplicativos. O senhor pode restringir o acesso de uma entidade de serviço ao recurso usando permissões, da mesma forma que um usuário do Databricks. Ao contrário de um usuário da Databricks, uma entidade de serviço é uma identidade somente de API; ela não pode acessar diretamente a interface do usuário da Databricks ou a CLI da Databricks. Ver entidade de serviço.
sumidouro (tubulação)
Um sink é um destino para um fluxo que grava em um sistema externo (por exemplo, Kafka, Kinesis, Delta).
Armazém SQL
Um recurso compute que permite que o senhor consulte e explore dados em Databricks. Consulte Conectar-se a um site SQL warehouse.
processamento de transmissão
Um método de processamento de dados que permite que o senhor defina uma consulta em um dataset ilimitado e em crescimento contínuo e, em seguida, processe os dados em lotes pequenos e incrementais. Databricks O processamento da transmissão utiliza a transmissão estruturada. Veja os conceitos de transmissão estruturada.
transmissão
Transmissão refere-se a qualquer conteúdo de mídia - ao vivo ou gravado - (ou seja, uma transmissão de dados) entregue a computadores e dispositivos móveis pela Internet e reproduzido em tempo real. Veja os conceitos de transmissão estruturada.
transmissão analítica
O processo de análise de dados que são gerados continuamente por diferentes fontes. Databricks suporta transmissão analítica por meio de transmissão estruturada, permitindo o processamento e a análise de dados ao vivo para percepções em tempo real.
Transmissão estruturada
Um mecanismo de processamento de transmissão escalonável e tolerante a falhas, desenvolvido com base no mecanismo Spark SQL, que permite cálculos complexos como consultas de transmissão. Veja os conceitos de transmissão estruturada.
tabela de streaming
Uma tabela que possui uma transmissão escrita nela. Veja as tabelas de transmissão.
System tables
Databrickshospeda os dados analíticos da sua account, armazenando informações operacionais como logs de auditoria, uso faturável e histórico de dados. As tabelas do sistema estão disponíveis no catálogo system no Unity Catalog. Consulte Monitorar a atividade account com tabelas do sistema.
T
tabela
Uma tabela reside em um esquema e contém linhas de dados. Todas as tabelas criadas em Databricks usam Delta Lake por default. As tabelas apoiadas pelo Delta Lake também são chamadas de tabelas Delta. Consulte Tabelas Databricks.
pipeline acionado
Um pipeline que ingere todos os dados que estavam disponíveis no início da atualização para cada tabela, executando na ordem de dependência e depois encerrando. Consulte Modo de pipeline acionado vs. contínuo.
U
função definida pelo usuário (UDF)
Uma função personalizada criada pelo usuário para estender as capacidades integradas do SQL ou de uma linguagem de programação. No Databricks, as UDFs podem ser registradas no Unity Catalog para governança e reutilização em todo o espaço de trabalho. Veja O que são funções definidas pelo usuário (UDFs)?
Unity Catalog
Um recurso do Databricks que fornece controle de acesso centralizado, auditoria, linhagem e recursos de descobrimento de dados no espaço de trabalho do Databricks. Consulte O que é o Unity Catalog?
V
ver
Uma tabela virtual definida por uma consulta SQL. Ele não armazena dados por si só, mas fornece uma maneira de apresentar dados de uma ou mais tabelas, em um formato ou abstração específicos. Consulte O que é um view?
volumes (Unity Catalog)
Unity Catalog objetos que permitem a governança de conjuntos de dados não tabulares. Os volumes representam um volume lógico de armazenamento em um local de armazenamento de objetos na nuvem. Os volumes fornecem recursos para acessar, armazenar, controlar e organizar arquivos. Consulte O que são volumes do Unity Catalog?
W
Jobs do Lakeflow
O conjunto de ferramentas que permite ao senhor programar e orquestrar tarefas de processamento de dados em Databricks. Veja LakeFlow Jobs.
carga de trabalho
A quantidade de capacidade de processamento necessária para executar uma tarefa ou um grupo de tarefas. Databricks identifica dois tipos de cargas de trabalho: engenharia de dados (Job) e análise de dados (all-purpose). Consulte Componentes do Databricks.
workspace
Um ambiente organizacional que permite aos usuários do Databricks desenvolver, navegar e compartilhar objetos como o Notebook, experimentos, consultas e painéis. Consulte a UI do espaço de trabalho.