Glossário de terminologia técnica da Databricks

A

lista de controle de acesso (ACL)

Uma lista de permissões anexadas ao site workspace, ao clustering, ao Job, à tabela ou ao experimento. O site ACL especifica quais usuários ou processos do sistema têm acesso aos objetos e quais operações são permitidas no ativo. Cada entrada em um site típico ACL especifica um assunto e uma operação. Consulte Listas de controle de acesso.

Modo de acesso

Um recurso de segurança que determina quem pode usar um recurso compute e os dados que podem ser acessados durante o uso do recurso compute. Cada recurso do site compute em Databricks tem um modo de acesso. Consulte Modos de acesso.

Transações ACID

Transações de banco de dados que são processadas de forma confiável. ACID significa atomicidade, consistência, isolamento e durabilidade. Consulte Práticas recomendadas para confiabilidade.

inteligência artificial (AI)

A capacidade de um computador imitar o comportamento humano inteligente. Veja Aprendizado de máquina no Databricks.

Gateway de IA

As soluções Databricks para governar e monitoramento de endpoint LLM, agentes de codificação e endpoint de servindo modelo. Use o AI Gateway para analisar o uso, configurar permissões e gerenciar a capacidade entre os provedores. Consulte Governança de AI com Unity AI Gateway.

Playground de IA

Um recurso Databricks onde os usuários podem interagir, testar e comparar modelos generativos AI servidos em seu Databricks workspace. Consulte Bate-papo com LLMs e protótipo de aplicativos generativos AI usando AI Playground.

detecção de anomalia

Técnicas e ferramentas usadas para identificar padrões incomuns que não estão em conformidade com o comportamento esperado no conjunto de dados. Databricks facilita a detecção de anomalias por meio de seus recursos de aprendizado de máquina e processamento de dados.

Iceberg Apache

Um formato de tabela de código aberto para cargas de trabalho analíticas que suporta evolução do esquema, viagem do tempo e particionamento oculto. Databricks oferece suporte a tabelas Iceberg gerenciadas pelo Unity Catalog e por catálogos externos. Veja O que é o Apache Iceberg no Databricks?

Apache Spark

Um sistema de computação distribuído de código aberto usado para cargas de trabalho de big data. Veja a visão geral do Apache Spark.

rede neural artificial (rede neurais artificiais (ANN))

Um sistema de computação modelado de acordo com as operações dos neurônios no cérebro humano.

ativo

Uma entidade em um Databricks workspace (por exemplo, um objeto ou um arquivo).

auditoria log

Um registro das atividades e ações do usuário no ambiente Databricks, crucial para segurança, compliance e monitoramento operacional. Consulte a referência Audit log.

Carregador automático

Um recurso de ingestão de dados que processa de forma incremental e eficiente novos arquivos de dados à medida que eles chegam ao armazenamento em nuvem, sem nenhuma configuração adicional. Consulte O que é o Auto Loader?

AutoML

Um recurso Databricks que simplifica o processo de aplicação do aprendizado de máquina ao seu conjunto de dados, encontrando automaticamente o melhor algoritmo e a melhor configuração de hiperparâmetro para o senhor. Consulte O que é AutoML?

linhagem de dados automatizada

O processo de acompanhamento e visualização automática do fluxo de dados desde sua origem, passando por várias transformações até sua forma final, essencial para a depuração, compliance, e compreensão das dependências de dados. A Databricks facilita isso por meio de integrações com ferramentas de linhagem de dados.

escala automática, horizontal

Adição ou remoção do executor com base no número de tarefas que estão aguardando agendamento. Isso acontece dinamicamente durante uma única atualização.

escala automática, vertical

Aumentar ou diminuir o tamanho de uma máquina (driver ou executor) com base na pressão da memória (ou na falta dela). Isso acontece apenas no início de uma nova atualização.

Azure Databricks

Uma versão do Databricks que é otimizada para a plataforma de nuvem do Microsoft Azure.

B

processamento de lotes

Um método de processamento de dados que permite que o senhor defina instruções explícitas para processar uma quantidade fixa de dados estáticos e imutáveis como uma única operação. A Databricks usa Spark SQL ou DataFrames. Consulte Conectores padrão em LakeFlow Connect.

detecção e mitigação de viés

O processo de identificação e tratamento de vieses em dados e modelos de aprendizado de máquina para garantir a imparcialidade e a precisão. A Databricks oferece ferramentas e integrações para ajudar a detectar e atenuar o viés. Consulte Monitorar imparcialidade e preconceito para modelos de classificação.

Business Intelligence (BI)

As estratégias e a tecnologia usadas pelas empresas para a análise de dados e o gerenciamento de informações comerciais.

C

catálogo (Unity Catalog)

O primeiro nível do namespace de três níveis do Unity Catalog (catalog.schema.table-etc). Um catálogo é um contêiner para esquemas, que por sua vez contêm tabelas, visualizações, volumes, modelos e funções. Veja O que são catálogos no Databricks?

Explorador de Catálogos

Um Databricks recurso que fornece uma interface de usuário para explorar e gerenciar dados, esquemas (bancos de dados), tabelas, modelos, funções e outros AI ativos. O senhor pode usá-lo para encontrar objetos e proprietários de dados, entender os relacionamentos de dados entre tabelas e gerenciar permissões e compartilhamento. Consulte O que é o Catalog Explorer?.

CICD ou CI/CD

As práticas combinadas de integração contínua (CI) e entrega contínua (CD). Consulte CI/CD na Databricks.

limpeza de dados

Dados que passaram por um processo de Limpeza de dados, que é o processo de detecção e correção (ou remoção) de registros corrompidos ou imprecisos de um conjunto de registros, tabela ou banco de dados e refere-se à identificação de partes incompletas, incorretas, imprecisas ou irrelevantes dos dados e, em seguida, à substituição, modificação ou exclusão dos dados sujos ou grosseiros.

fornecedor da plataforma cloud

Uma empresa que fornece uma plataforma de computação em nuvem. Por exemplo, Microsoft Azure, Amazon Web serviço (AWS) e Google Cloud Platform (GCP).

Cluster

Um recurso de compute não Serverless usado em Notebooks, Jobs e Lakeflow Pipelines. O termo compute substituiu cluster em toda a IU do Databricks, mas ainda é usado na API de Clusters e em metadados.

Compute

Refere-se a compute recurso, que são elementos de infraestrutura, seja hardware ou software, que permitem a resolução de problemas e a criação de soluções por meio do recebimento, análise e armazenamento de dados. computar.

contínuo pipeline

Um pipeline que atualiza todas as tabelas continuamente, à medida que novos dados chegam à entrada, sem parar. Consulte Modo de pipeline acionado vs. contínuo.

D

gráfico acíclico direcionado (DAG)

Um método para representar as dependências entre as tarefas em um fluxo de trabalho ou pipeline. Em um modelo de processamento DAG, as tarefas são representadas como nós em um gráfico acíclico direcionado, em que as bordas representam as dependências entre as tarefas.

Catálogo de dados

Uma ferramenta de gerenciamento de metadados para gerenciar fontes de dados, fornecendo informações sobre a estrutura, o local e o uso dos dados. Databricks integra-se ao catálogo de dados externo para aprimorar o gerenciamento de metadados.

Governança de dados

A prática de gerenciar a disponibilidade, a integridade, a segurança e a usabilidade dos dados, envolvendo políticas, procedimentos e tecnologia para garantir a qualidade dos dados e compliance.

Ingestão de dados

O processo de importação, transferência, carregamento e processamento de dados de várias fontes no Databricks para armazenamento, análise e processamento.

data lake

Um grande repositório de armazenamento que mantém uma grande quantidade de dados brutos em seu formato nativo até que sejam necessários.

Data lakehouse

Um sistema de gerenciamento de dados que combina os benefícios do data lake e do data warehouse. O site data lakehouse oferece recursos de armazenamento e processamento dimensionáveis para organizações modernas que desejam evitar sistemas isolados para o processamento de diferentes cargas de trabalho, como aprendizado de máquina (ML) e Business Intelligence (BI). Um data lakehouse pode ajudar a estabelecer uma única fonte de verdade, eliminar custos redundantes e garantir o frescor dos dados. Consulte O que é um data lakehouse?

perfil de dados

Monitora as propriedades estatísticas e a qualidade dos dados em todas as tabelas da sua account. Você também pode usá-lo para acompanhar o desempenho do modelo de machine learning e servir o endpoint do modelo, monitorando as tabelas de inferência que contêm as entradas e previsões do modelo. Veja o perfil de dados.

pipeline de dados

Uma série de estágios nos quais os dados são gerados, coletados, processados e movidos para um destino. Databricks facilita a criação e o gerenciamento de pipelines complexos de dados para processamento de lotes e dados em tempo real.

privacidade de dados

A prática de proteger dados pessoais contra acesso, uso, divulgação ou roubo não autorizados. Databricks enfatiza recursos robustos de privacidade e segurança de dados, incluindo criptografia de ponta a ponta, role-based access control, e compliance com os principais regulamentos de proteção de dados, para proteger informações confidenciais e garantir a governança de dados.

visualização de dados

Uma abordagem de gerenciamento de dados que permite que um aplicativo recupere e manipule dados sem exigir detalhes técnicos sobre os dados, como a forma como estão formatados ou onde estão fisicamente localizados. Os Databricks podem servir como parte de uma camada de virtualização de dados, fornecendo acesso contínuo e análise de dados em fontes diferentes.

Data warehousing

Refere-se à coleta e ao armazenamento de dados de várias fontes para que possam ser acessados rapidamente para percepções e relatórios de negócios. A arquitetura lakehouse e a Databricks SQL trazem os recursos da nuvem data warehousing para o seu lago de dados. Consulte Arquitetura de data warehousing.

Databricks

Uma plataforma analítica unificada e aberta para criar, implantar, compartilhar e manter análises de dados de nível empresarial e AI soluções em escala. A Databricks Data Intelligence Platform integra-se ao armazenamento em nuvem e à segurança em sua nuvem account, além de gerenciar e implantar a infraestrutura de nuvem em seu nome. Consulte O que é Databricks?

Databricks AI/BI

Um produto de Business Intelligence para fornecer compreensão da semântica de seus dados, permitindo a análise de dados de autosserviço. AI/BI foi desenvolvido com base em um sistema composto AI que extrai percepções de todo o ciclo de vida de seus dados na plataforma Databricks, incluindo o pipeline ETL, a linhagem e outras consultas. Consulte Databricks AI/BI.

Databricks AI recurso

O mecanismo de inteligência de dados que alimenta a plataforma Databricks. É um sistema AI composto que combina o uso de modelos AI , sistemas de recuperação, classificação e personalização para entender a semântica dos dados e padrões de uso da sua organização. Consulte recurso auxiliarDatabricks AI.

Databricks AI Pesquisa

Um índice de pesquisa vetorial incorporado à Databricks Data Intelligence Platform e integrado às suas ferramentas de governança e produtividade. Consulte Pesquisa de IA da Databricks.

Databricks AI Search era anteriormente conhecida como Databricks Vector Search.

Databricks Apps

Um recurso Databricks que permite aos desenvolvedores criar e implantar aplicativos seguros de dados e AI diretamente na plataforma Databricks usando frameworks Python ou Node.js Execução de aplicativos em compute serverless e integração com Unity Catalog, Databricks SQL e OAuth. See Databricks Apps.

Pacotes de Automação Declarativa

Uma ferramenta para facilitar a adoção das melhores práticas de engenharia software , incluindo controle de versão, revisão de código, testes e integração e entrega contínuas (CI/CD), para seus projetos de dados e AI . Os Bundles permitem descrever recursos Databricks como Jobs, pipelines e Notebooks, como arquivos de origem. Veja O que são pacotes de automação declarativa?

CLI do Databricks

Uma interface de linha de comando para Databricks que permite aos usuários gerenciar e automatizar o espaço de trabalho Databricks e implantar Jobs, Notebooks e bibliotecas. Consulte a CLI do Databricks.

Databricks Connect

Uma biblioteca cliente que permite aos desenvolvedores conectar seus IDEs, Notebooks e outras ferramentas favoritas com Databricks compute e executar código Spark remotamente. See Databricks Connect.

Databricks Container Services

Um recurso Databricks que permite especificar uma imagem Docker ao criar compute. Consulte Databricks Container Services para computededicada.

Databricks Marketplace

Um fórum aberto para troca de dados de produtos. Os provedores devem ter um Databricks account, mas os destinatários podem ser qualquer pessoa. O marketplace ativo inclui conjunto de dados, Databricks Notebook, Databricks soluções Accelerators e modelos de aprendizado de máquina (AI). são normalmente disponibilizados como catálogos de dados tabulares, embora também haja suporte para dados não tabulares, na forma de volumes Databricks. Consulte O que é o Databricks Marketplace?

Runtime do Databricks

Um tempo de execução otimizado para análise big data. Databricks também oferece o Databricks Runtime for Machine Learning, que é otimizado para cargas de trabalho do machine learning. Consulte Databricks Runtime notas sobre as versões e a compatibilidade.

Databricks SQL (DBSQL)

A coleção de serviços que trazem data warehousing recursos e desempenho para o seu lago de dados existente. O Databricks SQL é compatível com formatos abertos e com o padrão ANSI SQL. Um editor na plataforma SQL e ferramentas de painel de controle permitem que os membros da equipe colaborem com outros usuários do Databricks diretamente no workspace. Consulte data warehousing em Databricks.

DBUs

Uma Databricks Unit (DBU) é uma unidade normalizada de poder de processamento na Databricks plataforma lakehouse usada para fins de medição e preços. O número de DBUs que uma carga de trabalho consome é determinado pelas métricas de processamento, que podem incluir o compute recurso usado e a quantidade de dados processados. Consulte Componentes do Databricks.

Sistema de Arquivos Databricks (DBFS)

Um sistema de arquivos distribuído montado em um workspace Databricks e disponível no Databricks compute. A Databricks recomenda o uso de volumes do Unity Catalog em vez do DBFS para controlar o acesso a dados não tabulares. Veja O que é DBFS?.

DataFrame

Uma estrutura de dados que organiza os dados em uma tabela bidimensional de linhas e colunas, muito parecida com uma planilha. Os DataFrames são uma das estruturas de dados mais comuns usadas na análise de dados moderna porque são uma forma flexível e intuitiva de armazenar e trabalhar com dados. Veja o tutorial: Carregamento e transformação de dados usando Apache Spark DataFrames .

dataset

Uma coleção estruturada de dados organizados e armazenados juntos para análise ou processamento. Em geral, os dados em um dataset estão relacionados de alguma forma e são obtidos de uma única fonte ou destinados a um único projeto.

Delta Lake

Uma camada de armazenamento de código aberto que traz confiabilidade ao data lake. Delta Lake fornece transações ACID, manipulação de metadados escalonável e unifica a transmissão e o processamento de dados de lotes. Consulte O que é Delta Lake na Databricks?

Pipelines

Pipelines de processamento de dados construídos sobre Apache Spark™ Declarative Pipelines (SDP). Você define as transformações a serem realizadas nos seus dados, e os LakeFlow Pipelines gerenciam a orquestração de tarefas, o gerenciamento de clusters, o monitoramento, a qualidade dos dados e o tratamento de erros. See Spark Declarative Pipelines.

conjunto de dados de pipeline

As tabelas de transmissão, a visualização materializada e a visualização são mantidas como resultados de consultas declarativas.

Compartilhamento aberto

Permite o compartilhamento de dados e ativos de AI no Databricks com usuários fora da sua organização, independentemente de esses usuários utilizarem o Databricks ou não. Também disponível como um projeto de código aberto para compartilhar dados tabulares, usá-lo no Databricks adiciona a capacidade de compartilhar dados não tabulares e não estruturados (volumes), modelos de AI, visualizações, dados filtrados e notebooks. Veja O que é OpenSharing?.

Mesas Delta

O formato da tabela de dados default em Databricks e é um recurso da estrutura de dados do código aberto Delta Lake. Delta As tabelas são normalmente usadas para data lake, onde os dados são ingeridos por meio de transmissão ou em grandes lotes. Consulte Tabelas Databricks.

DLT

O nome preterido para Lakeflow Pipelines. O produto anteriormente conhecido como Delta Live Tables (DLT) foi renomeado; o código existente não requer migração. Consulte O que aconteceu com Delta Live Tables (DLT)?.

E

incorporação (substantivo)

Uma representação matemática do conteúdo semântico dos dados, como texto ou imagens, expressa como um vetor de números. Embeddings são usados no Databricks para pesquisa vetorial, geração aumentada de recuperação e outros aplicativos de IA. Diferente do termo "incorporação", como o de incorporar um painel em uma IU. Consulte Pesquisa de IA da Databricks.

ETL (extrair, transformar, carregar)

Uma abordagem moderna para a integração de dados que envolve a extração de dados de fontes, o carregamento no sistema de destino e, em seguida, a transformação dentro do sistema de destino. Consulte Tutorial: Crie um pipeline de ETL com LakeFlow Pipelines.

tabela externa

Uma tabela registrada no Unity Catalog onde os dados residem em um local de armazenamento cloud externo. Unity Catalog gerencia metadados e controle de acesso, mas o ciclo de vida dos dados é gerenciado fora do Databricks. Consulte Trabalhar com tabelas externas.

F

featureStore

Um repositório central para armazenar, gerenciar e servir recursos para modelos de aprendizado de máquina. Consulte Databricks recurso Store.

Ajuste fino

O processo de pegar um modelo de machine learning pré-treinado e treiná-lo ainda mais em um dataset menor e específico do domínio para otimizar seu desempenho para uma aplicação específica. Consulte ensino de modelos de AI e ML.

corrente

Um flow é um processo em Lakeflow Pipelines que lê dados, transforma-os e os grava em um destino.

mesa estrangeira

Uma tabela somente leitura no Unity Catalog cujos dados são gerenciados por um catálogo externo ao Unity Catalog, como AWS Glue ou Snowflake. Databricks utiliza o Lakehouse Federation para recuperar metadados e ler a tabela do armazenamento de objetos. Consulte Trabalhar com tabelas estrangeiras.

G

Código Genie

Um parceiro AI autônomo projetado especificamente para trabalho com dados no Databricks. Genie Code está profundamente integrado ao Unity Catalog, fornecendo conhecimento contextual de suas tabelas, colunas e linhagem para acelerar tarefas de dados complexas e com várias etapas. See Genie Code.

Genie Agent

Um recurso de AI/BI do Databricks que permite que equipes de negócios interajam com seus dados usando linguagem natural. Especialistas do domínio configuram Genie Agents com dataset, consultas de amostra e diretrizes para que o Genie possa traduzir perguntas de negócios em consultas SQL. Consulte Genie Agents.

Genie One

Uma interface simplificada do Databricks projetada para usuários de negócios, oferecendo um único ponto de entrada para interagir com painéis de AI/BI, Genie Agents e Databricks Apps sem navegar pelos conceitos técnicos de workspace. Consulte Usar o Genie One.

IA generativa

Um tipo de inteligência artificial focada na capacidade do computador de usar modelos para criar conteúdo como imagens, texto, código e dados sintéticos. As aplicações AI generativa são construídas sobre modelos AI generativa: grandes modelos de linguagem (LLMs) e modelos de base. Veja Aprendizado de máquina no Databricks.

Pastas Git

Um cliente Git visual integrado ao workspace Databricks que oferece controle de versão, colaboração e recursos CI/CD para notebooks e arquivos. Anteriormente conhecida como Repos. Consulte as pastas Git do Databricks.

EU

Inferência

O processo de usar um modelo treinado de machine learning para gerar previsões ou resultados a partir de novos dados de entrada. Databricks suporta inferência de tempo real e lotes por meio de modelo instalado. Veja modelos implantados usando modelo instalado.

init script

Um script shell que é executado durante startup de um recurso compute Databricks . O script init pode instalar pacotes, modificar configurações ou definir variáveis de ambiente. Veja O que são scripts de inicialização?

J

job

A unidade principal para programar e orquestrar cargas de trabalho de produção no Databricks. Os trabalhos consistem em uma ou mais tarefas. Veja LakeFlow Jobs.

L

Federação lakehouse

A plataforma de federação de consultas do Databricks. O termo federação de consultas descreve um conjunto de recursos que permite que usuários e sistemas executem consultas em várias fontes de dados sem precisar migrar todos os dados para um sistema unificado. O Databricks utiliza o Unity Catalog para gerenciar a federação de consultas. Consulte Conectar-se a bancos de dados e catálogos externos.

modelo de linguagem grande (LLM)

Um modelo de processamento de linguagem natural (PLN) projetado para tarefas como responder a perguntas abertas, bate-papo, resumo de conteúdo, execução de instruções quase arbitrárias, tradução e geração de conteúdo e código. Os Modelos de Aprendizagem de Linguagem (LLMs) são treinados a partir de conjuntos de dados massivos, utilizando algoritmos avançados machine learning para aprender os padrões e estruturas da linguagem humana. Veja Criar agentes AI no Databricks.

Biblioteca

Um pacote de código disponível para o Notebook ou Job em execução em seu clustering. Databricks incluem muitas bibliotecas, e o senhor também pode upload as suas próprias. Ver Instalar biblioteca.

Clusters líquidos

Um recurso de otimização de disponibilidade de dados Databricks para tabelas Delta e Iceberg que clusters dados incrementalmente com base em colunas especificadas para melhorar o desempenho das consultas. Ao contrário do particionamento tradicional, clustering líquido se adapta às mudanças nos padrões de dados. Consulte Usar clustering líquido para tabelas.

M

mesa

Uma tabela cujos arquivos de dados e metadados são ambos totalmente gerenciados pelo Unity Catalog. As tabelas gerenciadas são sempre armazenadas no formato Delta ou Iceberg e se beneficiam da manutenção automatizada por meio da otimização preditiva. Consulte Tabelas gerenciadas do Unity Catalog para Delta Lake e Apache Iceberg.

arquitetura de medalhões

Um padrão de design de dados usado para organizar logicamente os dados em uma lakehouse, com o objetivo de melhorar de forma incremental e progressiva a estrutura e a qualidade dos dados à medida que eles fluem por cada camada da arquitetura (de Bronze ⇒ Prata ⇒ ouro). O que é a arquitetura medallion lakehouse?

metastore

O componente que armazena todas as informações de estrutura das várias tabelas e partições no site data warehouse, incluindo informações de coluna e tipo de coluna, os serializadores e desserializadores necessários para ler e gravar dados e os arquivos correspondentes onde os dados são armazenados. Veja Metastore.

viewdo orelhão

Um objeto do Unity Catalog que fornece uma maneira centralizada de definir e gerenciar métricas de negócios reutilizáveis. As métricas permitem visualizar definições de medidas separadas dos agrupamentos de dimensões, possibilitando definir as métricas uma única vez e consultá-las de forma flexível em qualquer dimensão. Veja a visualização de métricasUnity Catalog.

MLflow

A maior plataforma de código aberto de engenharia AI para agentes, LLMs e modelos ML . MLflow permite que equipes de todos os tamanhos depurem, avaliem, monitorem e otimizem seus aplicativos AI , controlando custos e gerenciando o acesso a modelos e dados. MLflow no Databricks é um serviço completo com funcionalidades adicionais para clientes corporativos, proporcionando uma implantação escalável e segura do MLflow. Veja MLflow no Databricks.

MLflow Tracing

Um recurso do MLflow para GenAI que fornece observabilidade de ponta a ponta, registrando cada passo que um agente ou aplicativo AI realiza. Utilize o MLflow Tracing para depurar, monitorar e auditar o comportamento do agente em ambientes de desenvolvimento e produção. Veja MLflow Tracing - Observabilidade GenAI.

Protocolo de Contexto do Modelo (MCP)

Um padrão de código aberto que conecta agentes AI a ferramentas, recursos, prompts e outras informações contextuais por meio de uma interface padronizada. Databricks fornece servidores MCP gerenciados, externos e personalizados. Consulte o Protocolo de Contexto do Modelo (MCP) no Databricks.

treinamento de modelos

O processo de treinamento de aprendizado de máquina e modelos de aprendizagem profunda em Databricks usando muitos códigos abertos populares da biblioteca. Consulte os modelos de trem AI e ML.

Servindo modelo

Interface unificada para implantar, governar e consultar modelos AI para inferência em tempo real e em lotes. Veja modelos implantados usando modelo instalado.

N

notebook

Uma interface interativa da Web usada por data scientists e engenheiros para escrever e executar códigos em vários idiomas (por exemplo, Python, Scala, SQL) no mesmo documento. Consulte Databricks Notebook.

O

OAuth

OAuth é um padrão aberto para delegação de acesso, comumente usado como uma forma para usuários da internet concederem a sites ou aplicativos acesso às suas informações em outros sites, mas sem fornecer a eles as senhas. Veja Autorizar acesso ao recurso Databricks.

P

Conexão de parceiros

Um programa Databricks que fornece integrações mantidas pelo fornecedor de software independente para se conectar à maioria dos sistemas de dados corporativos. Consulte O que é o Databricks Partner Connect?

tokens de acesso pessoal (PAT)

Uma sequência de caracteres usada para autenticar um usuário ao acessar um sistema de computador em vez de uma senha. Veja Autorizar acesso ao recurso Databricks.

Photon

Um mecanismo de consulta vetorizado nativo de alto desempenho Databricksque executa suas cargas de trabalho SQL e chamadas DataFrame API mais rapidamente para reduzir seu custo total por carga de trabalho. O Photon é compatível com as APIs do Apache Spark, portanto, funciona com seu código existente. Veja o que é Photon?.

Otimização preditiva

Um recurso Databricks que identifica e executa automaticamente operações de manutenção no Unity Catalog gerenciando tabelas para melhorar o desempenho das consultas e reduzir custos de armazenamento. Consulte Otimização preditiva para Unity Catalog gerenciar tabelas.

pipeline

Um gráfico de tabelas, visualizações, visualizações materializadas, fluxos e destinos que são atualizados de forma preguiçosa em uma ordem de dependência determinada pelo sistema.

R

S

schema (Unity Catalog)

O filho de um catálogo em Unity Catalog que pode conter tabelas, visualizações, volumes, modelos e funções. Um esquema é o segundo nível do espaço de nomes de três níveis do Unity Catalog (catalog.schema.table-etc). Consulte O que é o Unity Catalog?

Compute serverless

compute gerenciar por Databricks, o que reduz a sobrecarga de gerenciamento e fornece compute instantâneo para aumentar a produtividade do usuário. Consulte Conectar-se a serverless compute .

entidade de serviço

Uma identidade criada para uso com ferramentas automatizadas, trabalho em execução e aplicativos. O senhor pode restringir o acesso de uma entidade de serviço ao recurso usando permissões, da mesma forma que um usuário do Databricks. Ao contrário de um usuário da Databricks, uma entidade de serviço é uma identidade somente de API; ela não pode acessar diretamente a interface do usuário da Databricks ou a CLI da Databricks. Ver entidade de serviço.

sumidouro (tubulação)

Um sink é um destino para um fluxo que grava em um sistema externo (por exemplo, Kafka, Kinesis, Delta).

Armazém SQL

Um recurso compute que permite que o senhor consulte e explore dados em Databricks. Consulte Conectar-se a um site SQL warehouse.

processamento de transmissão

Um método de processamento de dados que permite que o senhor defina uma consulta em um dataset ilimitado e em crescimento contínuo e, em seguida, processe os dados em lotes pequenos e incrementais. Databricks O processamento da transmissão utiliza a transmissão estruturada. Veja os conceitos de transmissão estruturada.

transmissão

Transmissão refere-se a qualquer conteúdo de mídia - ao vivo ou gravado - (ou seja, uma transmissão de dados) entregue a computadores e dispositivos móveis pela Internet e reproduzido em tempo real. Veja os conceitos de transmissão estruturada.

transmissão analítica

O processo de análise de dados que são gerados continuamente por diferentes fontes. Databricks suporta transmissão analítica por meio de transmissão estruturada, permitindo o processamento e a análise de dados ao vivo para percepções em tempo real.

Transmissão estruturada

Um mecanismo de processamento de transmissão escalonável e tolerante a falhas, desenvolvido com base no mecanismo Spark SQL, que permite cálculos complexos como consultas de transmissão. Veja os conceitos de transmissão estruturada.

tabela de streaming

Uma tabela que possui uma transmissão escrita nela. Veja as tabelas de transmissão.

System tables

Databrickshospeda os dados analíticos da sua account, armazenando informações operacionais como logs de auditoria, uso faturável e histórico de dados. As tabelas do sistema estão disponíveis no catálogo system no Unity Catalog. Consulte a referência das tabelas do sistema.

T

tabela

Uma tabela reside em um esquema e contém linhas de dados. Todas as tabelas criadas em Databricks usam Delta Lake por default. As tabelas apoiadas pelo Delta Lake também são chamadas de tabelas Delta. Consulte Tabelas Databricks.

pipeline acionado

Um pipeline que ingere todos os dados que estavam disponíveis no início da atualização para cada tabela, executando na ordem de dependência e depois encerrando. Consulte Modo de pipeline acionado vs. contínuo.

U

função definida pelo usuário (UDF)

Uma função personalizada criada pelo usuário para estender as capacidades integradas do SQL ou de uma linguagem de programação. No Databricks, as UDFs podem ser registradas no Unity Catalog para governança e reutilização em todo o espaço de trabalho. Veja O que são funções definidas pelo usuário (UDFs)?

Unity Catalog

Um recurso do Databricks que fornece controle de acesso centralizado, auditoria, linhagem e recursos de descobrimento de dados no espaço de trabalho do Databricks. Consulte O que é o Unity Catalog?

V

ver

Uma tabela virtual definida por uma consulta SQL. Ele não armazena dados por si só, mas fornece uma maneira de apresentar dados de uma ou mais tabelas, em um formato ou abstração específicos. Consulte O que é um view?

volumes (Unity Catalog)

Unity Catalog objetos que permitem a governança de conjuntos de dados não tabulares. Os volumes representam um volume lógico de armazenamento em um local de armazenamento de objetos na nuvem. Os volumes fornecem recursos para acessar, armazenar, controlar e organizar arquivos. Consulte O que são volumes do Unity Catalog?

W

Jobs do Lakeflow

O conjunto de ferramentas que permite ao senhor programar e orquestrar tarefas de processamento de dados em Databricks. Veja LakeFlow Jobs.

carga de trabalho

A quantidade de capacidade de processamento necessária para executar uma tarefa ou um grupo de tarefas. Databricks identifica dois tipos de cargas de trabalho: engenharia de dados (Job) e análise de dados (all-purpose). Consulte Componentes do Databricks.

workspace

Um ambiente organizacional que permite aos usuários do Databricks desenvolver, navegar e compartilhar objetos como o Notebook, experimentos, consultas e painéis. Consulte a UI do espaço de trabalho.

Z

Zerobus Ingest

Uma API de ingestão serverless, baseada em push, que grava dados diretamente em tabelas Delta gerenciadas no Unity Catalog. O Zerobus Ingest escala automaticamente com conexões de entrada, sem infraestrutura de barramento de mensagens, partições ou brokers para gerenciar. Veja a visão geral do conector Zerobus Ingest.

A​

B​

C​

D​

E​

F​

G​

EU​

J​

L​

M​

N​

O​

P​

R​

S​

T​

U​

V​

W​

Z​

A

B

C

D

E

F

G

EU

J

L

M

N

O

P

R

S

T

U

V

W

Z