Glossário de terminologia técnica da Databricks

A

lista de controle de acesso (ACL)

Uma lista de permissões anexadas ao site workspace, ao clustering, ao Job, à tabela ou ao experimento. O site ACL especifica quais usuários ou processos do sistema têm acesso aos objetos e quais operações são permitidas no ativo. Cada entrada em um site típico ACL especifica um assunto e uma operação. Consulte Listas de controle de acesso.

Modo de acesso

Um recurso de segurança que determina quem pode usar um recurso compute e os dados que podem ser acessados durante o uso do recurso compute. Cada recurso do site compute em Databricks tem um modo de acesso. Consulte Modos de acesso.

Transações ACID

Transações de banco de dados que são processadas de forma confiável. ACID significa atomicidade, consistência, isolamento e durabilidade. Consulte Práticas recomendadas para confiabilidade.

inteligência artificial (AI)

A capacidade de um computador de imitar o comportamento humano inteligente. Consulte AI e aprendizado de máquina em Databricks.

AI agente

Um aplicativo com recursos de raciocínio complexos que permite criar seu próprio plano e executar a tarefa de acordo com as ferramentas à sua disposição. Consulte O que são sistemas compostos AI e agentes AI?

Funções de IA

As funções integradas do SQL permitem que o senhor aplique o AI em seus dados diretamente do SQL em Databricks. Consulte Aplicar AI em uso de dados Databricks AI Functions .

Playground de IA

Um recurso Databricks onde os usuários podem interagir, testar e comparar modelos generativos AI servidos em seu Databricks workspace. Consulte Bate-papo com LLMs e protótipo de aplicativos generativos AI usando AI Playground.

detecção de anomalia

Técnicas e ferramentas usadas para identificar padrões incomuns que não estão em conformidade com o comportamento esperado no conjunto de dados. Databricks facilita a detecção de anomalias por meio de seus recursos de aprendizado de máquina e processamento de dados.

Apache Spark

Um sistema de computação distribuído e de código aberto usado para cargas de trabalho de big data. Consulte Apache Spark no Databricks.

rede neural artificial (rede neurais artificiais (ANN))

Um sistema de computação modelado de acordo com as operações dos neurônios no cérebro humano.

ativo

Uma entidade em um Databricks workspace (por exemplo, um objeto ou um arquivo).

auditoria log

Um registro das atividades e ações do usuário no ambiente Databricks, crucial para segurança, compliance e monitoramento operacional. Consulte a referência Audit log.

Carregador automático

Um recurso de ingestão de dados que processa de forma incremental e eficiente novos arquivos de dados à medida que eles chegam ao armazenamento em nuvem, sem nenhuma configuração adicional. Consulte O que é o Auto Loader?

AutoML

Um recurso Databricks que simplifica o processo de aplicação do aprendizado de máquina ao seu conjunto de dados, encontrando automaticamente o melhor algoritmo e a melhor configuração de hiperparâmetro para o senhor. Consulte O que é AutoML?

linhagem de dados automatizada

O processo de acompanhamento e visualização automática do fluxo de dados desde sua origem, passando por várias transformações até sua forma final, essencial para a depuração, compliance, e compreensão das dependências de dados. A Databricks facilita isso por meio de integrações com ferramentas de linhagem de dados.

escala automática, horizontal

Adição ou remoção do executor com base no número de tarefas que estão aguardando agendamento. Isso acontece dinamicamente durante uma única atualização.

escala automática, vertical

Aumentar ou diminuir o tamanho de uma máquina (driver ou executor) com base na pressão da memória (ou na falta dela). Isso acontece apenas no início de uma nova atualização.

Azure Databricks

Uma versão do Databricks que é otimizada para a plataforma de nuvem do Microsoft Azure.

B

processamento de lotes

Um método de processamento de dados que permite que o senhor defina instruções explícitas para processar uma quantidade fixa de dados estáticos e imutáveis como uma única operação. A Databricks usa Spark SQL ou DataFrames. Consulte Ingerir dados em um lakehouse da Databricks.

detecção e mitigação de viés

O processo de identificação e tratamento de vieses em dados e modelos de aprendizado de máquina para garantir a imparcialidade e a precisão. A Databricks oferece ferramentas e integrações para ajudar a detectar e atenuar o viés. Consulte Monitorar imparcialidade e preconceito para modelos de classificação.

Business Intelligence (BI)

As estratégias e a tecnologia usadas pelas empresas para a análise de dados e o gerenciamento de informações comerciais.

C

Explorador de Catálogos

Um Databricks recurso que fornece uma interface de usuário para explorar e gerenciar dados, esquemas (bancos de dados), tabelas, modelos, funções e outros AI ativos. O senhor pode usá-lo para encontrar objetos e proprietários de dados, entender os relacionamentos de dados entre tabelas e gerenciar permissões e compartilhamento. Consulte O que é o Catalog Explorer?.

CICD ou CI/CD

As práticas combinadas de integração contínua (CI) e entrega contínua (CD). Consulte CI/CD na Databricks.

limpeza de dados

Dados que passaram por um processo de Limpeza de dados, que é o processo de detecção e correção (ou remoção) de registros corrompidos ou imprecisos de um conjunto de registros, tabela ou banco de dados e refere-se à identificação de partes incompletas, incorretas, imprecisas ou irrelevantes dos dados e, em seguida, à substituição, modificação ou exclusão dos dados sujos ou grosseiros.

Clean Rooms

Um recurso Databricks que usa Delta Sharing e serverless compute para oferecer um ambiente seguro e com proteção de privacidade, no qual várias partes podem compartilhar dados corporativos confidenciais e colaborar sem acesso direto aos dados umas das outras. Com o Clean Rooms, os usuários de outras contas Databricks podem colaborar para gerar percepções sobre projetos compartilhados, como campanhas publicitárias, decisões de investimento ou pesquisa e desenvolvimento, sem compartilhar o acesso a dados subjacentes confidenciais. Veja o que são as salas limpas da Databricks.

fornecedor da plataforma cloud

Uma empresa que fornece uma plataforma de computação em nuvem. Por exemplo, Microsoft Azure, Amazon Web serviço (AWS) e Google Cloud Platform (GCP).

Cluster

Um recurso nãoserverless compute usado em Notebook, Job e DLT. O termo compute substituiu o clustering em toda a interface do usuário Databricks, mas ainda é usado no clustering API e nos metadados.

composto AI sistema

Sistemas que lidam com a tarefa AI combinando vários componentes que interagem entre si. Por outro lado, um modelo AI é um modelo estatístico (por exemplo, um Transformer que prevê os próximos tokens no texto). Consulte O que são sistemas compostos AI e agentes AI?

Compute

Refere-se a compute recurso, que são elementos de infraestrutura, seja hardware ou software, que permitem a resolução de problemas e a criação de soluções por meio do recebimento, análise e armazenamento de dados. computar.

contínuo pipeline

Um pipeline que atualiza todas as tabelas continuamente, à medida que novos dados chegam à entrada, sem parar. Consulte Modo de pipeline acionado vs. contínuo.

D

gráfico acíclico direcionado (DAG)

Um método para representar as dependências entre as tarefas em um fluxo de trabalho ou pipeline. Em um modelo de processamento DAG, as tarefas são representadas como nós em um gráfico acíclico direcionado, em que as bordas representam as dependências entre as tarefas.

Catálogo de dados

Uma ferramenta de gerenciamento de metadados para gerenciar fontes de dados, fornecendo informações sobre a estrutura, o local e o uso dos dados. Databricks integra-se ao catálogo de dados externo para aprimorar o gerenciamento de metadados.

Governança de dados

A prática de gerenciar a disponibilidade, a integridade, a segurança e a usabilidade dos dados, envolvendo políticas, procedimentos e tecnologia para garantir a qualidade dos dados e compliance.

Ingestão de dados

O processo de importação, transferência, carregamento e processamento de dados de várias fontes no Databricks para armazenamento, análise e processamento.

data lake

Um grande repositório de armazenamento que mantém uma grande quantidade de dados brutos em seu formato nativo até que sejam necessários.

Data lakehouse

Um sistema de gerenciamento de dados que combina os benefícios do data lake e do data warehouse. O site data lakehouse oferece recursos de armazenamento e processamento dimensionáveis para organizações modernas que desejam evitar sistemas isolados para o processamento de diferentes cargas de trabalho, como aprendizado de máquina (ML) e Business Intelligence (BI). Um data lakehouse pode ajudar a estabelecer uma única fonte de verdade, eliminar custos redundantes e garantir o frescor dos dados. Consulte O que é um data lakehouse?

pipeline de dados

Uma série de estágios nos quais os dados são gerados, coletados, processados e movidos para um destino. Databricks facilita a criação e o gerenciamento de pipelines complexos de dados para processamento de lotes e dados em tempo real.

privacidade de dados

A prática de proteger dados pessoais contra acesso, uso, divulgação ou roubo não autorizados. Databricks enfatiza recursos robustos de privacidade e segurança de dados, incluindo criptografia de ponta a ponta, role-based access control, e compliance com os principais regulamentos de proteção de dados, para proteger informações confidenciais e garantir a governança de dados.

visualização de dados

Uma abordagem de gerenciamento de dados que permite que um aplicativo recupere e manipule dados sem exigir detalhes técnicos sobre os dados, como a forma como estão formatados ou onde estão fisicamente localizados. Os Databricks podem servir como parte de uma camada de virtualização de dados, fornecendo acesso contínuo e análise de dados em fontes diferentes.

Data warehousing

Refere-se à coleta e ao armazenamento de dados de várias fontes para que possam ser acessados rapidamente para percepções e relatórios de negócios. A arquitetura lakehouse e a Databricks SQL trazem os recursos da nuvem data warehousing para o seu lago de dados. Consulte O que é data warehousing na Databricks?

Databricks

Uma plataforma analítica unificada e aberta para criar, implantar, compartilhar e manter análises de dados de nível empresarial e AI soluções em escala. A Databricks Data Intelligence Platform integra-se ao armazenamento em nuvem e à segurança em sua nuvem account, além de gerenciar e implantar a infraestrutura de nuvem em seu nome. Consulte O que é Databricks?

Databricks AI/BI

Um produto de Business Intelligence para fornecer compreensão da semântica de seus dados, permitindo a análise de dados de autosserviço. AI/BI foi desenvolvido com base em um sistema composto AI que extrai percepções de todo o ciclo de vida de seus dados na plataforma Databricks, incluindo o pipeline ETL, a linhagem e outras consultas. Veja o que é Databricks AI/BI?

Databricks AI recurso

O mecanismo de inteligência de dados que alimenta a Plataforma Databricks. É um sistema composto AI que combina o uso de modelos AI, sistemas de recuperação, classificação e personalização para entender a semântica dos dados e dos padrões de uso de sua organização. Consulte Databricks AI-recurso potente.

Databricks Asset Bundles

Uma ferramenta para facilitar a adoção das práticas recomendadas de software engenharia, incluindo controle de origem, revisão de código, testes e integração e entrega contínuas (CI/CD), para seus dados e projetos AI. Os pacotes permitem descrever o recurso Databricks, como Job, pipeline e Notebook, como arquivos de origem. Veja o que são Databricks ativo Bundles?

Databricks Assistant

Um programador de pares baseado em AIe um agente de suporte que o torna mais eficiente ao criar Notebook, consultas, painéis e arquivos. Ele pode ajudar você a responder perguntas rapidamente gerando, otimizando, completando, explicando e corrigindo códigos e consultas. Consulte O que é o Databricks Assistant?

CLI do Databricks

Uma interface de comando-line para o Databricks que permite aos usuários gerenciar e automatizar o espaço de trabalho do Databricks e implantar o Job, o Notebook e a biblioteca. Consulte O que é a CLI do Databricks?

Databricks Connect

Uma biblioteca cliente que permite que os desenvolvedores conectem suas ferramentas favoritas IDEs, Notebook e outras ferramentas com Databricks compute e executem o código Spark remotamente. Consulte O que é o Databricks Connect?

Databricks Container Services

Um recurso Databricks que permite especificar uma imagem Docker quando o senhor cria compute. Consulte Personalizar contêineres com o serviço Databricks Container.

Databricks Marketplace

Um fórum aberto para troca de dados de produtos. Os provedores devem ter um Databricks account, mas os destinatários podem ser qualquer pessoa. O marketplace ativo inclui conjunto de dados, Databricks Notebook, Databricks soluções Accelerators e modelos de aprendizado de máquina (AI). são normalmente disponibilizados como catálogos de dados tabulares, embora também haja suporte para dados não tabulares, na forma de volumes Databricks. Consulte O que é o Databricks Marketplace?

Runtime do Databricks

Um tempo de execução otimizado para análise big data. A Databricks também oferece o Databricks Runtime for Machine Learning, que é otimizado para cargas de trabalho de aprendizado de máquina. Consulte Databricks Runtime e Databricks Runtime notas sobre as versões e a compatibilidade.

Databricks SQL (DBSQL)

A coleção de serviços que trazem data warehousing recursos e desempenho para o seu lago de dados existente. O Databricks SQL é compatível com formatos abertos e com o padrão ANSI SQL. Um editor na plataforma SQL e ferramentas de painel de controle permitem que os membros da equipe colaborem com outros usuários do Databricks diretamente no workspace. Consulte O que é data warehousing na Databricks?

DBUs

Uma Databricks Unit (DBU) é uma unidade normalizada de poder de processamento na Databricks plataforma lakehouse usada para fins de medição e preços. O número de DBUs que uma carga de trabalho consome é determinado pelas métricas de processamento, que podem incluir o compute recurso usado e a quantidade de dados processados. Consulte Componentes do Databricks.

DataFrame

Uma estrutura de dados que organiza os dados em uma tabela bidimensional de linhas e colunas, muito parecida com uma planilha. Os DataFrames são uma das estruturas de dados mais comuns usadas na análise de dados moderna porque são uma forma flexível e intuitiva de armazenar e trabalhar com dados. Veja o tutorial: Carregamento e transformação de dados usando Apache Spark DataFrames .

dataset

Uma coleção estruturada de dados organizados e armazenados juntos para análise ou processamento. Em geral, os dados em um dataset estão relacionados de alguma forma e são obtidos de uma única fonte ou destinados a um único projeto.

Delta Lake

Uma camada de armazenamento de código aberto que traz confiabilidade ao data lake. Delta Lake fornece transações ACID, manipulação de metadados escalonável e unifica a transmissão e o processamento de dados de lotes. Consulte O que é o Delta Lake?

DLT

Uma estrutura declarativa para criar um pipeline de processamento de dados confiável, sustentável e testável. O senhor define as transformações a serem realizadas em seus dados e DLT gerenciar tarefa orquestração, gerenciamento de clustering, monitoramento, qualidade de dados e tratamento de erros. Veja DLT.

Conjunto de dados DLT

As tabelas de transmissão, a visualização materializada e a visualização são mantidas como resultados de consultas declarativas.

Delta Sharing

Permite que o senhor compartilhe dados e AI ativo em Databricks com usuários fora da sua organização, quer esses usuários usem Databricks ou não. Também disponível como um projeto de código aberto para compartilhamento tabular de uso de dados, o Databricks adiciona a capacidade de compartilhar dados não tabulares e não estruturados (volumes), modelos AI, visualização, dados filtrados e Notebook. Consulte O que é Delta Sharing?

Mesas Delta

O formato da tabela de dados default em Databricks e é um recurso da estrutura de dados do código aberto Delta Lake. Delta As tabelas são normalmente usadas para data lake, onde os dados são ingeridos por meio de transmissão ou em grandes lotes. Consulte O que é uma mesa?.

E

ETL (extrair, transformar, carregar)

Uma abordagem moderna para a integração de dados que extrai dados de fontes, carrega-os no sistema de destino e, em seguida, transforma-os no sistema de destino. Consulte o tutorial: Criar um pipeline de ETL com DLT.

F

featureStore

Um repositório central para armazenar, gerenciar e servir recursos para modelos de aprendizado de máquina. Ver recurso engenharia e servir.

corrente

Um fluxo é uma borda em um pipeline DLT que lê dados, transforma-os e grava-os em um destino.

modelos de fundação

Grandes modelos ML pré-treinados com a intenção de serem ajustados para tarefas mais específicas de compreensão e geração de linguagem. Consulte Databricks Foundation Model APIs.

G

IA generativa

Um tipo de inteligência artificial focado na capacidade do computador de usar modelos para criar conteúdo como imagens, texto, código e dados sintéticos. Os aplicativos generativos da AI são criados com base em modelos generativos da AI: modelos de linguagem grandes (LLMs) e modelos básicos. Consulte AI e aprendizado de máquina em Databricks.

J

job

A unidade principal para programar e orquestrar cargas de trabalho de produção no Databricks. Databricks Os trabalhos consistem em uma ou mais tarefas. Veja a orquestração usando Databricks Jobs.

L

LakeFlow Connect

Oferece conectores integrados para ingestão de aplicativos e bancos de dados corporativos. A ingestão resultante pipeline é governada por Unity Catalog e é alimentada por serverless compute e DLT. Consulte gerenciar conectores em LakeFlow Connect.

Federação lakehouse

A plataforma de federação de consultas para Databricks. O termo federação de consultas descreve um conjunto de recursos que permite que usuários e sistemas executem consultas em várias fontes de dados sem a necessidade de migrar todos os dados para um sistema unificado. A Databricks usa o Unity Catalog para gerenciar a federação de consultas. Veja o que é Lakehouse Federation?

Monitoramento do lakehouse

Monitora as propriedades estatísticas e a qualidade dos dados em todas as tabelas do site account. O senhor também pode usá-lo para monitorar o desempenho do modelo do aprendizado de máquina e do endpoint do modelo de serviço, monitorando as tabelas de inferência que contêm entradas e previsões do modelo. Consulte a Introdução ao Databricks lakehouse monitoring.

modelo de linguagem grande (LLM)

Um modelo de processamento de linguagem natural (NLP) projetado para tarefas como resposta a perguntas abertas, bate-papo, resumo de conteúdo, execução de instruções quase arbitrárias, tradução e geração de conteúdo e código. Os LLMs são treinados a partir de grandes conjuntos de dados usando algoritmos avançados de aprendizado de máquina para aprender os padrões e estruturas da linguagem humana. Consulte Modelos de linguagem grande (LLMs) no Databricks.

Biblioteca

Um pacote de código disponível para o Notebook ou Job em execução em seu clustering. Databricks incluem muitas bibliotecas, e o senhor também pode upload as suas próprias. Ver biblioteca.

M

Visualização materializada

Um view que foi pré-calculado e armazenado para que possa ser consultado com menor latência ou repetidamente sem cálculos redundantes. Consulte Visualização materializada.

arquitetura de medalhões

Um padrão de design de dados usado para organizar logicamente os dados em uma lakehouse, com o objetivo de melhorar de forma incremental e progressiva a estrutura e a qualidade dos dados à medida que eles fluem por cada camada da arquitetura (de Bronze ⇒ Prata ⇒ ouro). O que é a arquitetura medallion lakehouse?

metastore

O componente que armazena todas as informações de estrutura das várias tabelas e partições no site data warehouse, incluindo informações de coluna e tipo de coluna, os serializadores e desserializadores necessários para ler e gravar dados e os arquivos correspondentes onde os dados são armazenados. Veja Metastores.

MLflow

Uma plataforma de código aberto para gerenciar o ciclo de vida do aprendizado de máquina de ponta a ponta, incluindo experimentação, reprodutibilidade e implementação. MLflow O Databricks é um serviço totalmente gerenciado com funcionalidade adicional para clientes corporativos, fornecendo uma implantação gerenciar escalável e segura do MLflow. Consulte MLflow para obter informações sobre o ciclo de vida do agente AI e do modelo ML.

treinamento de modelos

O processo de treinamento de aprendizado de máquina e modelos de aprendizagem profunda em Databricks usando muitos códigos abertos populares da biblioteca. Consulte os modelos de trem AI e ML.

Mosaic AI

O recurso que fornece ferramentas unificadas para criar, implantar, avaliar e administrar soluções AI e ML - desde a criação de modelos ML preditivos até os mais recentes aplicativos AI generativos. Consulte AI e aprendizado de máquina em Databricks.

Mosaic AI Model Serving

A interface unificada para implantar, controlar e consultar modelos AI para inferência de tempo real e lotes. Veja os modelos implantados usando Mosaic AI Model Serving.

Mosaic AI Model Training

O recurso permite que o senhor use seus dados para personalizar um modelo de fundação e otimizar seu desempenho para seu aplicativo específico. Ao realizar o ajuste fino completo dos parâmetros ou o treinamento contínuo de um modelo básico, o senhor pode treinar seu próprio modelo usando significativamente menos dados, tempo e compute recurso do que treinar um modelo do zero. Consulte Ajuste fino do modelo básico.

Mosaic AI Vector Search

Um índice de pesquisa vetorial incorporado à Plataforma de Inteligência de Dados da Databricks e integrado às suas ferramentas de governança e produtividade. Consulte Mosaic AI Vector Search.

N

notebook

Uma interface interativa da Web usada por data scientists e engenheiros para escrever e executar códigos em vários idiomas (por exemplo, Python, Scala, SQL) no mesmo documento. Consulte Introdução ao Databricks Notebook.

O

OAuth

OAuth é um padrão aberto para delegação de acesso, comumente usado como uma forma de os usuários da Internet concederem a sites ou aplicativos acesso a suas informações em outros sites, mas sem fornecer a eles as senhas. Consulte Autorização de acesso ao site Databricks recurso.

P

Conexão de parceiros

Um programa Databricks que fornece integrações mantidas pelo fornecedor de software independente para se conectar à maioria dos sistemas de dados corporativos. Consulte O que é o Databricks Partner Connect?

tokens de acesso pessoal (PAT)

Uma sequência de caracteres usada para autenticar um usuário ao acessar um sistema de computador em vez de uma senha. Consulte Autorização de acesso ao site Databricks recurso.

Photon

Um mecanismo de consulta vetorizado nativo de alto desempenho Databricksque executa suas cargas de trabalho SQL e chamadas DataFrame API mais rapidamente para reduzir seu custo total por carga de trabalho. O Photon é compatível com as APIs do Apache Spark, portanto, funciona com seu código existente. Veja o que é Photon?.

pipeline

Um DAG de tabelas, visualizações, visualizações materializadas, fluxos e sumidouros que são atualizados de forma preguiçosa em uma ordem de dependência determinada pelo sistema.

R

geração aumentada de recuperação (RAG)

Uma técnica que permite que um modelo de linguagem grande (LLM) gere respostas enriquecidas aumentando o prompt de um usuário com dados de suporte recuperados de uma fonte de informações externa. Ao incorporar essas informações recuperadas, o RAG permite que o site LLM gere respostas mais precisas e de melhor qualidade em comparação com a ausência de contexto adicional no prompt. Consulte Introdução ao RAG em AI development.

S

schema (Unity Catalog)

O filho de um catálogo em Unity Catalog que pode conter tabelas, visualizações, volumes, modelos e funções. Um esquema é o segundo nível do espaço de nomes de três níveis do Unity Catalog (catalog.schema.table-etc). Consulte O que é o Unity Catalog?

Compute serverless

compute gerenciar por Databricks, o que reduz a sobrecarga de gerenciamento e fornece compute instantâneo para aumentar a produtividade do usuário. Consulte Conectar-se a serverless compute .

entidade de serviço

Uma identidade criada para uso com ferramentas automatizadas, trabalho em execução e aplicativos. O senhor pode restringir o acesso de uma entidade de serviço ao recurso usando permissões, da mesma forma que um usuário do Databricks. Ao contrário de um usuário da Databricks, uma entidade de serviço é uma identidade somente de API; ela não pode acessar diretamente a interface do usuário da Databricks ou a CLI da Databricks. Ver entidade de serviço.

sumidouro (tubulação)

Um sink é um destino para um fluxo que grava em um sistema externo (por exemplo, Kafka, Kinesis, Delta).

Armazém SQL

Um recurso compute que permite que o senhor consulte e explore dados em Databricks. Consulte Conectar-se a um site SQL warehouse.

processamento de transmissão

Um método de processamento de dados que permite que o senhor defina uma consulta em um dataset ilimitado e em crescimento contínuo e, em seguida, processe os dados em lotes pequenos e incrementais. Databricks O processamento da transmissão utiliza a transmissão estruturada. Veja os conceitos de transmissão estruturada.

transmissão

Transmissão refere-se a qualquer conteúdo de mídia - ao vivo ou gravado - (ou seja, uma transmissão de dados) entregue a computadores e dispositivos móveis pela Internet e reproduzido em tempo real. Veja os conceitos de transmissão estruturada.

transmissão analítica

O processo de análise de dados que são gerados continuamente por diferentes fontes. Databricks suporta transmissão analítica por meio de transmissão estruturada, permitindo o processamento e a análise de dados ao vivo para percepções em tempo real.

Transmissão estruturada

Um mecanismo de processamento de transmissão escalonável e tolerante a falhas, desenvolvido com base no mecanismo Spark SQL, que permite cálculos complexos como consultas de transmissão. Veja os conceitos de transmissão estruturada.

tabelas de streaming

Uma tabela gerenciar que tem uma escrita de transmissão para ela. Veja as tabelas de transmissão

T

tabela

Uma tabela reside em um esquema e contém linhas de dados. Todas as tabelas criadas em Databricks usam Delta Lake por default. As tabelas apoiadas pelo Delta Lake também são chamadas de tabelas Delta. Consulte O que é uma mesa?.

pipeline acionado

Um pipeline que ingere todos os dados que estavam disponíveis no início da atualização para cada tabela, executando na ordem de dependência e depois encerrando. Consulte Modo de pipeline acionado vs. contínuo.

U

Unity Catalog

Um recurso do Databricks que fornece controle de acesso centralizado, auditoria, linhagem e recursos de descobrimento de dados no espaço de trabalho do Databricks. Consulte O que é o Unity Catalog?

V

banco de dados vetoriais

Um banco de dados otimizado para armazenar e recuperar incorporações. As incorporações são representações matemáticas do conteúdo semântico dos dados, geralmente dados de texto ou imagem. Databricks fornece um índice de pesquisa vetorial que permite que o senhor use o recurso de banco de dados vetorial em suas tabelas Delta. Consulte Mosaic AI Vector Search.

ver

Uma tabela virtual definida por uma consulta SQL. Ele não armazena dados por si só, mas fornece uma maneira de apresentar dados de uma ou mais tabelas, em um formato ou abstração específicos. Consulte O que é um view?

volumes (Unity Catalog)

Unity Catalog objetos que permitem a governança de conjuntos de dados não tabulares. Os volumes representam um volume lógico de armazenamento em um local de armazenamento de objetos na nuvem. Os volumes fornecem recursos para acessar, armazenar, controlar e organizar arquivos. Consulte O que são volumes do Unity Catalog?

W

Fluxos de trabalho

O conjunto de ferramentas que permite ao senhor programar e orquestrar tarefas de processamento de dados em Databricks. O senhor usa o Databricks Workflows para configurar o Databricks Jobs. Veja a orquestração usando Databricks Jobs.

carga de trabalho

A quantidade de capacidade de processamento necessária para executar uma tarefa ou um grupo de tarefas. Databricks identifica dois tipos de cargas de trabalho: engenharia de dados (Job) e análise de dados (all-purpose). Consulte Componentes do Databricks.

workspace

Um ambiente organizacional que permite aos usuários do Databricks desenvolver, navegar e compartilhar objetos como o Notebook, experimentos, consultas e painéis. Consulte Navegar no site workspace.

A​

B​

C​

D​

E​

F​

G​

J​

L​

M​

N​

O​

P​

R​

S​

T​

U​

V​

W​

A

B

C

D

E

F

G

J

L

M

N

O

P

R

S

T

U

V

W