O que são blocos de dados?

Databricks é uma plataforma analítica unificada e aberta para construir, implantar, compartilhar e manter análises de dados de nível empresarial e soluções de IA em escala. A plataforma Databricks Data Intelligence integra-se com clouds armazenamento e segurança em sua clouds account, e gerencia e implanta clouds infraestrutura em seu nome.

Como funciona uma plataforma de inteligência de dados?

Databricks usa IA generativa com o data lakehouse para compreender a semântica exclusiva de seus dados. Em seguida, ele otimiza automaticamente o desempenho e gerencia a infraestrutura para atender às necessidades do seu negócio.

O processamento de linguagem natural aprende a linguagem da sua empresa, para que você possa pesquisar e descobrir dados fazendo uma pergunta com suas próprias palavras. A assistência em linguagem natural ajuda você a escrever código, solucionar erros e encontrar respostas na documentação.

Finalmente, os seus dados e aplicações de IA podem contar com uma governança e segurança fortes. Você pode integrar APIs como OpenAI sem dados comprometidos com privacidade e controle de IP.

Para que é utilizado o Databricks?

Databricks fornece ferramentas que ajudam você a conectar suas fontes de dados a uma plataforma para processar, armazenar, compartilhar, analisar, modelar e monetizar dataset com soluções de BI a IA generativa.

O workspace do Databricks fornece uma interface e ferramentas unificadas para a maioria das tarefas de dados, incluindo:

  • Programação e gestão de processamento de dados, em particular ETL

  • Gerando dashboards e visualizações

  • Gerenciando segurança, governança, alta disponibilidade e recuperação de desastres

  • Descoberta, anotação e exploração de dados

  • Modelagem de aprendizado de máquina (ML), acompanhamento e modelo de atividade

  • Soluções de IA generativa

Integração gerenciada com código aberto

A Databricks tem um forte compromisso com a comunidade de código aberto. Databricks gerencia atualizações de integrações de código aberto nas versões do Databricks Runtime. As seguintes tecnologias são projetos de código aberto originalmente criados por funcionários da Databricks:

Ferramentas e acesso programático

O Databricks possui diversas ferramentas proprietárias que integram e aprimoram essas tecnologias para oferecer desempenho otimizado e facilidade de uso, tais como as seguintes:

Além da interface do usuário do workspace, você pode interagir com o Databricks programaticamente com as seguintes ferramentas:

  • API REST

  • CLIPE

  • Terraform

Como o Databricks funciona com AWS?

A arquitetura da plataforma Databricks compreende duas partes principais:

  • A infraestrutura usada pela Databricks para implantar, configurar e gerenciar a plataforma e os serviços.

  • A infraestrutura de propriedade do cliente gerenciada em colaboração pela Databricks e sua empresa.

Ao contrário de muitas empresas de dados corporativos, o Databricks não obriga você a migrar seus dados para sistemas de armazenamento proprietários para usar a plataforma.Em vez disso, você configura um espaço de trabalho Databricks ao configurar integrações seguras entre a plataforma Databricks e sua conta na nuvem, e então o Databricks implementa clusters de computação usando recursos na nuvem de sua conta para processar e armazenar dados em armazenamento de objetos e outros serviços integrados que você controla.

O Unity Catalog amplia ainda mais esse relacionamento, permitindo gerenciar permissões para acessar dados usando a sintaxe SQL familiar no Databricks.

Os workspaces do Databricks atendem aos requisitos de segurança e rede de algumas das maiores e mais preocupadas empresas do mundo. O Databricks facilita a introdução de novos usuários na plataforma. Ele elimina muitos dos encargos e preocupações de trabalhar com infraestrutura de nuvem, sem limitar as personalizações e o controle de dados, operações e equipes de segurança experientes.

Quais são os casos de uso comuns do Databricks?

Os casos de uso no Databricks são tão variados quanto os dados processados na plataforma e as diversas personas de funcionários que trabalham com dados como parte fundamental de seu trabalho.Os casos de uso a seguir destacam como os usuários em toda a sua organização podem aproveitar o Databricks para realizar tarefas essenciais no processamento, armazenamento e análise dos dados que impulsionam funções e decisões críticas de negócios.

Crie um data lakehouse corporativo

O data lakehouse combina os pontos fortes do data warehouse corporativo e data lake para acelerar, simplificar e unificar soluções de dados corporativos. engenheiro de dados, cientista de dados, analista e sistemas de produção podem usar o data lakehouse como sua única fonte de verdade, permitindo acesso oportuno a dados consistentes e reduzindo as complexidades de construção, manutenção e sincronização de muitos sistemas de dados distribuídos. Consulte O que é um data lakehouse?.

ETL e engenharia de dados

Não importa se você está gerando dashboards ou impulsionando aplicativos de inteligência artificial, a engenharia de dados fornece a base para empresas centradas em dados, garantindo que os dados estejam disponíveis, limpos e armazenados em modelos de dados que permitem descoberta e uso eficientes. O Databricks combina o poder do Apache Spark com o Delta Lake e ferramentas personalizadas para proporcionar uma experiência ETL (extrair, transformar, carregar) incomparável. Você pode usar SQL, Python e Scala para compor a lógica ETL e, em seguida, orquestrar a implementação programada do trabalho com apenas alguns cliques.

O Delta Live Tables simplifica ainda mais o ETL, gerenciando de forma inteligente as dependências entre conjuntos de dados e implementando e dimensionando automaticamente a infraestrutura de produção para garantir a entrega oportuna e precisa de dados de acordo com suas especificações.

O Databricks fornece várias ferramentas personalizadas para ingestão de dados, incluindo o Auto Loader, uma ferramenta eficiente e escalável para carregar dados de armazenamento de objetos em nuvem e lagos de dados de forma incremental e idempotente no data lakehouse.

Aprendizado de máquina, IA e ciência de dados

machine learning do Databricks expande a funcionalidade central da plataforma com um conjunto de ferramentas adaptadas às necessidades dos cientistas de dados e engenheiros de ML, incluindo MLflow e Databricks Runtime for Machine Learning.

Grandes modelos de linguagem e IA generativa

Databricks Runtime para Machine Learning inclui bibliotecas como Hugging Face Transformers que permitem integrar modelos pré-treinados existentes ou outras bibliotecas de código aberto em seu fluxo de trabalho. A integração do Databricks MLflow facilita o uso do serviço de acompanhamento MLflow com pipelines de transformadores, modelos e componentes de processamento. Além disso, você pode integrar modelos ou soluções OpenAI de parceiros como John Snow Labs em seu fluxo de trabalho Databricks.

Com o Databricks, você pode personalizar um LLM em seus dados para sua tarefa específica. Com o suporte de ferramentas de código aberto, como Hugging Face e DeepSpeed, você pode eficientemente começar a treinar um LLM base com seus próprios dados para obter maior precisão em seu domínio e carga de trabalho.

Além disso, o Databricks fornece funções de IA que os analistas de dados SQL podem usar para acessar modelos LLM, inclusive da OpenAI, diretamente em seus pipelines de dados e fluxos de trabalho. Veja Funções de IA no Databricks.

Armazenamento de dados, funções analíticas e BI

A Databricks combina interfaces de usuário fáceis de usar com compute recurso econômico e armazenamento infinitamente dimensionável e acessível para oferecer uma plataforma avançada para a execução de consultas analíticas. Os administradores configuram clusters de computação dimensionáveis como armazém de SQL, permitindo que os usuários finais executem consultas sem se preocupar com nenhuma das complexidades do trabalho na nuvem. Os usuários de SQL podem executar consultas em relação aos dados no lakehouse usando o editor de consultas SQL ou no Notebook. O Notebook é compatível com Python, R e Scala, além de SQL, e permite que os usuários incorporem as mesmas visualizações disponíveis nos painéis juntamente com links, imagens e comentários escritos em markdown.

Governança de dados e compartilhamento seguro de dados

O Unity Catalog fornece um modelo unificado de governança de dados para o data lakehouse. Os administradores da nuvem configuram e integram permissões de controle de acesso grosseiras para o Unity Catalog e, em seguida, os administradores do Databricks podem gerenciar as permissões para equipes e indivíduos. Os privilégios são gerenciados com listas de controle de acesso (ACLs) por meio de interfaces de usuário amigáveis ou sintaxe SQL, facilitando aos administradores de banco de dados a proteção do acesso aos dados sem a necessidade de escalonar o gerenciamento de acesso à identidade (IAM) e a rede nativos da nuvem.

O Unity Catalog simplifica a execução analítica segura na cloud e fornece uma divisão de responsabilidade que ajuda a limitar a requalificação ou atualização necessária para administradores e usuários finais da plataforma. Consulte O que é o Catálogo Unity?.

O lakehouse torna o compartilhamento de dados em sua organização tão simples quanto conceder acesso query a uma tabela ou view. Para compartilhar fora do seu ambiente seguro, o Unity Catalog apresenta uma versão gerenciada do Delta Sharing.

DevOps, CI/CD e orquestração de tarefas

Os ciclos de vida de desenvolvimento do pipeline de ETL, dos modelos de ML e dos painéis analíticos apresentam, cada um, seus próprios desafios. A Databricks permite que todos os seus usuários utilizem uma única fonte de dados, o que reduz esforços duplicados e relatórios fora de sincronia. Ao fornecer adicionalmente um conjunto de ferramentas comuns para controle de versão, automação, programação, código implantado e recurso de produção, o senhor pode simplificar sua sobrecarga de monitoramento, orquestração e operações. fluxo de trabalho programar o Databricks Notebook, consultas SQL e outros códigos arbitrários. As pastas Git permitem que o senhor sincronize os projetos da Databricks com vários provedores git populares. Para obter uma visão geral completa das ferramentas, consulte Ferramentas e orientações para desenvolvedores.

Transmissão analítica em tempo real

O Databricks utiliza o Apache Spark Structured Streaming para trabalhar com dados de streaming e alterações incrementais de dados. O Structured Streaming se integra perfeitamente ao Delta Lake, e essas tecnologias fornecem as bases para o Delta Live Tables e o Auto Loader. Consulte Streaming em Databricks.