O que é a Databricks?
Databricks é uma plataforma analítica aberta e unificada para criação, implantação, compartilhamento e manutenção de análises de dados de nível empresarial e AI soluções em escala. A Databricks Data Intelligence Platform se integra ao armazenamento em nuvem e à segurança em sua nuvem account, além de gerenciar e implantar a infraestrutura de nuvem em seu nome.
Como funciona uma plataforma de inteligência de dados?
Databricks usa o generativo AI com o data lakehouse para entender a semântica exclusiva de seus dados. Em seguida, ele otimiza automaticamente o desempenho e gerencia a infraestrutura para atender às necessidades de sua empresa.
O processamento de linguagem natural aprende o idioma da sua empresa, para que você possa pesquisar e descobrir dados fazendo uma pergunta com suas próprias palavras. A assistência em linguagem natural ajuda você a escrever código, solucionar erros e encontrar respostas na documentação.
Por fim, seus dados e aplicativos AI podem contar com governança e segurança sólidas. O senhor pode integrar o APIs, como o OpenAI, sem dados comprometidos com a privacidade e o controle de IP.
Para que o Databricks é usado?
Databricks fornece ferramentas que ajudam o senhor a conectar suas fontes de dados a uma única plataforma para processar, armazenar, compartilhar, analisar, modelar e monetizar o conjunto de dados com soluções de BI a generativas AI.
O workspace do Databricks fornece uma interface e ferramentas unificadas para a maioria das tarefas de dados, incluindo:
- Programa e gerenciamento de processamento de dados, em particular ETL
- Gerando dashboards e visualizações
- Gerenciando segurança, governança, alta disponibilidade e recuperação de desastres
- Descoberta, anotação e exploração de dados
- Aprendizado de máquina (ML) modelagem, acompanhamento e serviço de modelo
- Generative AI soluções
gerenciar a integração com o código aberto
A Databricks tem um forte compromisso com a comunidade de código aberto. Databricks gerenciar atualizações de integrações de código aberto nas versões Databricks Runtime. As tecnologias a seguir são projetos de código aberto criados originalmente por funcionários do Databricks:
Ferramentas e acesso programático
O Databricks possui diversas ferramentas proprietárias que integram e aprimoram essas tecnologias para oferecer desempenho otimizado e facilidade de uso, tais como as seguintes:
Além da interface do usuário do workspace, você pode interagir com o Databricks programaticamente com as seguintes ferramentas:
- API REST
- CLIPE
- Terraform
Como a Databricks trabalha com o Google Cloud?
A arquitetura da plataforma Databricks compreende duas partes principais:
- A infraestrutura usada pela Databricks para implantar, configurar e gerenciar a plataforma e os serviços.
- A infraestrutura de propriedade do cliente gerenciada em colaboração pela Databricks e sua empresa.
Ao contrário de muitas empresas de dados corporativos, o Databricks não obriga você a migrar seus dados para sistemas de armazenamento proprietários para usar a plataforma.Em vez disso, você configura um espaço de trabalho Databricks ao configurar integrações seguras entre a plataforma Databricks e sua conta na nuvem, e então o Databricks implementa clusters de computação usando recursos na nuvem de sua conta para processar e armazenar dados em armazenamento de objetos e outros serviços integrados que você controla.
O Unity Catalog amplia ainda mais esse relacionamento, permitindo gerenciar permissões para acessar dados usando a sintaxe SQL familiar no Databricks.
Os workspaces do Databricks atendem aos requisitos de segurança e rede de algumas das maiores e mais preocupadas empresas do mundo. O Databricks facilita a introdução de novos usuários na plataforma. Ele elimina muitos dos encargos e preocupações de trabalhar com infraestrutura de nuvem, sem limitar as personalizações e o controle de dados, operações e equipes de segurança experientes.
Quais são os casos de uso comuns do Databricks?
Os casos de uso no Databricks são tão variados quanto os dados processados na plataforma e as diversas personas de funcionários que trabalham com dados como parte fundamental de seu trabalho.Os casos de uso a seguir destacam como os usuários em toda a sua organização podem aproveitar o Databricks para realizar tarefas essenciais no processamento, armazenamento e análise dos dados que impulsionam funções e decisões críticas de negócios.
Criar uma empresa data lakehouse
O data lakehouse combina os pontos fortes do data warehouse corporativo e do data lake para acelerar, simplificar e unificar as soluções de dados corporativos. O engenheiro de dados, data scientists, o analista e os sistemas de produção podem usar o data lakehouse como sua única fonte de verdade, permitindo o acesso oportuno a dados consistentes e reduzindo as complexidades da criação, manutenção e sincronização de muitos sistemas de dados distribuídos. Consulte O que é um data lakehouse?
ETL e engenharia de dados
Não importa se você está gerando dashboards ou impulsionando aplicativos de inteligência artificial, a engenharia de dados fornece a base para empresas centradas em dados, garantindo que os dados estejam disponíveis, limpos e armazenados em modelos de dados que permitem descoberta e uso eficientes. O Databricks combina o poder do Apache Spark com o Delta Lake e ferramentas personalizadas para proporcionar uma experiência ETL (extrair, transformar, carregar) incomparável. Você pode usar SQL, Python e Scala para compor a lógica ETL e, em seguida, orquestrar a implementação programada do trabalho com apenas alguns cliques.
A DLT simplifica ainda mais o site ETL, gerenciando de forma inteligente as dependências entre os conjuntos de dados e implantando e dimensionando automaticamente a infraestrutura de produção para garantir a entrega pontual e precisa dos dados de acordo com suas especificações.
Databricks fornece várias ferramentas personalizadas para ingestão de dados, incluindo Auto LoaderO Data Lake, uma ferramenta eficiente e escalonável para carregar dados de forma incremental e idempotente do armazenamento de objetos na nuvem e do data lake no site data lakehouse.
Aprendizado de máquina, AI e ciência de dados
Databricks O aprendizado de máquina expande a funcionalidade principal da plataforma com um conjunto de ferramentas adaptadas às necessidades dos engenheiros de data scientists e ML, incluindo MLflow e Databricks Runtime para aprendizado de máquina.
Modelos de linguagem grandes e geradores AI
Databricks Runtime for Machine Learning inclui uma biblioteca como a Hugging Face Transformers, que permite que o senhor integre modelos pré-treinados existentes ou outra biblioteca de código aberto ao seu fluxo de trabalho. A integração Databricks MLflow facilita o uso do serviço de acompanhamento MLflow com pipeline de transformadores, modelos e componentes de processamento. Além disso, o senhor pode integrar modelos OpenAI ou soluções de parceiros como o John Snow Labs em seu Databricks fluxo de trabalho.
Com o Databricks, você pode personalizar um LLM em seus dados para sua tarefa específica. Com o suporte de ferramentas de código aberto, como Hugging Face e DeepSpeed, você pode eficientemente começar a treinar um LLM base com seus próprios dados para obter maior precisão em seu domínio e carga de trabalho.
armazenamento de dados, análise e BI
Databricks combina interfaces de usuário fáceis de usar com compute recurso econômico e armazenamento infinitamente dimensionável e acessível para oferecer uma plataforma avançada para a execução de consultas analíticas. Os administradores configuram o clustering compute escalonável como SQL warehouse, permitindo que os usuários finais executem consultas sem se preocupar com nenhuma das complexidades do trabalho na nuvem. SQL Os usuários podem executar consultas em relação aos dados no site lakehouse usando o editor de consultasSQL ou no Notebook. O Notebook é compatível com Python, R e Scala, além de SQL, e permite que os usuários incorporem as mesmas visualizações disponíveis nos painéis antigos juntamente com links, imagens e comentários escritos em markdown.
governança de dados e compartilhamento seguro de dados
O Unity Catalog fornece um modelo unificado de governança de dados para o data lakehouse. Os administradores da nuvem configuram e integram permissões de controle de acesso grosseiras para o Unity Catalog e, em seguida, os administradores do Databricks podem gerenciar as permissões para equipes e indivíduos. Os privilégios são gerenciados com listas de controle de acesso (ACLs) por meio de interfaces de usuário amigáveis ou sintaxe SQL, facilitando aos administradores de banco de dados a proteção do acesso aos dados sem a necessidade de escalonar o gerenciamento de acesso à identidade (IAM) e a rede nativos da nuvem.
Unity Catalog simplifica a execução de análises seguras na nuvem e oferece uma divisão de responsabilidade que ajuda a limitar a necessidade de requalificação ou atualização de habilidades para administradores e usuários finais da plataforma. Consulte O que é o Unity Catalog?
O lakehouse torna o compartilhamento de dados em sua organização tão simples quanto conceder acesso de consulta a uma tabela ou view. Para compartilhar fora de seu ambiente seguro, Unity Catalog recorra a uma versão gerenciar do Delta Sharing.
DevOps, CI/CD, e tarefa orquestração
Os ciclos de vida de desenvolvimento do pipeline ETL, dos modelos ML e dos painéis analíticos apresentam, cada um, seus próprios desafios. Databricks permite que todos os seus usuários utilizem uma única fonte de dados, o que reduz esforços duplicados e relatórios fora de sincronia. Ao fornecer adicionalmente um conjunto de ferramentas comuns para controle de versão, automação, programação, código implantado e recurso de produção, o senhor pode simplificar sua sobrecarga de monitoramento, solicitação e operações. Jobs programar Databricks Notebook, SQL consultas e outros códigos arbitrários. As pastas Git permitem que o senhor sincronize os projetos da Databricks com vários provedores git populares. Para uma visão geral completa das ferramentas, consulte Ferramentas de desenvolvimento local.
tempo real e transmissão analítica
Databricks aproveita a Apache Spark transmissão estruturada para trabalhar com dados de transmissão e alterações incrementais de dados. A transmissão estruturada se integra fortemente com Delta Lake, e essas tecnologias fornecem as bases para DLT e Auto Loader. Veja transmissão em Databricks.