Transmissão no Databricks
Você pode usar o Databricks para ingestão, processamento, aprendizado de máquina e IA de dados quase em tempo real para transmissão de dados.
Databricks oferece várias otimizações para transmissão e processamento incremental, incluindo o seguinte:
O Delta Live Tables oferece sintaxe declarativa para processamento incremental. Veja o que é Delta Live Tables?
Auto Loader simplifica a ingestão incremental do armazenamento de objetos do site cloud. Consulte O que é o Auto Loader?
Unity Catalog adiciona governança de dados às cargas de trabalho de transmissão. Consulte Uso do site Unity Catalog com transmissão estruturada.
O Delta Lake fornece a camada de armazenamento para essas integrações. Consulte Delta para ler e gravar na tabela de transmissão.
Para veiculação de modelos em tempo real, consulte Veiculação de modelos com Databricks.
- Tutorial
Aprenda os conceitos básicos do processamento incremental e próximo do tempo real com Transmissão Estruturada no Databricks.
- Conceitos
Aprenda os principais conceitos para configurar cargas de trabalho reais incrementais e near tempo com transmissão estruturada.
- Transmissão com estado
O gerenciamento das informações de estado intermediário das consultas de transmissão estruturada com estado pode ajudar a evitar latência inesperada e problemas de produção.
- Considerações de produção
Este artigo contém recomendações para configurar cargas de trabalho de processamento incremental de produção com transmissão estruturada em Databricks para atender aos requisitos de latência e custo para aplicativos de tempo real ou de lotes.
- Monitorar transmissão
Saiba como monitorar os aplicativos de transmissão estruturada em Databricks.
- Integração do Unity Catalog
Saiba como utilizar o Unity Catalog com a Transmissão Estruturada no Databricks.
- Transmissão com Delta
Aprenda a usar tabelas Delta Lake como fontes e coletores de transmissão.
- Exemplos
Veja exemplos de uso de Spark transmissão estruturada com Cassandra, Azure Synapse Analytics, Python Notebook e Scala Notebook em Databricks.
Databricks possui recurso específico para trabalhar com campos de dados semiestruturados contidos em Avro, buffers de protocolo e payloads de dados JSON. Para saber mais, consulte:
Recursos adicionais
Apache Spark oferece um Guia de programação de transmissão estruturada que contém mais informações sobre transmissão estruturada.
Para obter informações de referência sobre transmissão estruturada, o Databricks recomenda as seguintes referências do Apache Spark API: