conceitos de transmissão estruturada

Apache Spark A transmissão estruturada é um mecanismo de processamento real near tempo que oferece tolerância a falhas de ponta a ponta com garantias de processamento exatamente único usando o conhecido Spark APIs. A transmissão estruturada permite que o senhor expresse a computação em dados de transmissão da mesma forma que expressa a computação de lotes em dados estáticos. O mecanismo de transmissão estruturada executa o cálculo de forma incremental e atualiza continuamente o resultado à medida que os dados de transmissão chegam.

Para obter um tutorial passo a passo, consulte execução de sua primeira carga de trabalho de transmissão estruturada.

Leitura de uma transmissão de dados

Use transmissão estruturada para ingerir dados incrementalmente de fontes de dados suportadas.

- Carregador automático
- Processar de forma incremental e eficiente novos arquivos de dados à medida que chegam ao armazenamento cloud .
- Leituras e gravações de transmissão da tabela Delta Lake
- Utilize tabelas Delta Lake como fontes e destinos de transmissão com garantias de processamento exatamente uma vez.
- Conectores padrão
- Conecte-se a barramentos de mensagens, filas e aplicativos corporativos usando conectores padrão.
- Tamanho de microlotes
- Limitar as taxas de entrada para manter tamanhos de lotes consistentes e evitar atrasos no processamento.

Gravar em um coletor de dados

Configure como a transmissão estruturada entrega dados aos sistemas de destino.

- Pontos de controle
- Armazenar o estado de processamento para permitir tolerância a falhas e semântica de entrega exatamente uma vez.
- Modo de saída
- Escolha entre os modos de anexação, atualização e conclusão para consultas de transmissão com estado.
- Intervalos de disparo
- Defina intervalos de disparo para equilibrar a latência e o custo de acordo com suas necessidades de processamento.
- tempo real mode em transmissão estruturada
- Processar dados para cargas de trabalho em tempo real com latência de ponta a ponta de apenas cinco milissegundos.

Processamento com e sem estado

Consultas sem estado processam linhas sem reter nenhum estado. Consultas com estado mantêm um estado intermediário para agregações, junções e desduplicação.

- Consultas de transmissão sem estado
- Otimize as consultas que processam dados sem manter um estado intermediário.
- Marcas d'água
- Controle quanto tempo a transmissão estruturada aguarda por dados atrasados em operações com estado.
- Transmissão com estado
- gerenciamento de agregações, junção transmissão-transmissão e desduplicação usando operadores stateful.

Monitorar e gerenciar

Acompanhe o desempenho das consultas, aplique otimizações e controle o acesso aos dados para cargas de trabalho estruturadas de transmissão de produção.

- Monitorar com StreamingQueryListener
- Acompanhe o progresso da consulta e as métricas de desempenho usando a Spark UI e API do listener.
- Governe com Unity Catalog
- Configure Unity Catalog para cargas de trabalho de transmissão com governança e controle de acesso.

Leitura de uma transmissão de dados​

Gravar em um coletor de dados​

Processamento com e sem estado​

Monitorar e gerenciar​

Leitura de uma transmissão de dados

Gravar em um coletor de dados

Processamento com e sem estado

Monitorar e gerenciar