conceitos de transmissão estruturada
Apache Spark A transmissão estruturada é um mecanismo de processamento real near tempo que oferece tolerância a falhas de ponta a ponta com garantias de processamento exatamente único usando o conhecido Spark APIs. A transmissão estruturada permite que o senhor expresse a computação em dados de transmissão da mesma forma que expressa a computação de lotes em dados estáticos. O mecanismo de transmissão estruturada executa o cálculo de forma incremental e atualiza continuamente o resultado à medida que os dados de transmissão chegam.
Para obter um tutorial passo a passo, consulte execução de sua primeira carga de trabalho de transmissão estruturada.
Leitura de uma transmissão de dados
Use transmissão estruturada para ingerir dados incrementalmente de fontes de dados suportadas.
-
- Carregador automático
- Processar de forma incremental e eficiente novos arquivos de dados à medida que chegam ao armazenamento cloud .
-
- Transmissão da tabela Delta lê e escreve
- Utilize tabelas Delta Lake como fontes e destinos de transmissão com garantias de processamento exatamente uma vez.
-
- Conectores padrão
- Conecte-se a barramentos de mensagens, filas e aplicativos corporativos usando conectores padrão.
-
- Tamanho de microlotes
- Limitar as taxas de entrada para manter tamanhos de lotes consistentes e evitar atrasos no processamento.
Gravar em um coletor de dados
Configure como a transmissão estruturada entrega dados aos sistemas de destino.
-
- Pontos de controle
- Armazenar o estado de processamento para permitir tolerância a falhas e semântica de entrega exatamente uma vez.
-
- Modo de saída
- Escolha entre os modos de anexação, atualização e conclusão para consultas de transmissão com estado.
-
- Intervalos de disparo
- Defina intervalos de disparo para equilibrar a latência e o custo de acordo com suas necessidades de processamento.
-
- tempo real mode em transmissão estruturada
- Processar dados para cargas de trabalho em tempo real com latência de ponta a ponta de apenas cinco milissegundos.
Processamento com e sem estado
Consultas sem estado processam linhas sem reter nenhum estado. Consultas com estado mantêm um estado intermediário para agregações, junções e desduplicação.
-
- Consultas de transmissão sem estado
- Otimize as consultas que processam dados sem manter um estado intermediário.
-
- Marcas d'água
- Controle quanto tempo a transmissão estruturada aguarda por dados atrasados em operações com estado.
-
- Transmissão com estado
- gerenciamento de agregações, junção transmissão-transmissão e desduplicação usando operadores stateful.
Monitorar e gerenciar
Acompanhe o desempenho das consultas, aplique otimizações e controle o acesso aos dados para cargas de trabalho estruturadas de transmissão de produção.
-
- Monitorar com StreamingQueryListener
- Acompanhe o progresso da consulta e as métricas de desempenho usando a Spark UI e API do listener.
-
- Governe com Unity Catalog
- Configure Unity Catalog para cargas de trabalho de transmissão com governança e controle de acesso.