Pular para o conteúdo principal

conceitos de transmissão estruturada

Apache Spark A transmissão estruturada é um mecanismo de processamento real near tempo que oferece tolerância a falhas de ponta a ponta com garantias de processamento exatamente único usando o conhecido Spark APIs. A transmissão estruturada permite que o senhor expresse a computação em dados de transmissão da mesma forma que expressa a computação de lotes em dados estáticos. O mecanismo de transmissão estruturada executa o cálculo de forma incremental e atualiza continuamente o resultado à medida que os dados de transmissão chegam.

Para obter um tutorial passo a passo, consulte execução de sua primeira carga de trabalho de transmissão estruturada.

Leitura de uma transmissão de dados

Use transmissão estruturada para ingerir dados incrementalmente de fontes de dados suportadas.

Gravar em um coletor de dados

Configure como a transmissão estruturada entrega dados aos sistemas de destino.

    • Pontos de controle
    • Armazenar o estado de processamento para permitir tolerância a falhas e semântica de entrega exatamente uma vez.
    • Modo de saída
    • Escolha entre os modos de anexação, atualização e conclusão para consultas de transmissão com estado.
    • Intervalos de disparo
    • Defina intervalos de disparo para equilibrar a latência e o custo de acordo com suas necessidades de processamento.

Processamento com e sem estado

Consultas sem estado processam linhas sem reter nenhum estado. Consultas com estado mantêm um estado intermediário para agregações, junções e desduplicação.

    • Marcas d'água
    • Controle quanto tempo a transmissão estruturada aguarda por dados atrasados em operações com estado.
    • Transmissão com estado
    • gerenciamento de agregações, junção transmissão-transmissão e desduplicação usando operadores stateful.

Monitorar e gerenciar

Acompanhe o desempenho das consultas, aplique otimizações e controle o acesso aos dados para cargas de trabalho estruturadas de transmissão de produção.