conceitos de transmissão estruturada
Este artigo fornece uma introdução à transmissão estruturada em Databricks.
O que é transmissão estruturada?
Apache Spark A transmissão estruturada é um mecanismo de processamento real near tempo que oferece tolerância a falhas de ponta a ponta com garantias de processamento exatamente único usando o conhecido Spark APIs. A transmissão estruturada permite que o senhor expresse a computação em dados de transmissão da mesma forma que expressa a computação de lotes em dados estáticos. O mecanismo de transmissão estruturada executa o cálculo de forma incremental e atualiza continuamente o resultado à medida que os dados de transmissão chegam.
Leitura de uma transmissão de dados
O senhor pode usar a transmissão estruturada para ingerir dados de forma incremental a partir da fonte de dados suportada. As fontes de dados comuns incluem o seguinte:
- Arquivos de dados no armazenamento de objetos na nuvem. Consulte O que é o Auto Loader?
- Ônibus e filas de mensagens. Consulte Configurar transmissão fonte de dados.
- Delta Lake. Consulte Delta tabela de leituras e gravações de transmissão.
Cada fonte de dados oferece várias opções para especificar como carregar lotes de dados. Durante a configuração do leitor, talvez seja necessário configurar opções para fazer o seguinte:
- Especifique a fonte de dados ou o formato (por exemplo, tipo de arquivo, delimitadores e esquema).
- Configure o acesso aos sistemas de origem (por exemplo, configurações de porta e credenciais).
- Especificar onde começar em uma transmissão (por exemplo, Kafka offsets ou ler todos os arquivos existentes).
- Controlar a quantidade de dados processados em cada lote (por exemplo, o máximo de offsets, arquivos ou bytes por lote). Consulte Configurar o tamanho dos lotes de transmissão estruturada em Databricks.
Gravar em um coletor de dados
Um coletor de dados é o alvo de uma operação de gravação em transmissão. Os coletores comuns usados nas cargas de trabalho de transmissão do Databricks incluem o seguinte:
- Delta Lake
- Barramentos e filas de mensagens
- Bancos de dados de valor chave
Assim como a fonte de dados, a maioria dos data sinks oferece várias opções para controlar como os dados são gravados no sistema de destino. Durante a configuração do gravador, você especifica as seguintes opções:
- Modo de saída (anexar por default). Consulte Selecionar um modo de saída para transmissão estruturada.
- A localização do ponto de verificação (necessária para cada escritor ). Veja os pontos de controle de transmissão estruturada.
- Intervalos de gatilho. Consulte Configurar intervalos de acionamento da transmissão estruturada.
- Opções que especificam o coletor de dados ou o formato (por exemplo, tipo de arquivo, delimitadores e esquema).
- Opções que configuram o acesso aos sistemas de destino (por exemplo, configurações de porta e credenciais).