Pular para o conteúdo principal

Comece com o modo tempo real

info

Visualização

Este recurso está em Pré-visualização Pública.

O modo tempo real permite transmissões com latência ultrabaixa, de ponta a ponta, de apenas cinco milissegundos, tornando-o ideal para cargas de trabalho operacionais como detecção de fraudes e personalização em tempo real. Este tutorial orienta você na configuração da sua primeira consulta de transmissão real de tempo usando um exemplo simples.

Para informações conceituais sobre o modo tempo real, quando utilizá-lo e recurso suportado, consulte modo tempo real em transmissão estruturada.

Requisitos

nota

Se você não possui privilégios de criação compute clássica, entre em contato com o administrador do seu workspace para que ele crie um cluster em modo tempo real para você, usando a configuração da etapa 1.

o passo 1: Crie compute clássica para modo tempo real

O modo tempo real requer uma configuração compute clássica específica para atingir latência ultrabaixa. Essas configurações garantem que a execução da tarefa ocorra simultaneamente em todas as etapas e que os dados sejam processados continuamente à medida que chegam, em vez de em lotes.

Para criar um compute clássico devidamente configurado:

  1. No seu workspace Databricks , clique em "Computar" na barra lateral.

  2. Clique em Criar compute .

  3. Digite um nome.

  4. Selecione Databricks Runtime 17.1 ou superior.

  5. Aceleração Photon limpa (o modo em tempo real não suporta Photon).

  6. Desative a opção "Ativar dimensionamento automático" (o modo Tempo Real requer um tamanho cluster fixo).

  7. Em Desempenho avançado , desmarque a opção Usar instâncias spot (instâncias spot podem causar interrupções).

  8. Clique em Opções avançadas para expandir as configurações adicionais.

  9. Em Modo de acesso , selecione Dedicado (anteriormente: Usuário único) .

  10. Na configuração do Spark , adicione a seguinte configuração:

    Text
    spark.databricks.streaming.realTimeMode.enabled true
  11. Clique em Criar compute .

o passo 2: Criar um caderno

Os notebooks oferecem um ambiente interativo para desenvolver e testar consultas de transmissão. Você usa este Notebook para escrever sua consulta tempo real e ver os resultados serem atualizados continuamente.

Para criar um Notebook:

  1. Clique em Novo na barra lateral e, em seguida, clique em Notebook .
  2. No menu suspenso compute , selecione o compute que você criou na etapa 1.
  3. Selecione Python ou Scala como linguagem default .

o passo 3: execução de uma consulta em modo real de tempo

Copie e cole o seguinte código em uma célula do Notebook e execute-o. Este exemplo utiliza uma fonte de taxa, que gera linhas a uma taxa especificada e exibe os resultados em tempo real.

nota

A função display com gatilho realTime está disponível no Databricks Runtime 17.1 e versões superiores.

Python
inputDF = (
spark
.readStream
.format("rate")
.option("numPartitions", 2)
.option("rowsPerSecond", 1)
.load()
)
display(inputDF, realTime="5 minutes", outputMode="update")

Após executar o código, você verá uma tabela que é atualizada em tempo real à medida que novas linhas são geradas. A tabela exibe uma coluna timestamp e uma coluna value que incrementa a cada linha.

Entendendo o código

O código acima demonstra os componentes essenciais de uma consulta de transmissão de tempo real. As tabelas a seguir explicam os key parâmetros e o que eles controlam:

Parâmetro

Descrição

format("rate")

Utiliza a fonte de taxa, uma fonte integrada que gera linhas a uma taxa configurável. Isso é útil para testes sem dependências externas.

numPartitions

Define o número de partições para os dados gerados.

rowsPerSecond

Controla quantas linhas são geradas por segundo.

realTime="5 minutes"

Ativa o modo em tempo real. O intervalo especifica a frequência com que os pontos de verificação da consulta progridem. Intervalos mais longos significam verificações menos frequentes, mas também tempos de recuperação potencialmente mais longos após falhas.

outputMode="update"

O modo em tempo real requer o modo de saída de atualização.

O que você está vendo

Ao executar a consulta, a função display cria uma tabela que é atualizada em tempo real à medida que a fonte de dados gera novas linhas. Cada linha contém:

  • timestamp : O horário em que a linha foi gerada pela fonte de taxa.
  • valor : Um contador monotonicamente crescente que incrementa a cada nova linha

A tabela é atualizada continuamente com latência mínima, demonstrando como o modo em tempo real processa os dados assim que eles ficam disponíveis. Essa é a principal vantagem do modo Tempo Real: a capacidade de visualizar e agir sobre os dados imediatamente, em vez de esperar pelo processamento de lotes.

O que você aprendeu

Você configurou e executou com sucesso sua primeira consulta de transmissão de tempo real. Agora você sabe como:

  • Configure o compute clássico com as configurações necessárias para o modo Tempo Real ( cluster dedicado, Photon desativado, escalonamento automático desativado, configuração Spark ).
  • Ative o processamento em tempo real usando o gatilho realTime
  • Use a função display para desenvolvimento e testes interativos.
  • Verifique se sua consulta está sendo executada em tempo real, observando as atualizações contínuas.

Você está pronto para construir um pipeline de produção robusto com Kafka, Kinesis e outras fontes compatíveis. Para saber mais sobre transmissão estruturada, consulte conceitos de transmissão estruturada.

Próximos passos

Agora que você executou sua primeira consulta tempo real, explore estes recursos para construir aplicações de transmissão de produção: