Conectar-se a StreamSets

Visualização

Este recurso está em visualização pública.

O StreamSets ajuda você a gerenciar e monitorar seu fluxo de dados durante todo o seu ciclo de vida. A integração nativa do StreamSets com Databricks e Delta Lake permite que você extraia dados de várias fontes e gerencie seus pipelines facilmente.

Para uma demonstração geral de StreamSets, assista ao seguinte vídeo do YouTube (10 minutos).

Aqui estão os passos para usar StreamSets com Databricks.

passo 1: Gerar access tokenspessoal do Databricks

StreamSets autentica com Databricks usando access tokens pessoal Databricks.

Observação

Como prática recomendada de segurança ao se autenticar com ferramentas, sistemas, scripts e aplicativos automatizados, a Databricks recomenda que você use tokens OAuth.

Se utilizar a autenticação access token pessoal, a Databricks recomenda a utilização access token pessoal pertencente à entidade de serviço em vez de utilizadores workspace . Para criar tokens para entidades de serviço, consulte gerenciar tokens para uma entidade de serviço.

passo 2: configurar clusters para dar suporte às necessidades de integração

StreamSets gravará dados em um bucket S3 e os clusters de integração Databricks lerão dados desse local. Portanto, os clusters de integração requerem acesso seguro ao bucket do S3.

Acesso seguro a um bucket S3

Para acessar o recurso AWS, você pode iniciar os clusters de integração do Databricks com um instance profile. O instance profile deve ter acesso ao bucket S3 de preparação e ao bucket S3 de destino onde você deseja gravar as tabelas Delta. Para criar um instance profile e configurar os clusters de integração para usar a função, siga as instruções em Tutorial: Configurar o acesso ao S3 com um instance profile.

Como alternativa, você pode usar a passagem de credenciais do IAM, que permite acesso específico do usuário aos dados do S3 de clusters compartilhados.

Especifique a configuração clusters

  1. Defina clusters Mode como Standard.

  2. Defina Databricks Runtime Version como Runtime: 6.3 ouacima.

  3. Habilite gravações otimizadas e compactação automática adicionando as seguintes propriedades à configuração do Spark:

    spark.databricks.delta.optimizeWrite.enabled true
    spark.databricks.delta.autoCompact.enabled true
    
  4. Configure seus clusters de acordo com suas necessidades de integração e dimensionamento.

Para obter detalhes sobre a configuração de clusters, consulte Referência de configuração de computação.

Consulte obter detalhes de ligação para um recurso de computação Databricks para obter os passos para obter o URL JDBC e o caminho HTTP.

passo 3: Obter detalhes de conexão JDBC e ODBC para se conectar a um clusters

Para conectar clusters Databricks a StreamSets, você precisa das seguintes propriedades de conexão JDBC/ODBC:

  • URL JDBC

  • Caminho HTTP

passo 4: Obter StreamSets para Databricks

Inscreva-se no StreamSets para Databricks, se ainda não tiver uma account do StreamSets. Você pode começar gratuitamente e atualizar quando estiver pronto; consulte os preços da plataforma StreamSets DataOps.

passo 5: Aprenda a usar StreamSets para carregar dados no Delta Lake

comece com um pipeline de amostra ou confira as soluções StreamSets para aprender como construir um pipeline que ingere dados no Delta Lake.

Recursos adicionais

Suporte