Conectar-se a StreamSets
Visualização
Este recurso está em visualização pública.
O StreamSets ajuda você a gerenciar e monitorar seu fluxo de dados durante todo o seu ciclo de vida. A integração nativa do StreamSets com Databricks e Delta Lake permite que você extraia dados de várias fontes e gerencie seus pipelines facilmente.
Para uma demonstração geral de StreamSets, assista ao seguinte vídeo do YouTube (10 minutos).
Aqui estão os passos para usar StreamSets com Databricks.
passo 1: Gerar access tokenspessoal do Databricks
StreamSets autentica com Databricks usando access tokens pessoal Databricks.
Observação
Como prática recomendada de segurança ao se autenticar com ferramentas, sistemas, scripts e aplicativos automatizados, a Databricks recomenda que você use tokens OAuth.
Se o senhor usar a autenticação pessoal access token, a Databricks recomenda o uso de pessoal access tokens pertencente à entidade de serviço em vez de usuários workspace. Para criar o site tokens para uma entidade de serviço, consulte gerenciar tokens para uma entidade de serviço.
passo 2: configurar clusters para dar suporte às necessidades de integração
StreamSets gravará dados em um bucket S3 e os clusters de integração Databricks lerão dados desse local. Portanto, os clusters de integração requerem acesso seguro ao bucket do S3.
Acesso seguro a um bucket S3
Para acessar o recurso AWS, você pode iniciar os clusters de integração do Databricks com um instance profile. O instance profile deve ter acesso ao bucket S3 de preparação e ao bucket S3 de destino onde você deseja gravar as tabelas Delta. Para criar um instance profile e configurar os clusters de integração para usar a função, siga as instruções em Tutorial: Configurar o acesso ao S3 com um instance profile.
Como alternativa, você pode usar a passagem de credenciais do IAM, que permite acesso específico do usuário aos dados do S3 de clusters compartilhados.
Especifique a configuração clusters
Defina clusters Mode como Standard.
Defina Databricks Runtime Version como Runtime: 6.3 ouacima.
Habilite gravações otimizadas e compactação automática adicionando as seguintes propriedades à configuração do Spark:
spark.databricks.delta.optimizeWrite.enabled true spark.databricks.delta.autoCompact.enabled true
Configure seus clusters de acordo com suas necessidades de integração e dimensionamento.
Para obter detalhes sobre a configuração de clusters, consulte Referência de configuração de computação.
Consulte obter detalhes de ligação para um recurso de computação Databricks para obter os passos para obter o URL JDBC e o caminho HTTP.
passo 3: Obter detalhes de conexão JDBC e ODBC para se conectar a um clusters
Para conectar clusters Databricks a StreamSets, você precisa das seguintes propriedades de conexão JDBC/ODBC:
URL JDBC
Caminho HTTP
passo 4: Obter StreamSets para Databricks
Inscreva-se no StreamSets para Databricks, se ainda não tiver uma account do StreamSets. Você pode começar gratuitamente e atualizar quando estiver pronto; consulte os preços da plataforma StreamSets DataOps.
passo 5: Aprenda a usar StreamSets para carregar dados no Delta Lake
comece com um pipeline de amostra ou confira as soluções StreamSets para aprender como construir um pipeline que ingere dados no Delta Lake.