Conectar-se ao StreamSets
Visualização
Esse recurso está em Public Preview.
O StreamSets ajuda o senhor a gerenciar e monitorar o fluxo de dados durante todo o seu ciclo de vida. StreamSets A integração nativa com Databricks e Delta Lake permite que o senhor extraia dados de várias fontes e gerencie seu pipeline com facilidade.
Para uma demonstração geral do StreamSets, assista ao seguinte vídeo do YouTube (10 minutos).
Aqui estão as etapas para usar o StreamSets com o Databricks.
Etapa 1: Gerar um Databricks tokens de acesso pessoal
StreamSets autentica-se em Databricks usando tokens de acesso pessoal Databricks.
Como prática recomendada de segurança ao se autenticar com ferramentas, sistemas, scripts e aplicativos automatizados, a Databricks recomenda que você use tokens OAuth.
Se o senhor usar a autenticação de tokens de acesso pessoal, a Databricks recomenda usar o acesso pessoal tokens pertencente à entidade de serviço em vez de usuários workspace. Para criar tokens o site para uma entidade de serviço, consulte gerenciar tokens para uma entidade de serviço.
Etapa 2: Configurar um clustering para atender às necessidades de integração
StreamSets gravará os dados em um bucket S3 e o clustering de integração Databricks lerá os dados desse local. Portanto, o clustering de integração exige acesso seguro ao bucket S3.
Acesso seguro a um bucket S3
Para acessar AWS recurso, o senhor pode iniciar o clustering de integração Databricks com um instance profile. O instance profile deve ter acesso ao bucket de preparação S3 e ao bucket de destino S3 onde o senhor deseja gravar as tabelas Delta. Para criar um instance profile e configurar o clustering de integração para usar a função, siga as instruções do tutorial: Configurar o acesso S3 com um instance profile.
Como alternativa, o senhor pode usar IAM credential passthrough, que permite o acesso específico do usuário aos dados de S3 de um cluster compartilhado.
Especificar a configuração de clustering
-
Defina o clustering Mode como Standard .
-
Defina Databricks Runtime Version como Runtime: 6.3 ouacima.
-
Ative as gravações otimizadas e a compactação automática adicionando as seguintes propriedades à sua configuração do Spark:
inispark.databricks.delta.optimizeWrite.enabled true
spark.databricks.delta.autoCompact.enabled true -
Configure seu clustering de acordo com suas necessidades de integração e dimensionamento.
Para obter detalhes sobre a configuração de clustering, consulte a referência de configuração de computação.
Consulte Obter detalhes da conexão para um recurso Databricks compute para saber as etapas para obter o URL JDBC e o caminho HTTP.
Etapa 3: Obtenha os detalhes da conexão JDBC e ODBC para se conectar a um clustering
Para conectar um clustering Databricks a StreamSets, o senhor precisa das seguintes propriedades de conexão JDBC/ODBC:
- URL JDBC
- Caminho HTTP
Etapa 4: obter StreamSets para Databricks
Inscreva-se no siteStreamSets para Databricks, se o senhor ainda não tiver um StreamSets account. O senhor pode começar gratuitamente e fazer o upgrade quando estiver pronto; consulte StreamSets DataOps Platform preços.
Etapa 5: Saiba como usar o StreamSets para carregar dados no Delta Lake
Comece com uma amostra pipeline ou confira StreamSets soluções para saber como criar um pipeline que ingere dados em Delta Lake.