Conectar-se ao StreamSets

info

Visualização

Esse recurso está em Public Preview.

O StreamSets ajuda o senhor a gerenciar e monitorar o fluxo de dados durante todo o seu ciclo de vida. StreamSets A integração nativa com Databricks e Delta Lake permite que o senhor extraia dados de várias fontes e gerencie seu pipeline com facilidade.

Para uma demonstração geral do StreamSets, assista ao seguinte vídeo do YouTube (10 minutos).

Aqui estão as etapas para usar o StreamSets com o Databricks.

Etapa 1: Gerar um Databricks tokens de acesso pessoal

StreamSets autentica-se em Databricks usando tokens de acesso pessoal Databricks.

nota

Como prática recomendada de segurança ao se autenticar com ferramentas, sistemas, scripts e aplicativos automatizados, a Databricks recomenda que você use tokens OAuth.

Se o senhor usar a autenticação de tokens de acesso pessoal, a Databricks recomenda usar o acesso pessoal tokens pertencente à entidade de serviço em vez de usuários workspace. Para criar tokens o site para uma entidade de serviço, consulte gerenciar tokens para uma entidade de serviço.

Etapa 2: Configurar um clustering para atender às necessidades de integração

StreamSets gravará os dados em um bucket S3 e o clustering de integração Databricks lerá os dados desse local. Portanto, o clustering de integração exige acesso seguro ao bucket S3.

Acesso seguro a um bucket S3

Para acessar AWS recurso, o senhor pode iniciar o clustering de integração Databricks com um instance profile. O instance profile deve ter acesso ao bucket de preparação S3 e ao bucket de destino S3 onde o senhor deseja gravar as tabelas Delta. Para criar um instance profile e configurar o clustering de integração para usar a função, siga as instruções do tutorial: Configurar o acesso S3 com um instance profile.

Como alternativa, o senhor pode usar IAM credential passthrough, que permite o acesso específico do usuário aos dados de S3 de um cluster compartilhado.

Especificar a configuração de clustering

Defina o clustering Mode como Standard .
Defina Databricks Runtime Version como Runtime: 6.3 ouacima.
Ative as gravações otimizadas e a compactação automática adicionando as seguintes propriedades à sua configuração do Spark:
ini
```
spark.databricks.delta.optimizeWrite.enabled true
spark.databricks.delta.autoCompact.enabled true
```
Configure seu clustering de acordo com suas necessidades de integração e dimensionamento.

Para obter detalhes sobre a configuração de clustering, consulte a referência de configuração de computação.

Consulte Obter detalhes da conexão para um recurso Databricks compute para saber as etapas para obter o URL JDBC e o caminho HTTP.

Etapa 3: Obtenha os detalhes da conexão JDBC e ODBC para se conectar a um clustering

Para conectar um clustering Databricks a StreamSets, o senhor precisa das seguintes propriedades de conexão JDBC/ODBC:

URL JDBC
Caminho HTTP

Etapa 4: obter StreamSets para Databricks

Inscreva-se no siteStreamSets para Databricks, se o senhor ainda não tiver um StreamSets account. O senhor pode começar gratuitamente e fazer o upgrade quando estiver pronto; consulte StreamSets DataOps Platform preços.

Etapa 5: Saiba como usar o StreamSets para carregar dados no Delta Lake

Comece com um exemplo pipeline ou consulte Carregando dados no Databricks Delta Lake para saber como criar um pipeline que ingere dados no Delta Lake.

Recurso adicional

Apoiar

Etapa 1: Gerar um Databricks tokens de acesso pessoal​

Etapa 2: Configurar um clustering para atender às necessidades de integração​

Acesso seguro a um bucket S3​

Especificar a configuração de clustering​

Etapa 3: Obtenha os detalhes da conexão JDBC e ODBC para se conectar a um clustering​

Etapa 4: obter StreamSets para Databricks​

Etapa 5: Saiba como usar o StreamSets para carregar dados no Delta Lake​

Recurso adicional​