Conecte-se à Infoworks

info

Visualização

Esse recurso está em Public Preview.

O Infoworks DataFoundry é um sistema corporativo automatizado de operações de dados e orquestração que executa nativamente no Databricks e aproveita todo o poder do Databricks para fornecer soluções fáceis para integração de dados - uma primeira passo importante na operacionalização do seu data lake. O DataFoundry não apenas automatiza a ingestão de dados, mas também automatiza a funcionalidade key que deve acompanhar a ingestão para estabelecer uma base para análise. A integração de dados com o DataFoundry automatiza:

ingestão de dados: de todas as fontes de dados empresariais e externas
Sincronização de dados: CDC para manter os dados sincronizados com a fonte
governança de dados: catalogação, linhagem, gerenciamento de metadados, auditoria e história

Aqui estão as etapas para usar o Infoworks com o Databricks.

Etapa 1: Gerar um Databricks tokens de acesso pessoal

Infoworks autentica-se em Databricks usando tokens de acesso pessoal Databricks.

nota

Como prática recomendada de segurança ao se autenticar com ferramentas, sistemas, scripts e aplicativos automatizados, a Databricks recomenda que você use tokens OAuth.

Se o senhor usar a autenticação de tokens de acesso pessoal, a Databricks recomenda usar o acesso pessoal tokens pertencente à entidade de serviço em vez de usuários workspace. Para criar tokens o site para uma entidade de serviço, consulte gerenciar tokens para uma entidade de serviço.

Etapa 2: Configurar um clustering para atender às necessidades de integração

Infoworks gravará os dados em um bucket S3 e o clustering de integração Databricks lerá os dados desse local. Portanto, o clustering de integração exige acesso seguro ao bucket S3.

Acesso seguro a um bucket S3

Para acessar AWS recurso, o senhor pode iniciar o clustering de integração Databricks com um instance profile. O instance profile deve ter acesso ao bucket de preparação S3 e ao bucket de destino S3 onde o senhor deseja gravar as tabelas Delta. Para criar um instance profile e configurar o clustering de integração para usar a função, siga as instruções do tutorial: Configurar o acesso S3 com um instance profile.

Como alternativa, o senhor pode usar IAM credential passthrough, que permite o acesso específico do usuário aos dados de S3 de um cluster compartilhado.

Especificar a configuração de clustering

Defina o clustering Mode como Standard .
Defina Databricks Runtime Version como uma versão de tempo de execução de Databricks.
Ative as gravações otimizadas e a compactação automática adicionando as seguintes propriedades à sua configuração do Spark:
ini
```
spark.databricks.delta.optimizeWrite.enabled true
spark.databricks.delta.autoCompact.enabled true
```
Configure seu clustering de acordo com suas necessidades de integração e dimensionamento.

Para obter detalhes sobre a configuração de clustering, consulte a referência de configuração de computação.

Consulte Obter detalhes da conexão para um recurso Databricks compute para saber as etapas para obter o URL JDBC e o caminho HTTP.

Etapa 3: Obtenha os detalhes da conexão JDBC e ODBC para se conectar a um clustering

Para conectar um clustering Databricks a Infoworks, o senhor precisa das seguintes propriedades de conexão JDBC/ODBC:

URL JDBC
Caminho HTTP

Etapa 4: Obter o Infoworks para Databricks

Acesse a Infoworks para saber mais e obter uma demonstração.

Recurso adicional

Apoiar

Etapa 1: Gerar um Databricks tokens de acesso pessoal​

Etapa 2: Configurar um clustering para atender às necessidades de integração​

Acesso seguro a um bucket S3​

Especificar a configuração de clustering​

Etapa 3: Obtenha os detalhes da conexão JDBC e ODBC para se conectar a um clustering​

Etapa 4: Obter o Infoworks para Databricks​

Recurso adicional​