Conecte-se à Infoworks

importante

Esta documentação foi descontinuada e pode não ser atualizada. O produto, serviço ou tecnologia mencionados neste conteúdo não são mais suportados. Consulte a documentação do Infoworks.

O Infoworks DataFoundry é um sistema corporativo automatizado de operações de dados e orquestração que executa nativamente no Databricks e aproveita todo o poder do Databricks para fornecer soluções fáceis para integração de dados - uma primeira passo importante na operacionalização do seu data lake. O DataFoundry não apenas automatiza a ingestão de dados, mas também automatiza a funcionalidade key que deve acompanhar a ingestão para estabelecer uma base para análise. A integração de dados com o DataFoundry automatiza:

ingestão de dados: de todas as fontes de dados corporativas e externas
Sincronização de dados: o CDC manterá os dados sincronizados com a fonte.
governança de dados: catalogação, linhagem, gerenciamento de metadados, auditoria e história

Aqui estão os passos para usar o Infoworks com o Databricks.

Passo 1: Gere um access tokenpessoal Databricks

Infoworks autentica-se com Databricks usando um access token pessoal Databricks .

nota

Como prática recomendada de segurança ao autenticar com ferramentas, sistemas, scripts e aplicativos automatizados, a Databricks recomenda o uso de tokens OAuth.

Se você utiliza autenticação access token pessoal, Databricks recomenda o uso de access tokens pessoal pertencentes à entidade de serviço em vez de usuários workspace . Para criar tokens para entidade de serviço, consulte gerenciar tokens para uma entidade de serviço.

Etapa 2: Configurar um cluster para atender às necessidades de integração

O Infoworks gravará os dados em um bucket do S3 e o cluster de integração do Databricks lerá os dados desse local. Portanto, o cluster de integração requer acesso seguro ao bucket S3.

Acesso seguro a um bucket S3

Para acessar AWS Recurso, você pode iniciar o cluster de integração Databricks com um instance profile. O instance profile deve ter acesso ao bucket S3 de preparação e ao bucket S3 de destino onde você deseja gravar as tabelas Delta . Para criar um instance profile e configurar o cluster de integração para usar a função, siga as instruções no tutorial: Configurar o acesso S3 com um instance profile.

Como alternativa, você pode usar a passagem de credenciais do IAM, que permite o acesso específico do usuário aos dados do S3 a partir de um cluster compartilhado.

Especifique a configuração do cluster.

Defina Modedo cluster para Padrão .
Defina a versãoDatabricks Runtime para uma versão Databricks Runtime.
Habilite gravações otimizadas e compactação automática adicionando as seguintes propriedades à sua configuração do Spark:
ini
```
spark.databricks.delta.optimizeWrite.enabled true
spark.databricks.delta.autoCompact.enabled true
```
Configure seu cluster de acordo com suas necessidades de integração e escalabilidade.

Para obter detalhes sobre a configuração cluster , consulte a referência de configuração de computação.

Consulte a seção "Obter detalhes de conexão para um recurso compute Databricks para obter os passos para obter a URL JDBC e o caminho HTTP.

Etapa 3: Obtenha os detalhes de conexão JDBC e ODBC para se conectar a um cluster

Para conectar um cluster Databricks ao Infoworks, você precisa das seguintes propriedades de conexão JDBC/ODBC:

URL JDBC
Caminho HTTP

o passo 4: Obtenha Infoworks para Databricks

Acesse o site da Infoworks para saber mais e solicitar uma demonstração.

Recursos adicionais

Apoiar

Passo 1: Gere um access tokenpessoal Databricks​

Etapa 2: Configurar um cluster para atender às necessidades de integração​

Acesso seguro a um bucket S3​

Especifique a configuração do cluster.​

Etapa 3: Obtenha os detalhes de conexão JDBC e ODBC para se conectar a um cluster​

o passo 4: Obtenha Infoworks para Databricks​

Recursos adicionais​