Conecte-se ao Infoworks

Visualização

Este recurso está em visualização pública.

O Infoworks DataFoundry é um sistema corporativo automatizado de operações de dados e orquestração que executa nativamente no Databricks e aproveita todo o poder do Databricks para fornecer soluções fáceis para integração de dados - uma primeira passo importante na operacionalização do seu data lake. O DataFoundry não apenas automatiza a ingestão de dados, mas também automatiza a funcionalidade key que deve acompanhar a ingestão para estabelecer uma base para análise. A integração de dados com o DataFoundry automatiza:

  • ingestão de dados: de toda a empresa e fonte externa de dados

  • Sincronização de dados: CDC para manter os dados sincronizados com a fonte

  • governança de dados: catalogação, linhagem, gerenciamento de metadados, auditoria e história

Aqui estão os passos para usar Infoworks com Databricks.

passo 1: Gerar access tokenspessoal do Databricks

Infoworks autentica com Databricks usando access tokens pessoal Databricks.

Observação

Como prática recomendada de segurança ao se autenticar com ferramentas, sistemas, scripts e aplicativos automatizados, a Databricks recomenda que você use tokens OAuth.

Se o senhor usar a autenticação pessoal access token, a Databricks recomenda o uso de pessoal access tokens pertencente à entidade de serviço em vez de usuários workspace. Para criar o site tokens para uma entidade de serviço, consulte gerenciar tokens para uma entidade de serviço.

passo 2: configurar clusters para dar suporte às necessidades de integração

O Infoworks gravará dados em um bucket S3 e os clusters de integração do Databricks lerão os dados desse local. Portanto, os clusters de integração requerem acesso seguro ao bucket do S3.

Acesso seguro a um bucket S3

Para acessar o recurso AWS, você pode iniciar os clusters de integração do Databricks com um instance profile. O instance profile deve ter acesso ao bucket S3 de preparação e ao bucket S3 de destino onde você deseja gravar as tabelas Delta. Para criar um instance profile e configurar os clusters de integração para usar a função, siga as instruções em Tutorial: Configurar o acesso ao S3 com um instance profile.

Como alternativa, você pode usar a passagem de credenciais do IAM, que permite acesso específico do usuário aos dados do S3 de clusters compartilhados.

Especifique a configuração clusters

  1. Defina clusters Mode como Standard.

  2. Defina Databricks Runtime Version para uma versão de tempo de execução do Databricks.

  3. Habilite gravações otimizadas e compactação automática adicionando as seguintes propriedades à configuração do Spark:

    spark.databricks.delta.optimizeWrite.enabled true
    spark.databricks.delta.autoCompact.enabled true
    
  4. Configure seus clusters de acordo com suas necessidades de integração e dimensionamento.

Para obter detalhes sobre a configuração de clusters, consulte Referência de configuração de computação.

Consulte obter detalhes de ligação para um recurso de computação Databricks para obter os passos para obter o URL JDBC e o caminho HTTP.

passo 3: Obter detalhes de conexão JDBC e ODBC para se conectar a um clusters

Para conectar clusters Databricks ao Infoworks, você precisa das seguintes propriedades de conexão JDBC/ODBC:

  • URL JDBC

  • Caminho HTTP

passo 4: Obter Infoworks para Databricks

Acesse Infoworks para saber mais e obter uma demonstração.

Recursos adicionais

Suporte