Dados integrados do Amazon S3

Este artigo descreve como integrar dados em um novo Databricks workspace a partir do Amazon S3. O senhor aprenderá a acessar com segurança os dados de origem em um local de armazenamento de objetos cloud que corresponda a um volume Unity Catalog (recomendado) ou a um local externo Unity Catalog. Em seguida, o senhor aprenderá a ingerir os dados de forma incremental em uma tabela gerenciar Unity Catalog usando Auto Loader com Delta Live Tables.

Observação

Para integrar dados em Databricks SQL em vez de em um Notebook, consulte as tabelas Carregar uso de dados de transmissão em Databricks SQL.

Antes de começar

Se o senhor não for um administrador, este artigo pressupõe que um administrador lhe forneceu o seguinte:

  • Acesso a um Databricks workspace com Unity Catalog ativado. Para obter mais informações, consulte Configurar e gerenciar Unity Catalog.

  • A permissão READ VOLUME no volume externo do Unity Catalog ou a permissão READ FILES no local externo do Unity Catalog que corresponde ao local de armazenamento em nuvem que contém seus dados de origem. Para obter mais informações, consulte Criar um local externo para conectar o armazenamento em nuvem a Databricks.

  • O caminho para seus dados de origem.

    Exemplo de caminho de volume: /Volumes/<catalog>/<schema>/<volume>/<path>/<folder>

    Exemplo de caminho de localização externa: s3://<bucket>/<folder>/

  • Os privilégios USE SCHEMA e CREATE TABLE no esquema no qual você deseja carregar dados.

  • permissão de criação de cluster ou acesso a uma política de cluster que define um Delta Live Tables pipeline cluster (campo cluster_type definido como dlt).

    Se o caminho para os dados de origem for um caminho de volume, o site cluster deverá executar Databricks Runtime 13.3 LTS ou acima.

Importante

Se tiver dúvidas sobre esses pré-requisitos, entre em contato com o administrador do site account.

Etapa 1: criar um cluster

Para criar um cluster, faça o seguinte:

  1. Faça login em seu site Databricks workspace.

  2. Na barra lateral, clique em New > cluster.

  3. Na interface do usuário de clusters, especifique um nome exclusivo para o cluster.

  4. Se o caminho para os dados de origem for um caminho de volume, para Databricks Runtime runtime version, selecione 13.2 ou acima.

  5. Clique em Criar cluster.

o passo 2: Criar um Notebook de exploração de dados

Esta seção descreve como criar um Notebook de exploração de dados para que o senhor possa entender seus dados antes de criar o pipeline de dados.

  1. Na barra lateral, clique em +Novo > Notebook.

    O Notebook é automaticamente anexado ao último cluster que o senhor usou (nesse caso, o cluster que o senhor criou no passo 1: Create a cluster).

  2. Insira um nome para o notebook.

  3. Clique no botão de idioma e selecione Python ou SQL no menu dropdown. Python é selecionado por default.

  4. Para confirmar o acesso aos dados de origem em S3, cole o código a seguir em uma célula do Notebook, clique em Menu Executar e, em seguida, clique em Executar célula.

    LIST '<path-to-source-data>'
    
    %fs ls '<path-to-source-data>'
    

    Substitua <path-to-source-data> pelo caminho para o diretório que contém seus dados.

    Isso exibe o conteúdo do diretório que contém o endereço dataset.

  5. Para view uma amostra dos registros para entender melhor o conteúdo e o formato de cada registro, cole o seguinte em uma célula do Notebook, clique em Menu Executar e, em seguida, clique em executar Cell.

    SELECT * from read_files('<path-to-source-data>', format => '<file-format>') LIMIT 10
    
    spark.read.format('<file-format>').load('<path-to-source-data>').limit(10).display()
    

    Substitua os seguintes valores:

    • <file-format>: Um formato de arquivo compatível. Consulte Opções de formato de arquivo.

    • <path to source data>: o caminho para um arquivo no diretório que contém seus dados.

    Isso exibe os primeiros dez registros do arquivo especificado.

o passo 3: Ingerir dados brutos

Para ingerir dados brutos, faça o seguinte:

  1. Na barra lateral, clique em New > Notebook.

    O Notebook é automaticamente anexado ao último cluster que o senhor usou (nesse caso, o cluster que o senhor criou anteriormente neste artigo).

  2. Insira um nome para o notebook.

  3. Clique no botão de idioma e selecione Python ou SQL no menu dropdown. Python é selecionado por default.

  4. Cole o código a seguir em uma célula do Notebook:

    CREATE OR REFRESH STREAMING TABLE
      <table-name>
    AS SELECT
      *
    FROM
      STREAM read_files(
        '<path-to-source-data>',
        format => '<file-format>'
      )
    
    @dlt.table(table_properties={'quality': 'bronze'})
    def <table-name>():
      return (
         spark.readStream.format('cloudFiles')
         .option('cloudFiles.format', '<file-format>')
         .load(f'{<path-to-source-data>}')
     )
    

    Substitua os seguintes valores:

    • <table-name>: um nome para a tabela que conterá os registros ingeridos.

    • <path-to-source-data>: O caminho para seus dados de origem.

    • <file-format>: Um formato de arquivo compatível. Consulte Opções de formato de arquivo.

Observação

Delta Live Tables não foi projetado para ser executado interativamente nas células do Notebook. A execução de uma célula que contém a sintaxe Delta Live Tables em um Notebook retorna uma mensagem sobre se a consulta é sintaticamente válida, mas não executa a lógica da consulta. O passo a seguir descreve como criar um pipeline a partir do Notebook de ingestão que o senhor acabou de criar.

o passo 4: Criar e publicar um pipeline

Para criar um pipeline e publicá-lo no Unity Catalog, faça o seguinte:

  1. Na barra lateral, clique em fluxo de trabalho, clique no botão Delta Live Tables tab e, em seguida, clique em Criar pipeline.

  2. Digite um nome para seu pipeline.

  3. Para o modo de pipeline, selecione Triggered (Acionado).

  4. Para Código-fonte, selecione o Notebook que contém o código-fonte do site pipeline.

  5. Em Destination (Destino), selecione Unity Catalog.

  6. Para garantir que sua tabela seja gerenciada por Unity Catalog e que qualquer usuário com acesso ao esquema pai possa consultá-la, selecione um Catalog (Catálogo ) e um Target schema (Esquema de destino ) nas listas suspensas.

  7. Se o senhor não tiver permissão de criação de cluster, selecione uma política de cluster que ofereça suporte a Delta Live Tables na lista suspensa.

  8. Para Advanced, defina o canal como Preview.

  9. Aceite todos os outros valores de default e clique em Create.

o passo 5: programar o pipeline

Para programar o pipeline, faça o seguinte:

  1. Na barra lateral, clique em Delta Live Tables.

  2. Clique no nome do pipeline que o senhor deseja programar.

  3. Clique em programar > Add a programar.

  4. Em Job name, digite um nome para o trabalho.

  5. Definir o programa como Scheduled.

  6. Especifique o período, a hora inicial e o fuso horário.

  7. Configure um ou mais endereços email para receber alertas sobre pipeline começar, ter sucesso ou falhar.

  8. Clique em Criar.

Próximas etapas