Pular para o conteúdo principal

Referência do conector do Outlook

Esta página contém a documentação de referência para o conector do Outlook no LakeFlow Connect.

Propriedades de conexão

Ao criar a conexão com o Unity Catalog , você deve especificar as seguintes propriedades. Consulte Configurar a autenticação no Microsoft Outlook para saber como obter esses valores.

Propriedade

Descrição

ID do cliente

O ID do aplicativo (cliente) obtido a partir do registro do aplicativo Microsoft Entra ID.

Segredo do cliente

O valor da chave secreta do cliente obtido no registro do aplicativo Microsoft Entra ID.

ID do inquilino

O ID do diretório (tenant) do registro do aplicativo Microsoft Entra ID.

Esquema de destino

O conector produz uma única tabela, email_messages, sob o esquema default .

  • keyprimária : (mailbox, outlook_message_id)
  • Cursor de sincronização incremental : received_at, rastreado por caixa de correio e pasta.

email_messages

Coluna

Tipo

Descrição

mailbox

string

Endereço de e-mail da caixa postal. Parte da key primária.

outlook_message_id

string

ID de mensagem exclusivo da API gráfica Microsoft . Parte da key primária.

internet_message_id

string

RFC 2822 ID de mensagem da internet.

conversation_id

string

ID da conversa.

folder

string

Nome de exibição da pasta (por exemplo, Inbox).

to_recipients

array<string>

Lista de endereços email dos destinatários.

cc_recipients

array<string>

Lista de endereços email de destinatários em cópia (CC).

bcc_recipients

array<string>

Lista de endereços email destinatários em CCO (cópia oculta).

from

string

Endereço email do remetente.

sender

string

Endereço email do remetente real (pode ser diferente de from quando enviado em nome de outra pessoa).

reply_to

array<string>

Lista de endereços de e- email para resposta.

subject

string

assunto do e-mail.

importance

string

Nível de importância (por exemplo, normal, high, low).

is_read

boolean

Se a mensagem foi lida.

in_reply_to

string

ID da mensagem de internet da mensagem principal, obtido a partir dos cabeçalhos email .

references

array<string>

Matriz de IDs de mensagens referenciadas, provenientes dos cabeçalhos email .

body_preview

string

Pré-visualização do corpo email .

full_body_content

string

Conteúdo corporal completo. O formato é HTML ou texto simples, com base na opção body_format .

unique_body_content

string

Conteúdo original do corpo da mensagem, excluindo trechos citados nas respostas.

received_at

timestamp

Data e hora em que a mensagem foi recebida (ISO-8601). Utilizado como cursor de sincronização incremental.

sent_at

timestamp

Data e hora em que a mensagem foi enviada (ISO-8601).

categories

array<string>

Categorias ou tags definidas pelo usuário na mensagem.

attachments

array<struct>

Matriz de estruturas de anexos. Omitido quando attachment_mode é NONE. Consulte a estrutura Attachment.

Estrutura de anexo

campo

Tipo

Descrição

attachment_id

string

ID do anexo obtido da API gráfica Microsoft .

file_name

string

Nome original do arquivo.

mime_type

string

Tipo MIME (por exemplo, application/pdf).

size

bigint

Tamanho do arquivo em bytes.

attachment_kind

string

Indicador de tipo (por exemplo, fileAttachment, itemAttachment).

is_inline

boolean

Se o anexo está embutido (por exemplo, uma imagem incorporada em uma assinatura).

content

binary

Conteúdo do arquivo codificado em Base64.

Opções de conector

Essas opções são especificadas em outlook_options na especificação do pipeline. Consulte a seção Lógica de combinação de filtros para saber como várias opções de filtro interagem.

Opção

Tipo

Obrigatório

Padrão

Descrição

include_mailboxes

array<string>

Não

Todas as caixas de correio acessíveis

Lista de endereços email da caixa de correio para sincronizar. Se não for especificado, o conector descobre e ingere todas as caixas de correio acessíveis no tenant usando o endpoint gráfico GET /users Microsoft .

include_folders

array<string>

Não

["Inbox"]

Lista de nomes de exibição de pastas para sincronizar. Exemplos: Inbox, Sent Items, Custom_Folder. A correspondência não diferencia maiúsculas de minúsculas.

include_senders

array<string>

Não

Todos os remetentes

Filtrar e-mails por endereço email do remetente usando correspondência exata. Exemplo: user@vendor.com.

include_subjects

array<string>

Não

Todas as disciplinas

Filtrar e-mails por assunto. Valores terminados com * usam correspondência de prefixo; outros valores usam correspondência de substring. Exemplo: "Invoice" (substring), "Re:*" (prefixo).

start_date

string

Não

Complete a história desde a época

data de início para a sincronização inicial no formato YYYY-MM-DD . Determina a data mais antiga a partir da qual sincronizar os dados históricos.

body_format

string

Não

TEXT_HTML

Controla o formato do conteúdo do corpo email . TEXT_HTML: preserva a formatação HTML completa. TEXT_PLAIN: converte o corpo em texto simples (recomendado para pipelines AI/RAG para reduzir o uso de tokens).

attachment_mode

string

Não

ALL

Controla quais anexos devem ser ingeridos. ALL: todos os anexos. NON_INLINE_ONLY: somente anexos não embutidos (recomenda-se evitar imagens de assinatura corporativa). INLINE_ONLY: apenas anexos embutidos. NONE: sem anexos (ignora completamente as chamadas da API de anexos).

lógica de combinação de filtros

Uma mensagem email é considerada aceita quando corresponde a pelo menos um valor de cada categoria de filtro especificada. Várias categorias de filtro são combinadas com a lógica AND; valores dentro de uma mesma categoria usam a lógica OR.

Exemplo : include_folders=["Inbox"] E include_senders=["user@vendor.com", "alerts@system.io"] ingere e-mails da pasta Caixa de Entrada que são enviados por user@vendor.com OU alerts@system.io.