Configurações de capacidade do driver para o driver ODBC do Databricks (Simba)

Esta página descreve como configurar as definições de capacidade especiais e avançadas do driver ODBC da Databricks.

O driver ODBC da Databricks fornece as seguintes configurações especiais e avançadas de recursos do driver.

Definir o esquema inicial no ODBC
tags de consulta para acompanhamento
Suporte a consultas ANSI SQL-92 em ODBC
Extrair grandes resultados de consultas em ODBC
Serialização de setas no ODBC
Cloud Fetch em ODBC
Considerações sobre versionamento de buckets S3
Ativar registro

Definir o esquema inicial no ODBC

O driver ODBC permite a você especificar o esquema definindo o Schema=<schema-name> como uma configuração de conexão. Isso é equivalente a executar USE <schema-name>.

tags de consulta para acompanhamento

info

Visualização

Este recurso está em Visualização Privada. Para solicitar acesso, entre em contato com sua equipe account .

Adicione tags key-valor às suas consultas SQL para fins de acompanhamento e análise. tags de consulta aparecem na tabela system.query.history para identificação e análise de consultas.

Para adicionar tags de consulta à sua conexão, inclua o parâmetro ssp_query_tags na configuração da sua conexão ODBC:

Defina tags de consulta como pares key-valor separados por vírgulas, onde cada key e valor são separados por dois pontos. Por exemplo, ssp_query_tags=team:engineering,env:prod.

Suporte a consultas ANSI SQL-92 em ODBC

Os drivers ODBC legados Spark aceitam consultas SQL no dialeto ANSI SQL-92 e as traduzem para Databricks SQL antes de enviá-las ao servidor.

Se o seu aplicativo gera Databricks SQL diretamente ou usa sintaxe SQL-92 não ANSI específica do Databricks, defina UseNativeQuery=1 na sua configuração de conexão. Essa configuração envia as consultas SQL literalmente para o Databricks, sem tradução.

Extrair grandes resultados de consultas em ODBC

Para obter o melhor desempenho ao extrair resultados de consultas extensas, utilize a versão mais recente do driver ODBC, que inclui as seguintes otimizações.

Serialização de setas no ODBC

ODBC A versão 2.6.15 do driver e o acima oferecem suporte a um formato otimizado de serialização de resultados de consulta que usa Apache Arrow.

Cloud Fetch em ODBC

O driver ODBC versão 2.6.17 e superior suporta o Cloud Fetch, uma funcionalidade que busca resultados de consultas através do armazenamento cloud configurado na sua implementação Databricks .

Ao executar uma consulta, Databricks carrega os resultados para um local de armazenamentoDBFS interno como arquivos serializados em Arrow de até 20 MB. Após a conclusão da consulta, o driver envia solicitações de busca e Databricks retorna URLs pré-assinadas para os arquivos de upload. O driver utiliza então esses URLs para download os resultados diretamente do DBFS.

O recurso Cloud Fetch só se aplica a resultados de consulta maiores que 1 MB. O driver recupera resultados menores diretamente do Databricks.

O Databricks coleta automaticamente o lixo dos arquivos acumulados, marcando-os para exclusão após 24 horas e excluindo-os permanentemente após mais 24 horas.

O Cloud Fetch requer um workspace E2 e um bucket Amazon S3 sem controle de versão ativado. Se você tiver o controle de versão ativado, consulte Configurações avançadas para habilitar o Cloud Fetch.

Para saber mais sobre a arquitetura Cloud Fetch, consulte Como alcançamos conectividade de alta largura de banda com ferramentas de BI.

Considerações sobre versionamento de buckets S3

O Cloud Fetch grava conjuntos de resultados temporários no armazenamento interno workspace ( DBFS root do seu workspace). Se você habilitar o versionamento de buckets S3, o Databricks não poderá coletar versões antigas desses arquivos após o período de retenção de 24 horas. Isso pode levar a um crescimento exponencial do armazenamento, à medida que versões desatualizadas dos arquivos se acumulam.

A Databricks recomenda configurar uma política de ciclo de vida do S3 de um dia para eliminar automaticamente as versões desatualizadas.

Para definir uma política de ciclo de vida:

No console AWS, acesse o serviço S3 .
Clique no bucketS3 que o senhor usa para o armazenamento raiz do workspace.
Abra a tab Gerenciamento e clique em Criar regra de ciclo de vida .
Insira um nome para a regra do ciclo de vida .
Mantenha o campo prefixo vazio.
Em Ações da regra do ciclo de vida , selecione Excluir permanentemente versões não atuais de objetos .
Defina um valor em "Dias após os objetos deixarem de ser atuais" . A Databricks recomenda o uso de 1 dia.
Clique em Criar regra .

Ativar registro

Para habilitar o registro no driver ODBC, defina a propriedade LogLevel para um valor entre 1 (somente eventos graves) e 6 (toda a atividade do driver). Defina a propriedade LogPath para o caminho completo da pasta onde você deseja salvar os arquivos de log.

Para obter mais informações, consulte "Configurando opções de registro em um computador que não seja Windows" no guia do driver ODBC Databricks .

Definir o esquema inicial no ODBC​

tags de consulta para acompanhamento​

Suporte a consultas ANSI SQL-92 em ODBC​

Extrair grandes resultados de consultas em ODBC​

Serialização de setas no ODBC​

Cloud Fetch em ODBC​

Considerações sobre versionamento de buckets S3​

Ativar registro​