Configurações de capacidade do driver para o Databricks JDBC Driver

nota

Este artigo se aplica ao driver Databricks JDBC Simba. Para o driver JDBC desenvolvido pela Databricks, consulte Databricks JDBC Driver (OSS).

Este artigo descreve como configurar os recursos especiais e avançados do driver para o driverDatabricks JDBC.

O driver JDBC da Databricks fornece as seguintes configurações especiais e avançadas de recursos do driver.

Suporte a consultas ANSI SQL-92 em JDBC
Catálogo e esquema padrão
tags de consulta para acompanhamento
Extrair grandes resultados de consultas em JDBC
Serialização de setas em JDBC
Cloud Fetch em JDBC
Configurações avançadas
Ativar registro

Suporte a consultas ANSI SQL-92 em JDBC

Os drivers JDBC legacy do Spark aceitam consultas SQL no dialeto ANSI SQL-92 e convertem as consultas para o dialeto Databricks SQL antes de enviá-las ao servidor. No entanto, se seu aplicativo gera Databricks SQL diretamente ou seu aplicativo usa qualquer sintaxe SQL padrão não-ANSI SQL-92 específica para Databricks, Databricks recomenda que você defina UseNativeQuery=1 como uma configuração de conexão. Com essa configuração, o driver passa as consultas SQL verbatim para Databricks.

Catálogo e esquema padrão

Para especificar o catálogo e esquema padrão, adicione ConnCatalog=<catalog-name>;ConnSchema=<schema-name> na URL de conexão JDBC.

tags de consulta para acompanhamento

info

Visualização

Este recurso está em Visualização Privada. Para solicitar acesso, entre em contato com sua equipe account .

Você pode anexar tags de key-valor às suas consultas SQL para fins de acompanhamento e análise. As tags de consulta aparecem na tabela system.query.history para identificação e análise de consulta.

Para adicionar tags de consulta à sua conexão, inclua o parâmetro ssp_query_tags no URL da sua conexão JDBC:

jdbc:databricks://<server-hostname>:443;httpPath=<http-path>;ssp_query_tags=key1:value1,key2:value2

Defina tags de consulta como par key-valor separados por vírgula, onde cada key e valor são separados por dois pontos, por exemplo, key1:value1,key2:value2.

Extrair grandes resultados de consultas em JDBC

Para obter o melhor desempenho ao extrair resultados de consultas extensas, utilize a versão mais recente do driver JDBC, que incorpora as seguintes otimizações.

Serialização de setas em JDBC

JDBC O driver versão 2.6.16 e o acima oferecem suporte a um formato otimizado de serialização de resultados de consulta que usa Apache Arrow.

Cloud Fetch em JDBC

O driver JDBC versão 2.6.19e acima oferece suporte ao Cloud Fetch, um recurso que busca resultados de consultas por meio do armazenamento em nuvem configurado em sua implantação do Databricks.

Os resultados das consultas são carregados em um DBFS local de armazenamento interno do como arquivos serializados da Arrow de até 20 MB. Quando o driver envia solicitações de busca após a conclusão da consulta, o site Databricks gera e retorna URLs predefinidos para os arquivos de upload. O driver JDBC usa então os URLs para download os resultados diretamente de DBFS.

O Cloud Fetch é usado apenas para resultados de consulta maiores que 1 MB. Resultados menores são recuperados diretamente do Databricks.

O Databricks coleta automaticamente os arquivos acumulados que são marcados para exclusão após 24 horas. Esses arquivos marcados são completamente excluídos após mais 24 horas.

O Cloud Fetch está disponível apenas no espaço de trabalho do E2. Além disso, os buckets correspondentes do Amazon S3 não devem ter o controle de versão ativado. Se você tiver o controle de versão ativado, ainda poderá ativar o Cloud Fetch seguindo as instruções em Configurações avançadas.

Para saber mais sobre a arquitetura Cloud Fetch, consulte Como alcançamos conectividade de alta largura de banda com ferramentas de BI.

Configurações avançadas

Se o senhor tiver ativado o controle de versão do bucketS3 em seu DBFS rooto site Databricks não poderá coletar versões mais antigas dos resultados da consulta de upload. Recomendamos que o senhor defina primeiro uma política de ciclo de vida S3 que elimine as versões mais antigas dos resultados da consulta de upload.

Para definir uma política de ciclo de vida, siga as etapas abaixo:

No console AWS, acesse o serviço S3 .
Clique no bucketS3 que o senhor usa para o armazenamento raiz do workspace.
Abra a guia Gerenciamento e escolha Criar regra de ciclo de vida .
Escolha qualquer nome para o nome da regra do ciclo de vida .
Mantenha o campo prefixo vazio.
Em Ações da regra do ciclo de vida , selecione Excluir permanentemente versões não atuais de objetos .
Defina um valor em Dias após os objetos se tornarem não atuais . Recomendamos usar o valor 1 aqui.
Clique em Criar regra .

Política de Ciclo de Vida

Ativar registro

Para ativar o registro no driver JDBC, defina a propriedade LogLevel de 1 para log apenas eventos graves até 6 para log toda a atividade do driver. Defina a propriedade LogPath como o caminho completo para a pasta onde o senhor deseja salvar os arquivos log.

Para obter mais informações, consulte a seção Configuring Logging no guia do driverDatabricks JDBC.

Suporte a consultas ANSI SQL-92 em JDBC​

Catálogo e esquema padrão​

tags de consulta para acompanhamento​

Extrair grandes resultados de consultas em JDBC​

Serialização de setas em JDBC​

Cloud Fetch em JDBC​

Configurações avançadas​

Ativar registro​