Pular para o conteúdo principal

Configurações de capacidade do driver para o Databricks JDBC Driver

nota

Este artigo se aplica ao driver Databricks JDBC Simba. Para o driver JDBC desenvolvido pela Databricks, consulte Databricks JDBC Driver (OSS).

Este artigo descreve como configurar os recursos especiais e avançados do driver para o driverDatabricks JDBC.

O driver JDBC da Databricks fornece as seguintes configurações especiais e avançadas de recursos do driver.

Suporte a consultas ANSI SQL-92 em JDBC

Os drivers JDBC legacy do Spark aceitam consultas SQL no dialeto ANSI SQL-92 e convertem as consultas para o dialeto Databricks SQL antes de enviá-las ao servidor. No entanto, se seu aplicativo gera Databricks SQL diretamente ou seu aplicativo usa qualquer sintaxe SQL padrão não-ANSI SQL-92 específica para Databricks, Databricks recomenda que você defina UseNativeQuery=1 como uma configuração de conexão. Com essa configuração, o driver passa as consultas SQL verbatim para Databricks.

Catálogo e esquema padrão

Para especificar o catálogo e esquema padrão, adicione ConnCatalog=<catalog-name>;ConnSchema=<schema-name> na URL de conexão JDBC.

Extrair grandes resultados de consultas em JDBC

Para obter o melhor desempenho ao extrair resultados de consultas extensas, utilize a versão mais recente do driver JDBC, que incorpora as seguintes otimizações.

Serialização de setas em JDBC

JDBC O driver versão 2.6.16 e o acima oferecem suporte a um formato otimizado de serialização de resultados de consulta que usa Apache Arrow.

Cloud Fetch em JDBC

O driver JDBC versão 2.6.19e acima oferece suporte ao Cloud Fetch, um recurso que busca resultados de consultas por meio do armazenamento em nuvem configurado em sua implantação do Databricks.

Os resultados das consultas são carregados em um DBFS local de armazenamento interno do como arquivos serializados da Arrow de até 20 MB. Quando o driver envia solicitações de busca após a conclusão da consulta, o site Databricks gera e retorna URLs predefinidos para os arquivos de upload. O driver JDBC usa então os URLs para download os resultados diretamente de DBFS.

O Cloud Fetch é usado apenas para resultados de consulta maiores que 1 MB. Resultados menores são recuperados diretamente do Databricks.

O Databricks coleta automaticamente os arquivos acumulados que são marcados para exclusão após 24 horas. Esses arquivos marcados são completamente excluídos após mais 24 horas.

O Cloud Fetch está disponível apenas no espaço de trabalho do E2. Além disso, os buckets correspondentes do Amazon S3 não devem ter o controle de versão ativado. Se você tiver o controle de versão ativado, ainda poderá ativar o Cloud Fetch seguindo as instruções em Configurações avançadas.

Para saber mais sobre a arquitetura Cloud Fetch, consulte Como alcançamos conectividade de alta largura de banda com ferramentas de BI.

Configurações avançadas

Se o senhor tiver ativado o controle de versão do bucketS3 em seu DBFS rooto site Databricks não poderá coletar versões mais antigas dos resultados da consulta de upload. Recomendamos que o senhor defina primeiro uma política de ciclo de vida S3 que elimine as versões mais antigas dos resultados da consulta de upload.

Para definir uma política de ciclo de vida, siga as etapas abaixo:

  1. No console AWS, acesse o serviço S3 .
  2. Clique no bucketS3 que o senhor usa para o armazenamento raiz do workspace.
  3. Abra a guia Gerenciamento e escolha Criar regra de ciclo de vida .
  4. Escolha qualquer nome para o nome da regra do ciclo de vida .
  5. Mantenha o campo prefixo vazio.
  6. Em Ações da regra do ciclo de vida , selecione Excluir permanentemente versões não atuais de objetos .
  7. Defina um valor em Dias após os objetos se tornarem não atuais . Recomendamos usar o valor 1 aqui.
  8. Clique em Criar regra .

Política de Ciclo de Vida

Ativar registro

Para ativar o registro no driver JDBC, defina a propriedade LogLevel de 1 para log apenas eventos graves até 6 para log toda a atividade do driver. Defina a propriedade LogPath como o caminho completo para a pasta onde o senhor deseja salvar os arquivos log.

Para obter mais informações, consulte a seção Configuring Logging no guia do driverDatabricks JDBC.