Configurações de capacidade do driver para o driver ODBC do Databricks

Este artigo descreve como definir configurações de capacidade de driver especiais e avançadas para o driver ODBC do Databricks.

Este artigo complementa as informações nos seguintes artigos do Databricks ODBC Driver:

Para configurar uma conexão do Databricks para o driver ODBC do Databricks, você deve combinar suas configurações de recurso compute , configurações de autenticação e qualquer uma das seguintes configurações de capacidade do driver em um nome de fonte de dados (DSN) ODBC ou em uma strings de conexão sem DSN.

O uso de strings de conexão DSN ou sem DSN dependerá dos requisitos do aplicativo, ferramenta, cliente, SDK ou API de destino. Para obter exemplos de DSNs e strings de conexão sem DSN, consulte Configurações de autenticação para o driver ODBC do Databricks.

O driver ODBC Datbricks fornece as seguintes configurações de capacidade de driver especiais e avançadas.

Definir o esquema inicial no ODBC

O driver ODBC permite a você especificar o esquema definindo o Schema=<schema-name> como uma configuração de conexão. Isso é equivalente a executar USE <schema-name>.

Suporte a consultas ANSI SQL-92 em ODBC

O driver ODBC aceita consultas SQL no dialeto ANSI SQL-92 e traduz as consultas para o dialeto Databricks SQL. No entanto, se o seu aplicativo gerar o Databricks SQL diretamente ou se o seu aplicativo usar qualquer sintaxe SQL padrão que não seja a ANSI SQL-92 específica do Databricks, o Databricks recomenda que você defina UseNativeQuery=1 como uma configuração de conexão. Com essa configuração, o driver passa as consultas SQL verbatim para Databricks.

Extraia grandes resultados de consultas no ODBC

Para obter o melhor desempenho ao extrair grandes resultados de consultas, use a versão mais recente do driver ODBC que inclui as seguintes otimizações.

Serialização de setas no ODBC

O driver ODBC versão 2.6.15 e acima suporta um formato de serialização de resultados de consulta otimizado que usa Apache Arrow.

busca clouds em ODBC

O driver ODBC versão 2.6.17 e acima oferece suporte ao clouds Fetch, um recurso que busca resultados de consulta por meio do armazenamento clouds configurado em sua implantação do Databricks. Para usar clouds Fetch para extrair resultados de consulta usando esse recurso, use Databricks Runtime 8.3 ou acima.

Os resultados da consulta são carregados em um local de armazenamento DBFS interno como arquivos serializados em seta de até 20 MB. Quando o driver envia solicitações de busca após a conclusão da consulta, o Databricks gera e retorna URLs pré-assinadas para os arquivos carregados. O driver ODBC usa então as URLs para baixar os resultados diretamente do DBFS.

O Cloud Fetch é usado apenas para resultados de consulta maiores que 1 MB. Resultados menores são recuperados diretamente do Databricks.

O Databricks realiza automaticamente a coleta de lixo nos arquivos acumulados, que são marcados para exclusão após 24 horas.Esses arquivos marcados são completamente excluídos após mais 24 horas.

clouds Fetch está disponível apenas para workspace E2. Além disso, os buckets correspondentes do Amazon S3 não devem ter o versionamento habilitado. Se o controle de versão estiver ativado, você ainda poderá ativar a busca clouds seguindo as instruções em Configurações avançadas.

Para saber mais sobre a arquitetura Cloud Fetch, consulte Como alcançamos conectividade de alta largura de banda com ferramentas de BI.

Configurações avançadas

Se você tiver ativado o controle de versão do bucket S3 no DBFS root, o Databricks não poderá coletar versões mais antigas dos resultados de consulta carregados. Recomendamos definir primeiro uma política de ciclo de vida do S3 que elimine as versões mais antigas dos resultados de consulta carregados.

Para definir uma política de ciclo de vida, siga as etapas abaixo:

  1. No console AWS, acesse o serviço S3 .

  2. Clique no bucket do S3 que você usa para o armazenamento raiz do seu workspace.

  3. Abra a guia Gerenciamento e escolha Criar regra de ciclo de vida.

  4. Escolha qualquer nome para o nome da regra do ciclo de vida.

  5. Mantenha o campo prefixo vazio.

  6. Em Ações da regra do ciclo de vida, selecione Excluir permanentemente versões não atuais de objetos.

  7. Defina um valor em Dias após os objetos se tornarem não atuais. Recomendamos usar o valor 1 aqui.

  8. Clique em Criar regra.

Política de Ciclo de Vida

Ativar o registro

Para ativar o registro no driver ODBC para Windows, defina os seguintes campos no ODBC fonte de dados Administrator para o DSN relacionado:

  • Defina o campo log Level de FATAL para log apenas eventos graves até TRACE para log toda a atividade do driver.

  • Defina o campolog Path (Caminho ) como o caminho completo para a pasta onde o senhor deseja salvar os arquivos log.

  • Defina o campo Max Number Files (Número máximo de arquivos) como o número máximo de arquivos log a serem mantidos.

  • Defina o campo Max File Size como o tamanho máximo de cada arquivo log em megabytes.

Para ativar o registro em log no driver ODBC para um computador que não seja Windows, defina as seguintes propriedades nas cadeias de conexão DSN ou DSN-less relacionadas:

  • Defina a propriedade LogLevel de 1 para log apenas eventos graves até 6 para log toda a atividade do motorista.

  • Defina a propriedade LogPath como o caminho completo para a pasta onde o senhor deseja salvar os arquivos log.

  • Defina a propriedade LogFileCount como o número máximo de arquivos log a serem mantidos.

  • Defina a propriedade LogFileSize como o tamanho máximo de cada arquivo log em bytes.

Para obter mais informações, consulte as seções Configuring Logging Options on Windows e Configuring Logging Options on a Non-Windows Machine no guia do driverDatabricks JDBC .