Crie ou modifique uma tabela usando uploadde arquivos.
A página Criar ou modificar uma tabela usando uploadde arquivos permite que você upload arquivos CSV, TSV, JSON, Avro, Parquet ou de texto para criar ou sobrescrever uma tabela Delta Lake .
Você pode criar tabelas gerenciadas pelo Delta no Unity Catalog ou no Hive metastore.
- Você precisa ter acesso a um recurso computacional em execução e permissões para criar tabelas em um esquema de destino.
- Os administradores do espaço de trabalho podem desativar a página Criar ou modificar uma tabela usando upload de arquivos.
Você pode usar a interface do usuário para criar uma tabela Delta importando pequenos arquivos CSV, TSV, JSON, Avro, Parquet ou de texto do seu computador local.
- A página Criar ou modificar uma tabela usando upload de arquivo suporta o upload de até 10 arquivos por vez.
- O tamanho total dos arquivos enviados deve ser inferior a 2 gigabytes.
- O arquivo deve ser um arquivo CSV, TSV, JSON, Avro, Parquet ou de texto e ter a extensão ".csv". "TSV" (ou ".tab"), "JSON", ".avro", ".parquet", ou ".txt".
- Arquivos compactados como arquivos
zipetarnão são compatíveis.
Faça o upload do arquivo
- Clique
Novo > Adicionar ou upload dados .
- Clique em Criar ou modificar uma tabela .
- Clique em "Procurar" ou arraste e solte os arquivos diretamente na área de destino.
Os arquivos importados são carregados para um local interno seguro em sua conta, que é coletado diariamente.
Visualize, configure e crie uma tabela.
Você pode upload dados para a área de preparação sem se conectar a um recurso compute , mas precisa selecionar um recurso compute ativo para visualizar e configurar sua tabela. A interface upload de arquivos é compatível com SQL Warehouse, compute serverless e compute dedicada. clusters não são suportados.
Você pode visualizar 50 linhas de seus dados ao configurar as opções para a tabela carregada. Clique nos botões de grade ou lista sob o nome do arquivo para o esquema que as engloba.
O Databricks armazena arquivos de dados para tabelas gerenciadas nos locais configurados para o esquema que os contém. Você precisa de permissões adequadas para criar uma tabela em um esquema.
Selecione o esquema desejado para criar uma tabela fazendo o seguinte:
- Selecione um esquema.
- (Opcional) Mude o nome da tabela.
Você pode usar o menu suspenso para selecionar Overwrite existing table (Substituir tabela existente) ou Create new table (Criar nova tabela). As operações que tentam criar novas tabelas com conflitos de nome exibem uma mensagem de erro.
Você pode configurar opções ou colunas antes de criar a tabela.
Para criar a tabela, clique em Criar na parte rodapé da página.
Opções de formatação
As opções de formato dependem do formato do arquivo que você envia. Opções de formato comum aparecem na barra de cabeçalho, enquanto opções menos usadas estão disponíveis na caixa de diálogo Atributos avançados .
-
Para CSV, as seguintes opções estão disponíveis:
- A primeira linha contém o cabeçalho (ativado por padrão): esta opção especifica se o arquivo CSV/TSV contém um cabeçalho.
- Delimitador de coluna : o caractere separador entre as colunas. Somente um único caractere é permitido, e não há suporte para barra invertida. O padrão é vírgula para arquivos CSV.
- Detectar automaticamente os tipos de coluna (ativado por padrão): Detecta automaticamente os tipos de coluna a partir do conteúdo do arquivo. Você pode editar os tipos na tabela de visualização. Se isso for definido como false (falso), todos os tipos de coluna serão inferidos como
STRING. - Linhas que abrangem várias linhas (desativado por default): Indica se o valor de uma coluna pode abranger várias linhas no arquivo.
- Mesclar o esquema em vários arquivos : se deseja inferir o esquema em vários arquivos e mesclar o esquema de cada arquivo. Se desativado, o esquema de um arquivo será usado.
-
Para JSON, as seguintes opções estão disponíveis:
- Detectar automaticamente os tipos de coluna (ativado por padrão): Detecta automaticamente os tipos de coluna a partir do conteúdo do arquivo. Você pode editar os tipos na tabela de visualização. Se isso for definido como false (falso), todos os tipos de coluna serão inferidos como
STRING. - Linhas que abrangem várias linhas (ativado por default): Indica se o valor de uma coluna pode abranger várias linhas no arquivo.
- Permitir comentários (ativado por padrão): se os comentários são permitidos no arquivo.
- Permitir aspas simples (habilitado por padrão): se aspas simples são permitidas no arquivo.
- Inferir marca temporal (habilitado por padrão): se deve tentar inferir strings de marco temporal como
TimestampType.
- Detectar automaticamente os tipos de coluna (ativado por padrão): Detecta automaticamente os tipos de coluna a partir do conteúdo do arquivo. Você pode editar os tipos na tabela de visualização. Se isso for definido como false (falso), todos os tipos de coluna serão inferidos como
A visualização de dados é atualizada automaticamente quando você edita as opções de formato.
Ao fazer upload de vários arquivos, as seguintes regras se aplicam:
- As configurações do cabeçalho se aplicam a todos os arquivos. Certifique-se de que os cabeçalhos estejam consistentemente ausentes ou presentes em todos os arquivos enviados para evitar perda de dados.
- Os arquivos carregados são combinados anexando todos os dados como linhas na tabela de destino. Não há suporte para ingressar ou mesclar registros durante o carregamento de arquivos.
Nomes e tipos de colunas
Você pode editar os nomes e tipos de coluna.
- Para editar tipos, clique no ícone com o tipo.
Você não pode editar tipos aninhados para STRUCT ou ARRAY.
-
Para editar o nome da coluna, clique na caixa de entrada na parte superior da coluna.
Os nomes das colunas não aceitam vírgulas, barras invertidas ou caracteres Unicode (como emojis).
Os tipos de dados de coluna são inferidos por padrão para arquivos CSV e JSON. Você pode interpretar todas as colunas como do tipo STRING desativando Atributos avançados > Detectar tipos de coluna automaticamente .
- A inferência do esquema faz uma melhor detecção de esforço dos tipos de coluna. Alterar os tipos de coluna pode levar a alguns valores sendo convertidos em
NULLse o valor não puder ser convertido corretamente para o tipo de dados de destino. A conversão deBIGINTparaDATEouTIMESTAMPcolunas não é suportada. O Databricks recomenda que você crie uma tabela primeiro e depois transforme essas colunas usando funções SQL. - Para dar suporte a nomes de colunas de tabela com caracteres especiais, a página Criar ou modificar uma tabela usando uploadde arquivos utiliza o Mapeamento de Colunas.
- Para adicionar comentários às colunas, crie a tabela e navegue até o Explorador de Catálogo, onde você poderá adicionar comentários.
Tipos de dados suportados
A página Criar ou modificar uma tabela usando uploadde arquivos suporta os seguintes tipos de dados. Para obter mais informações sobre tipos de dados individuais, consulte Tipos de dadosSQL.
Tipo de dados | Descrição |
|---|---|
| Números inteiros de 8 bytes com valor positivo ou negativo. |
| Valores Boolean ( |
| Valores que compreendem valores de campos ano, mês e dia, sem um fuso horário. |
| Números de ponto flutuante de 8 bytes com precisão dupla. |
| Valores da string do caractere. |
| Valores que incluem os valores dos campos ano, mês, dia, hora, minuto e segundo, com o fuso horário local da sessão. |
| Valores com a estrutura descrita por uma sequência de campos. |
| Valores que compreendem uma sequência de elementos com o tipo |
| Números com precisão máxima |
Problemas conhecidos
Converter BIGINT para tipos não convertíveis como DATE, como datas no formato 'yyyy', pode causar erros.