Crie ou modifique uma tabela usando o upload de arquivos
A página Criar ou modificar uma tabela usando o arquivo upload permite que o senhor upload CSV, TSV, ou JSON, Avro, Parquet, ou arquivos de texto criem ou substituam uma tabela gerenciar Delta Lake.
Você pode criar tabelas gerenciadas pelo Delta no Unity Catalog ou no Hive metastore.
Observação
Além disso, o senhor pode usar a UI de adição de dados ou COPY INTO para carregar arquivos do armazenamento em nuvem.
Importante
Você precisa ter acesso a um recurso computacional em execução e permissões para criar tabelas em um esquema de destino.
Os administradores do workspace podem desativar a página Criar ou modificar uma tabela usando o upload de arquivos.
O senhor pode usar a interface do usuário para criar uma tabela Delta importando pequenos arquivos CSV, TSV, JSON, Avro, Parquet ou de texto de seu computador local.
A página Criar ou modificar uma tabela usando upload de arquivo suporta o upload de até 10 arquivos por vez.
O tamanho total dos arquivos de upload deve ser inferior a 2 gigabytes.
O arquivo deve ser um CSV, TSV, JSON, Avro, Parquet, ou um arquivo de texto e ter a extensão ".csv", "TSV" (ou "tab"), "JSON", ".avro", ".parquet" ou ".txt".
Arquivos compactados como arquivos
zip
etar
não são compatíveis.
Fazer upload do arquivo
Clique em Novo > Adicionar dados.
Clique em Criar ou modificar uma tabela.
Clique no botão do navegador de arquivos ou arraste e solte os arquivos diretamente na zona para soltar.
Observação
Os arquivos importados são carregados para um local interno seguro em sua conta, que é coletado diariamente.
Visualizar, configurar e criar uma tabela
É possível carregar dados para a área de preparação sem se conectar aos recursos de computação, mas é necessário selecionar um recurso de computação ativo para visualizar e configurar sua tabela.
Você pode visualizar 50 linhas de seus dados ao configurar as opções para a tabela carregada. Clique nos botões de grade ou lista sob o nome do arquivo para o esquema que as engloba.
O Databricks armazena arquivos de dados para tabelas gerenciadas nos locais configurados para o esquema que os contém. Você precisa de permissões adequadas para criar uma tabela em um esquema.
Selecione o esquema desejado para criar uma tabela fazendo o seguinte:
(Somente para workspace habilitado para Unity Catalog) Você pode selecionar um catálogo ou o legado
hive_metastore
.Selecione um esquema.
(Opcional) Mude o nome da tabela.
Observação
Você pode usar o menu suspenso para selecionar Overwrite existing table (Substituir tabela existente) ou Create new table (Criar nova tabela). As operações que tentam criar novas tabelas com conflitos de nome exibem uma mensagem de erro.
Você pode configurar opções ou colunas antes de criar a tabela.
Para criar a tabela, clique em Criar na parte rodapé da página.
Opções de formato
As opções de formato dependem do formato do arquivo que você envia. Opções de formato comum aparecem na barra de cabeçalho, enquanto opções menos usadas estão disponíveis na caixa de diálogo Atributos avançados.
Para CSV, as seguintes opções estão disponíveis:
A primeira linha contém o cabeçalho (ativado por padrão): esta opção especifica se o arquivo CSV/TSV contém um cabeçalho.
Delimitador de coluna: o caractere separador entre as colunas. Somente um único caractere é permitido, e não há suporte para barra invertida. O padrão é vírgula para arquivos CSV.
Detectar automaticamente os tipos de coluna (ativado por padrão): Detecta automaticamente os tipos de coluna a partir do conteúdo do arquivo. Você pode editar os tipos na tabela de visualização. Se isso for definido como false (falso), todos os tipos de coluna serão inferidos como
STRING
.As linhas abrangem múltiplas linhas (desativado por padrão): se o valor de uma coluna pode abranger várias linhas no arquivo.
Mesclar o esquema em vários arquivos: se deseja inferir o esquema em vários arquivos e mesclar o esquema de cada arquivo. Se desativado, o esquema de um arquivo será usado.
Para JSON, as seguintes opções estão disponíveis:
Detectar automaticamente os tipos de coluna (ativado por padrão): Detecta automaticamente os tipos de coluna a partir do conteúdo do arquivo. Você pode editar os tipos na tabela de visualização. Se isso for definido como false (falso), todos os tipos de coluna serão inferidos como
STRING
.As linhas abrangem múltiplas linhas (habilitado por padrão): se o valor de uma coluna pode abranger várias linhas no arquivo.
Permitir comentários (ativado por padrão): se os comentários são permitidos no arquivo.
Permitir aspas simples (habilitado por padrão): se aspas simples são permitidas no arquivo.
Inferir marca temporal (habilitado por padrão): se deve tentar inferir strings de marco temporal como
TimestampType
.
Para JSON, as seguintes opções estão disponíveis:
Detectar automaticamente os tipos de coluna (ativado por padrão): Detecta automaticamente os tipos de coluna a partir do conteúdo do arquivo. Você pode editar os tipos na tabela de visualização. Se isso for definido como false (falso), todos os tipos de coluna serão inferidos como
STRING
.As linhas abrangem múltiplas linhas (desativado por padrão): se o valor de uma coluna pode abranger várias linhas no arquivo.
Permitir comentários Se os comentários são permitidos no arquivo.
Permitir aspas simples: se aspas simples são permitidas no arquivo.
Inferir registro de data e hora: Se o senhor deve tentar inferir o registro de data e hora strings como
TimestampType
.
A visualização de dados é atualizada automaticamente quando você edita as opções de formato.
Observação
Ao fazer upload de vários arquivos, as seguintes regras se aplicam:
As configurações do cabeçalho se aplicam a todos os arquivos. Certifique-se de que os cabeçalhos estejam consistentemente ausentes ou presentes em todos os arquivos enviados para evitar perda de dados.
Os arquivos carregados são combinados anexando todos os dados como linhas na tabela de destino. Não há suporte para ingressar ou mesclar registros durante o carregamento de arquivos.
Nomes e tipos de colunas
Você pode editar os nomes e tipos de coluna.
Para editar tipos, clique no ícone com o tipo.
Observação
Você não pode editar tipos aninhados para
STRUCT
ouARRAY
.Para editar o nome da coluna, clique na caixa de entrada na parte superior da coluna.
Os nomes das colunas não aceitam vírgulas, barras invertidas ou caracteres Unicode (como emojis).
Os tipos de dados de coluna são inferidos por padrão para arquivos CSV e JSON. Você pode interpretar todas as colunas como do tipo STRING
desativando Atributos avançados > Detectar tipos de coluna automaticamente.
Observação
A inferência do esquema faz uma melhor detecção de esforço dos tipos de coluna. Alterar os tipos de coluna pode levar a alguns valores sendo convertidos em
NULL
se o valor não puder ser convertido corretamente para o tipo de dados de destino. A conversão deBIGINT
paraDATE
ouTIMESTAMP
colunas não é suportada. O Databricks recomenda que você crie uma tabela primeiro e depois transforme essas colunas usando funções SQL.Para permitir nomes de colunas de tabela com caracteres especiais, a página Criar ou modificar uma tabela usando upload de arquivo utiliza o Column Mapping.
Para adicionar comentários às colunas, crie a tabela e navegue até o Catalog Explorer, onde você pode adicionar comentários.
Tipos de dados compatíveis
A página Criar ou modificar uma tabela utilizando transferência de arquivo é compatível com os seguintes tipos de dados. Para obter mais informações sobre tipos de dados individuais, consulte Tipos de dados SQL.
Tipo de dados |
Descrição |
---|---|
|
Números inteiros de 8 bytes com valor positivo ou negativo. |
|
Valores Boolean ( |
|
Valores que compreendem valores de campos ano, mês e dia, sem um fuso horário. |
|
Números de ponto flutuante de precisão dupla de 8 bytes. |
|
Valores da string do caractere. |
|
Valores que incluem os valores dos campos ano, mês, dia, hora, minuto e segundo, com o fuso horário local da sessão. |
|
Valores com a estrutura descrita por uma sequência de campos. |
|
Valores que compõem uma sequência de elementos com o tipo |
|
Números com precisão máxima |