Opções de formato de dados
Databricks integrou ligações de palavras-chave para todos os formatos de dados suportados nativamente pelo site Apache Spark. Databricks usa Delta Lake como o protocolo default para leitura e gravação de dados e tabelas, enquanto Apache Spark usa Parquet.
Esses artigos fornecem uma visão geral de muitas das opções e configurações disponíveis quando o senhor consulta dados no Databricks.
Os seguintes formatos de dados têm configurações de palavras-chave integradas em Apache Spark DataFrames e SQL:
O Databricks também fornece uma palavra-chave personalizada para carregar experimentos do MLflow.
Formatos de dados com considerações especiais
Alguns formatos de dados exigem configuração adicional ou considerações especiais para uso:
- A Databricks recomenda o carregamento de imagens como dados
binary
. - O Databricks pode ler diretamente arquivos compactados em vários formatos de arquivo. O senhor também pode descompactar arquivos compactados no Databricks, se necessário.
Para obter mais informações sobre Apache Spark fonte de dados, consulte Generic Load/Save Functions e Generic File Source Options.