Opções de formato de dados
Databricks integrou ligações de palavras-chave para todos os formatos de dados suportados nativamente pelo Apache Spark. Databricks usa Delta Lake como protocolo default para leitura e gravação de dados e tabelas, enquanto Apache Spark usa Parquet.
Estes artigos fornecem uma visão geral de muitas das opções e configurações disponíveis quando você query dados no Databricks.
Os seguintes formatos de dados têm configurações de palavras-chave integradas em Apache Spark DataFrames e SQL:
O Databricks também fornece uma palavra-chave personalizada para carregar experimentos MLflow.
Formatos de dados com considerações especiais
Alguns formatos de dados exigem configuração adicional ou considerações especiais para serem usados:
A Databricks recomenda carregar imagens como dados
binary
.Databricks pode ler diretamente arquivos compactados em vários formatos de arquivo. Você também pode descompactar arquivos compactados no Databricks, se necessário.
Para obter mais informações sobre a fonte de dados do Apache Spark, consulte Funções genéricas de carregamento/salvamento e opções genéricas de fonte de arquivo.