メインコンテンツまでスキップ

データ形式のオプション

Databricks には、Apache Spark でネイティブにサポートされているすべてのデータ形式に対する組み込みのキーワードバインドがあります。 Databricks は、データとテーブルの読み取りと書き込みのデフォルトプロトコルとして Delta Lake を使用しますが、 Apache Spark は Parquetを使用します。

これらの記事では、Databricks でデータをクエリするときに使用できる多くのオプションと構成の概要について説明します。

次のデータ形式には、Apache Spark データフレームと SQL に組み込みのキーワード構成があります。

Databricks には、エクスペリメントMLflowロードするためのカスタムキーワードも用意されています。

特別な考慮事項のあるデータ形式

一部のデータ形式では、使用するために追加の構成または特別な考慮事項が必要です。

Databricks では、イメージを binary データとして読み込むことをお勧めします。
Databricks は、多くのファイル形式の圧縮ファイルを直接読み取ることができます。必要に応じて、 Databricks で圧縮ファイルを解凍することもできます。

Apache Spark データソースの詳細については、「汎用の読み込み/保存関数」および「汎用ファイルソースオプション」を参照してください。

特別な考慮事項のあるデータ形式