データ形式のオプション
Databricks には、Apache Spark でネイティブにサポートされているすべてのデータ形式に対する組み込みのキーワード バインドがあります。 Databricks は、データとテーブルの読み取りと書き込みのデフォルト プロトコルとして Delta Lake を使用しますが、 Apache Spark は Parquetを使用します。
これらの記事では、Databricks でデータをクエリするときに使用できる多くのオプションと構成の概要について説明します。
次のデータ形式には、Apache Spark データフレーム と SQL に組み込みのキーワード構成があります。
Databricks には、エクスペリメントMLflowロードするためのカスタム キーワードも用意されています。
特別な考慮事項のあるデータ形式
一部のデータ形式では、使用するために追加の構成または特別な考慮事項が必要です。
- Databricks では、 イメージ を
binary
データとして読み込むことをお勧めします。 - Databricks は、多くのファイル形式の圧縮ファイルを直接読み取ることができます。 必要に応じて、 Databricks で圧縮ファイルを解凍 することもできます。
Apache Spark データソースの詳細については、「汎用の読み込み/保存関数 」および「 汎用ファイル ソース オプション」を参照してください。