データ形式のオプション

Databricks には、Apache Spark でネイティブにサポートされているすべてのデータ形式に対する組み込みのキーワード バインドがあります。 Databricks では、データとテーブルの読み取りと書き込みの既定のプロトコルとして Delta Lake が使用されますが、Apache Spark では Parquet が使用されます。

これらの記事では、Databricks でデータをクエリーするときに使用できる多くのオプションと構成の概要について説明します。

次のデータ形式には、Apache Spark DataFrames と SQL の組み込みキーワード構成があります。

Databricks には、 MLflow エクスペリメントを読み込むためのカスタム キーワードも用意されています。

特別な考慮事項があるデータ形式

一部のデータ形式では、使用するために追加の構成または特別な考慮事項が必要です。

  • Databricks では、画像をbinaryデータとして読み込むことが推奨されています。

  • Hive テーブル は Apache Spark でネイティブにサポートされていますが、Databricks での構成が必要です。

  • Databricks では、多くのファイル形式の圧縮ファイルを直接読み取ることができます。 必要に応じて、Databricks で 圧縮ファイルを解凍 することもできます。

  • LZO にはコーデックのインストールが必要です。

Apache Spark データソースの詳細については、「汎用の読み込み/保存関数 」および「 汎用ファイル ソース オプション」を参照してください。