Amazon S3 Select

Amazon S3 Select では、オブジェクトから必要なデータのみを取得できます。 Databricks S3 Selectコネクタは、S3 Selectを活用するApache Sparkデータソースを提供します。S3 Selectデータソースを使う際、データフレームに対するフィルターや列選択はプッシュダウンされ、S3のデータ帯域を節約できます。

備考

実験段階

従来のクエリフェデレーションのドキュメントは廃止されており、更新されない可能性があります。このコンテンツに記載されている構成は、Databricks によって公式に承認またはテストされたものではありません。レイクハウスフェデレーションがソースデータベースをサポートしている場合、Databricks代わりにそれを使用することをお勧めします。

制限

Amazon S3 Select は、次のファイル形式をサポートしています。

CSV ファイルと JSON ファイル
UTF-8 エンコーディング
GZIPまたは圧縮なし

Databricks S3 Select コネクタには、次の制限があります。

複合型 (配列とオブジェクト) は JSON では使用できません
スキーマ推論はサポートされていません
ファイル分割はサポートされていませんが、複数行レコードはサポートされています
DBFS マウント・ポイントはサポートされていません

important

Databricksでは、Databricksランタイムのs3a://、s3://、s3n://ファイルシステムスキーマのデフォルトである、Databricksで提供されるS3AFileSystemを使用することを強くお勧めします。S3AFileSystemへの移行についてサポートが必要な場合は、Databricks サポートまたは Databricks アカウントチームにお問い合わせください。

使い方

Scala
SQL

Scala
sc.read.format("s3select").schema(...).options(...).load("s3://bucket/filename")

SQL
CREATE TABLE name (...) USING S3SELECT LOCATION 's3://bucket/filename' [ OPTIONS (...) ]

ファイル名の拡張子が .csv または .jsonの場合、形式は自動的に検出されます。それ以外の場合は、 FileFormat オプションを指定する必要があります。

オプション

このセクションでは、すべてのファイルタイプのオプションと、CSV と JSON に固有のオプションについて説明します。

汎用オプション

オプション名	デフォルト値	説明
ファイル形式	'自動'	入力ファイルの種類 ('auto'、'csv'、または 'JSON')
CompressionType	「なし」	入力ファイルで使用される圧縮コーデック ('none' または 'gzip')

CSV 固有のオプション

オプション名	デフォルト値	説明
nullValue	''	入力の null 値を表す文字列
Header	false	入力の最初の行をスキップするかどうか (潜在的なヘッダーの内容は無視されます)
Comment	'#'	このパラメーターの値で始まる行は無視されます
RecordDelimiter	'n'	ファイル内のレコードを区切る文字
Delimiter	','	レコード内のフィールドを区切る文字
Quote	'”'	予約文字を含む値を引用符で囲むために使用される文字
Escape	'”'	引用符で囲まれた文字をエスケープするために使用される文字
AllowQuotedRecordDelimiter	false	値に引用符で囲まれたレコード区切り記号を含めることができるかどうか

JSON固有のオプション

オプション名	デフォルト値	説明
Type	document	入力のタイプ ('document' または 'lines')

S3 認証

Databricksで利用可能なS3 認証方法(キーとインスタンスプロファイル)を使用できます。インスタンスプロファイルを使用することをお勧めします。資格情報を提供するには、次の 3 つの方法があります。

デフォルトの資格情報プロバイダーチェーン(推奨オプション): AWS 認証情報は、 DefaultAWSCredentialsProviderChain を通じて自動的に取得されます。インスタンスプロファイルを使用して S3 への認証を行う場合は、この方法を使用する必要があります。資格情報を提供する他の方法 (方法 2 と 3) は、このデフォルトよりも優先されます。
Hadoop conf でキーを設定します。 Hadoop 設定プロパティで AWS キーを指定します。

important

AWS キーを使用して S3 にアクセスする場合は、次の例に示すように、常に設定プロパティ [ fs.s3n.awsAccessKeyId ] と [ fs.s3n.awsSecretAccessKey ] を設定します。プロパティ fs.s3a.access.key と fs.s3a.secret.key はサポートされていません 。
s3a:// ファイルシステムを参照するには、Hadoop XML 設定ファイルで fs.s3n.awsAccessKeyId プロパティと fs.s3n.awsSecretAccessKey プロパティを設定するか、sc.hadoopConfiguration.set() を呼び出して Spark のグローバル Hadoop 設定を設定します。
Scala
```
sc.hadoopConfiguration.set("fs.s3n.awsAccessKeyId", "$AccessKey")
sc.hadoopConfiguration.set("fs.s3n.awsSecretAccessKey", "$SecretKey")
```
Python
```
sc._jsc.hadoopConfiguration().set("fs.s3n.awsAccessKeyId", ACCESS_KEY)
sc._jsc.hadoopConfiguration().set("fs.s3n.awsSecretAccessKey", SECRET_KEY)
```

URI のキーをエンコード する: たとえば、URI s3a://$AccessKey:$SecretKey@bucket/path/to/dir はキーペア (AccessKey、 SecretKey) をエンコードします。

制限​

使い方​

オプション​

汎用オプション​

CSV 固有のオプション​

JSON固有のオプション​

S3 認証​

制限

使い方

オプション

汎用オプション

CSV 固有のオプション

JSON固有のオプション

S3 認証