Auto Loader オプション
cloudFiles
ソースに固有の構成オプションには、他の構造化ストリーミングソースオプションとは別の名前空間に存在するように、 cloudFiles
プレフィックスが付けられます。
一般的な Auto Loader オプション
ディレクトリリストまたはファイル通知モードについては、次のオプションを構成できます。
オプション |
---|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
ディレクトリ リスト オプション
以下のオプションは、ディレクトリリストモードに関連するものです。
オプション |
---|
|
ファイル通知オプション
以下のオプションは、ファイル通知モードに関連するものです。
オプション |
---|
|
|
|
|
(1) Auto Loaderは、デフォルトではベストエフォートベースで次のキーと値のタグのペアを追加します。
vendor
:Databricks
path
: データが読み込まれる場所。ラベル付けの制限のため、GCPでは使用できません。checkpointLocation
: ストリームのチェックポイントの場所。ラベル付けの制限のため、GCPでは使用できません。streamId
: ストリームのグローバル一意識別子。
これらのキー名は予約されており、その値を上書きすることはできません。
ファイル形式オプション
Auto Loaderを使用すると、JSON
、CSV
、PARQUET
、AVRO
、TEXT
、BINARYFILE
、およびORC
ファイルを取り込むことができます。
- 一般的なオプション
JSON
オプションCSV
オプションXML
オプションPARQUET
オプションAVRO
オプションBINARYFILE
オプションTEXT
オプションORC
オプション
汎用オプション
次のオプションは、すべてのファイル形式に適用されます。
オプション |
---|
|
|
|
|
|
|
JSON
オプション
オプション |
---|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
CSV
オプション
オプション |
---|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
XML
オプション
オプション | 説明 | スコープ |
---|---|---|
| 行として扱う XML ファイルの行タグ。 XML | 読み取り |
| スキーマ推論に使用される行の一部を定義します。 XML 組み込み関数はこのオプションを無視します。 デフォルト: | 読み取り |
| 要素内の属性を除外するかどうか。 デフォルト: | 読み取り |
| 解析中に破損したレコードを処理するためのMode。 | 読み取り |
|
| 読み取り |
| によって作成された不正な形式の文字列を含む新しいフィールドの名前を変更できます。 | 読み取り |
| 属性と要素を区別するための属性の接頭辞。 これは、フィールド名のプレフィックスになります。 デフォルトは | 読み取り、書き込み |
| 属性要素または子要素も持つ要素内の文字データに使用されるタグ。 ユーザーはスキーマで | 読み取り、書き込み |
| 読み取り用に、指定されたエンコードタイプでXMLファイルをデコードします。 書き込み用に、保存されたXMLファイルのエンコーディング(charset)を指定します。 XML 組み込み関数はこのオプションを無視します。 デフォルト: | 読み取り、書き込み |
| 読み取られる値から周囲の空白をスキップするかどうかを定義します。 デフォルト: | 読み取り |
| 各行の XML を個別に検証するために使用されるオプションの XSD ファイルへのパス。 検証に失敗した行は、上記のように解析エラーのように扱われます。 それ以外の場合、XSD は、提供または推論されるスキーマに影響を与えません。 | 読み取り |
|
| 読み取り |
| datetime パターン形式に従うカスタム・タイム・スタンプ・フォーマット文字列。これは | 読み取り、書き込み |
| datetime パターン形式に従うタイムゾーンなしのタイムスタンプのカスタム書式指定文字列。 これは TimestampNTZType 型に適用されます。 デフォルト: | 読み取り、書き込み |
| datetime パターン形式に従うカスタム日付形式文字列。これは日付タイプに適用されます。 デフォルト: | 読み取り、書き込み |
| ロケールを IETF BCP 47 形式の言語タグとして設定します。 たとえば、 | 読み取り |
| XML ファイルのルート タグ。 たとえば、 | 書き込み |
| XML宣言の内容は、すべての出力XMLファイルの先頭、 | 書き込み |
| 書き込み時に配列値カラムの各要素を囲むXML要素の名前。 デフォルト: | 書き込み |
| null 値の文字列表現を設定します。 デフォルト: 文字列 | 読み取り、書き込み |
| ファイルに保存するときに使用する圧縮コード。 これは、大文字と小文字を区別しない既知の短縮名( | 書き込み |
| true の場合、XML 要素名の検証エラーでエラーをスローします。 たとえば、SQL フィールド名にはスペースを含めることができますが、XML 要素名にスペースを含めることはできません。 デフォルト: | 書き込み |
| rescuedDataColumn が有効な場合の大文字と小文字の区別動作を指定します。 true の場合、名前がスキーマと大文字と小文字で異なるデータ列をレスキューします。それ以外の場合は、大文字と小文字を区別しない方法でデータを読み取ります。 デフォルト: | 読み取り |
| データ型の不一致とスキーマの不一致 (列の大文字と小文字の区別を含む) が原因で解析できないすべてのデータを別の列に収集するかどうか。この列は、 Auto Loaderを使用する場合にデフォルトに含まれます。 詳細については、「 レスキューされたデータ列とは」を参照してください。 | 読み取り |
PARQUET
オプション
オプション |
---|
|
|
|
|
|
AVRO
オプション
オプション |
---|
|
|
|
|
|
BINARYFILE
オプション
バイナリファイルには追加の設定オプションはありません。
TEXT
オプション
オプション |
---|
|
|
|
ORC
オプション
オプション |
---|
|
クラウド固有のオプション
Auto Loaderには、クラウドインフラを構成するためのオプションが多数用意されています。
AWS固有のオプション
cloudFiles.useNotifications
= true
を選択し、Auto Loaderで通知サービスを設定する場合にのみ、次のオプションを指定します。
オプション |
---|
|
cloudFiles.useNotifications
= true
を選択し、すでに設定したキューをAuto Loaderで使用する場合にのみ、次のオプションを指定します。
オプション |
---|
|
AWS 認証オプション
Databricks サービスの資格情報を使用するには、次の認証オプションを指定します。
オプション |
---|
|
Databricks サービスの認証情報またはIAMロールが使用できない場合は、代わりに次の認証オプションを提供できます。
オプション |
---|
|
|
|
|
|
|
Azure 固有のオプション
cloudFiles.useNotifications
= true
を指定し、Auto Loaderに通知サービスを設定させる場合は、次のすべてのオプションに値を指定する必要があります。
オプション |
---|
|
|
|
Databricks サービス資格情報を使用できない場合は、代わりに次の認証オプションを指定できます。
オプション |
---|
|
|
|
|
自動通知セットアップは、Databricks Runtime 9.1以降を使用するAzure ChinaおよびGovernmentリージョンで利用できます。古いDBRバージョンのこれらのリージョンでファイル通知で自動ローダーを使用するには、queueName
を指定する必要があります。
cloudFiles.useNotifications
= true
を選択し、すでに設定したキューをAuto Loaderで使用する場合にのみ、次のオプションを指定します。
オプション |
---|
|
Google固有のオプション
Auto Loader は、 Databricks サービスの資格情報を活用して、通知サービスを自動的に設定できます。 Databricks サービス資格情報を使用して作成されたサービス アカウントには、「Auto Loader ファイル通知モードとは」で指定されているアクセス許可が必要です。
オプション |
---|
|
|
Databricks サービスの認証情報を利用できない場合は、Google サービス アカウントを直接使用できます。Google サービスのセットアップに従って、クラスターをサービス アカウントとして構成するか、次の認証オプションを直接提供することができます。
オプション |
---|
|
|
|
|
cloudFiles.useNotifications
= true
を選択し、すでに設定したキューをAuto Loaderで使用する場合にのみ、次のオプションを指定します。
オプション |
---|
|