Auto Loader オプション
cloudFiles
ソースに固有の構成オプションには、他の構造化ストリーミングソースオプションとは別の名前空間に存在するように、 cloudFiles
プレフィックスが付けられます。
一般的な Auto Loader オプション
ディレクトリリストまたはファイル通知モードについては、次のオプションを構成できます。
オプション |
---|
タイプ: 入力ディレクトリファイルの変更が既存のデータを上書きすることを許可するかどうか。 この設定を有効にすることに関しては、いくつかの注意点があります。「ファイルが追加または上書きされた場合、Auto Loaderはファイルを再度処理しますか?」を参照してください。 デフォルト: |
タイプ: Auto Loader 、特定の間隔で非同期バックフィルをトリガーできます (たとえば、1 日に 1 回バックフィルする デフォルト: なし |
タイプ: 処理されたファイルを入力ディレクトリから自動的に削除するかどうか。
「 ファイルは、 注: ソースの場所から複数のストリームを消費するデータがある場合は Databricks 、最も速いコンシューマーがファイルを削除し、より遅いソースにはファイルが取り込まれないため、このオプションを使用することはお勧めしません。 注: この機能を有効にするには、 Auto Loader チェックポイントで追加の状態を維持する必要があり、パフォーマンスのオーバーヘッドが発生しますが、 注: Databricks Runtime 16.4 以降で使用できます。 デフォルト: OFF |
タイプ: 処理されたファイルが Databricks Runtime 16.4 以降で使用できます。 デフォルト値: 30 日 |
タイプ: 処理済みファイルをアーカイブするパス ( 移動場所は、次のように制限されます。
Auto Loader このディレクトリへの書き込み権限が必要です。 Databricks Runtime 16.4 以降で使用できます。 デフォルト値: なし |
タイプ: ソース・パスのデータ ・ファイル形式 。 使用できる値は次のとおりです。
デフォルト: なし (必須オプション) |
タイプ: ストリーム処理入力パスに既存のファイルを含めるか、初期セットアップ後に到着する新しいファイルのみを処理するかどうか。このオプションは、初めてストリームを開始するときにのみ評価されます。ストリームの再開後にこのオプションを変更しても効果はありません。 デフォルト: |
タイプ: スキーマ推論を利用するときに正確な列の型を推論するかどうか。 デフォルトでは、JSON データセットと CSV データセットを推論するときに、列は文字列として推論されます。 詳細については、 スキーマ推論 を参照してください。 デフォルト: |
タイプ: 各トリガーで処理される新しいバイトの最大数。 デフォルト: なし |
タイプ: 重複排除の目的でファイル イベントが追跡される期間。 Databricks では、1 時間に数百万のファイル単位でデータを取り込んでいる場合を除き、このパラメーターの調整はお勧めしません。 詳細については、 イベントの保持 に関するセクションを参照してください。
デフォルト: なし |
タイプ: 各トリガーで処理される新しいファイルの最大数。 デフォルト: 1000 |
タイプ: ファイルのディレクトリ構造から推測するHiveスタイルのパーティション列のコンマ区切りリスト。Hive スタイルのパーティション列は、
デフォルト: なし |
タイプ: データ内で新しい列が検出されたときにスキーマを進化させるモード。 デフォルトでは、JSON データセットを推論するときに、列は文字列として推論されます。 詳細については、「 スキーマ進化 」を参照してください。 デフォルト: スキーマが提供されない場合 |
タイプ: スキーマ推論中に Auto Loader に提供するスキーマ情報。 詳細については、スキーマのヒントを参照してください。 デフォルト: なし |
タイプ: 推論されたスキーマとその後の変更を格納する場所。 詳細については、 スキーマ推論 を参照してください。 デフォルト: なし (スキーマを推論するために必要) |
タイプ: で他のファイル ソースのデフォルト グロビング動作と一致する厳密な を使用するかどうかglobberApache Spark詳細については、「 一般的なデータ読み込みパターン 」を参照してください。 Databricks Runtime 12.2 LTS 以降で使用できます。 デフォルト: |
タイプ: Auto Loaderオプションを検証し、不明なオプションまたは一貫性のないオプションに対してエラーを返すかどうか。 デフォルト: |
ディレクトリ リスト オプション
以下のオプションは、ディレクトリリストモードに関連するものです。
オプション |
---|
タイプ: この機能は非推奨になりました。Databricks では、 ディレクトリ・リスト・モードでフル・リストではなく、インクリメンタル・リストを使用するかどうか。 デフォルトにより、 Auto Loader は、特定のディレクトリがインクリメンタル リストに適用可能かどうかを自動的に検出するために最善の努力を払います。 増分リストを明示的に使用することも、ディレクトリ全体をそれぞれ 語彙的に順序付けられていないディレクトリでインクリメンタルリストを誤って有効にすると、 Auto Loader 新しいファイルを検出できなくなります。 Azure データレイク Storage ( Databricks Runtime 9.1 LTS 以降で使用できます。 デフォルト: 使用可能な値: |
ファイル通知オプション
以下のオプションは、ファイル通知モードに関連するものです。
オプション |
---|
タイプ: キューイングサービスからメッセージを取得するときに使用するスレッドの数。 デフォルト: 1 |
タイプ:JSON文字列 複数のS3バケットからファイル通知を受け取る デフォルト: なし |
タイプ: 関連リソースの関連付けと識別に役立つ一連のキーと値のタグのペア。次に例を示します。
AWSの詳細については、「SQS コスト配分タグAmazon」および「Amazon SNS トピックのタグの構成」を参照してください。(1) Azureの詳細については、「キューとメタデータの名前付け」および「イベント サブスクリプションの GCPの詳細については、「ラベルを使用した使用状況のレポート」を参照してください。(1) デフォルト: なし |
タイプ: ファイル通知モードを使用して、新しいファイルがいつ存在するかを判断するかどうか。 デフォルト: |
(1) Auto Loaderは、デフォルトではベストエフォートベースで次のキーと値のタグのペアを追加します。
vendor
:Databricks
path
: データが読み込まれる場所。ラベル付けの制限のため、GCPでは使用できません。checkpointLocation
: ストリームのチェックポイントの場所。ラベル付けの制限のため、GCPでは使用できません。streamId
: ストリームのグローバル一意識別子。
これらのキー名は予約されており、その値を上書きすることはできません。
ファイル形式オプション
Auto Loaderを使用すると、JSON
、CSV
、PARQUET
、AVRO
、TEXT
、BINARYFILE
、およびORC
ファイルを取り込むことができます。
- 一般的なオプション
JSON
オプションCSV
オプションXML
オプションPARQUET
オプションAVRO
オプションBINARYFILE
オプションTEXT
オプションORC
オプション
汎用オプション
次のオプションは、すべてのファイル形式に適用されます。
オプション |
---|
|
|
|
|
|
|
JSON
オプション
オプション |
---|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
CSV
オプション
オプション |
---|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
XML
オプション
オプション | 説明 | スコープ |
---|---|---|
| 行として扱う XML ファイルの行タグ。 XML | 読み取り |
| スキーマ推論に使用される行の一部を定義します。 XML 組み込み関数はこのオプションを無視します。 デフォルト: | 読み取り |
| 要素内の属性を除外するかどうか。 デフォルト: | 読み取り |
| 解析中に破損したレコードを処理するためのMode。 | 読み取り |
|
| 読み取り |
| によって作成された不正な形式の文字列を含む新しいフィールドの名前を変更できます。 | 読み取り |
| 属性と要素を区別するための属性の接頭辞。 これは、フィールド名のプレフィックスになります。 デフォルトは | 読み取り、書き込み |
| 属性要素または子要素も持つ要素内の文字データに使用されるタグ。 ユーザーはスキーマで | 読み取り、書き込み |
| 読み取り用に、指定されたエンコードタイプでXMLファイルをデコードします。 書き込み用に、保存されたXMLファイルのエンコーディング(charset)を指定します。 XML 組み込み関数はこのオプションを無視します。 デフォルト: | 読み取り、書き込み |
| 読み取られる値から周囲の空白をスキップするかどうかを定義します。 デフォルト: | 読み取り |
| 各行の XML を個別に検証するために使用されるオプションの XSD ファイルへのパス。 検証に失敗した行は、上記のように解析エラーのように扱われます。 それ以外の場合、XSD は、提供または推論されるスキーマに影響を与えません。 | 読み取り |
|
| 読み取り |
| datetime パターン形式に従うカスタム・タイム・スタンプ・フォーマット文字列。これは | 読み取り、書き込み |
| datetime パターン形式に従うタイムゾーンなしのタイムスタンプのカスタム書式指定文字列。 これは TimestampNTZType 型に適用されます。 デフォルト: | 読み取り、書き込み |
| datetime パターン形式に従うカスタム日付形式文字列。これは日付タイプに適用されます。 デフォルト: | 読み取り、書き込み |
| ロケールを IETF BCP 47 形式の言語タグとして設定します。 たとえば、 | 読み取り |
| XML ファイルのルート タグ。 たとえば、 | 書き込み |
| XML宣言の内容は、すべての出力XMLファイルの先頭、 | 書き込み |
| 書き込み時に配列値カラムの各要素を囲むXML要素の名前。 デフォルト: | 書き込み |
| null 値の文字列表現を設定します。 デフォルト: 文字列 | 読み取り、書き込み |
| ファイルに保存するときに使用する圧縮コード。 これは、大文字と小文字を区別しない既知の短縮名( | 書き込み |
| true の場合、XML 要素名の検証エラーでエラーをスローします。 たとえば、SQL フィールド名にはスペースを含めることができますが、XML 要素名にスペースを含めることはできません。 デフォルト: | 書き込み |
| rescuedDataColumn が有効な場合の大文字と小文字の区別動作を指定します。 true の場合、名前がスキーマと大文字と小文字で異なるデータ列をレスキューします。それ以外の場合は、大文字と小文字を区別しない方法でデータを読み取ります。 デフォルト: | 読み取り |
| データ型の不一致とスキーマの不一致 (列の大文字と小文字の区別を含む) が原因で解析できないすべてのデータを別の列に収集するかどうか。この列は、 Auto Loaderを使用する場合にデフォルトに含まれます。 詳細については、「 レスキューされたデータ列とは」を参照してください。 | 読み取り |
PARQUET
オプション
オプション |
---|
|
|
|
|
|
AVRO
オプション
オプション |
---|
|
|
|
|
|
BINARYFILE
オプション
バイナリファイルには追加の設定オプションはありません。
TEXT
オプション
オプション |
---|
|
|
|
ORC
オプション
オプション |
---|
|
クラウド固有のオプション
Auto Loaderには、クラウドインフラを構成するためのオプションが多数用意されています。
AWS 固有のオプション
cloudFiles.useNotifications
= true
を選択し、Auto Loaderで通知サービスを設定する場合にのみ、次のオプションを指定します。
オプション |
---|
タイプ: ソースS3バケットが存在し、AWS SNSとSQSサービスが作成されるリージョン。 デフォルト: EC2 インスタンスのリージョン。 |
cloudFiles.useNotifications
= true
を選択し、すでに設定したキューをAuto Loaderで使用する場合にのみ、次のオプションを指定します。
オプション |
---|
タイプ: SQSキューのURL。提供された場合、Auto Loaderは独自のAWS SNSとSQSサービスをセットアップする代わりに、このキューから直接イベントを消費します。 デフォルト: なし |
AWS 認証オプション
Databricks サービスの資格情報を使用するには、次の認証オプションを指定します。
オプション |
---|
タイプ: Databricks サービスの資格情報の名前。Databricks Runtime 16.2 以降で使用できます。 デフォルト: なし |
Databricks サービスの認証情報またはIAMロールが使用できない場合は、代わりに次の認証オプションを提供できます。
オプション |
---|
タイプ: ユーザーのAWSアクセスキーID。 デフォルト: なし |
タイプ: ユーザーのAWSシークレットアクセスキー。 デフォルト: なし |
タイプ: ARNIAM必要に応じて引き受ける ロールの 。このロールは、クラスターのインスタンスプロファイルから、または デフォルト: なし |
タイプ:
デフォルト: なし |
タイプ:
デフォルト: なし |
タイプ:
デフォルト: なし |
Azure 固有のオプション
cloudFiles.useNotifications
= true
を指定し、Auto Loaderに通知サービスを設定させる場合は、次のすべてのオプションに値を指定する必要があります。
オプション |
---|
タイプ: ストレージアカウントが作成されるAzureリソースグループ。 デフォルト: なし |
タイプ: リソースグループが作成されるAzureサブスクリプションID。 デフォルト: なし |
タイプ: Databricks サービスの資格情報の名前。Databricks Runtime 16.2 以降で使用できます。 デフォルト: なし |
Databricks サービス資格情報を使用できない場合は、代わりに次の認証オプションを指定できます。
オプション |
---|
タイプ: サービスプリンシパルのクライアントIDまたはアプリケーションID。 デフォルト: なし |
タイプ: サービスプリンシパルのクライアントシークレット。 デフォルト: なし |
タイプ: アカウントアクセスキーあるいは共有アクセス署名(SAS)に基づく、ストレージアカウントの接続文字列。 デフォルト: なし |
タイプ: サービスプリンシパルが作成されAzureテナントID。 デフォルト: なし |
自動通知セットアップは、Databricks Runtime 9.1以降を使用するAzure ChinaおよびGovernmentリージョンで利用できます。古いDBRバージョンのこれらのリージョンでファイル通知で自動ローダーを使用するには、queueName
を指定する必要があります。
cloudFiles.useNotifications
= true
を選択し、すでに設定したキューをAuto Loaderで使用する場合にのみ、次のオプションを指定します。
オプション |
---|
タイプ: Azure キューの名前。 指定した場合、クラウド ファイル ソースは、独自の Azure Event Grid サービスと Queue Storage サービスを設定する代わりに、このキューからイベントを直接使用します。 その場合、 デフォルト: なし |
Google 固有のオプション
Auto Loader は、 Databricks サービスの資格情報を活用して、通知サービスを自動的に設定できます。 Databricks サービス資格情報を使用して作成されたサービス アカウントには、「Auto Loader ファイル通知モードとは」で指定されているアクセス許可が必要です。
オプション |
---|
タイプ: GCSバケットが存在するプロジェクトのID。Google Cloud Pub/Subサブスクリプションもこのプロジェクト内に作成されます。 デフォルト: なし |
タイプ: Databricks サービスの資格情報の名前。Databricks Runtime 16.2 以降で使用できます。 デフォルト: なし |
Databricks サービスの認証情報を利用できない場合は、Google サービス アカウントを直接使用できます。Google サービスのセットアップに従って、クラスターをサービス アカウントとして構成するか、次の認証オプションを直接提供することができます。
オプション |
---|
タイプ: GoogleサービスアカウントのクライアントID。 デフォルト: なし |
タイプ: Googleサービスアカウントのメールアドレス。 デフォルト: なし |
タイプ: Googleサービスアカウント用に生成された秘密鍵。 デフォルト: なし |
タイプ: Googleサービスアカウント用に生成された秘密鍵のID。 デフォルト: なし |
cloudFiles.useNotifications
= true
を選択し、すでに設定したキューをAuto Loaderで使用する場合にのみ、次のオプションを指定します。
オプション |
---|
タイプ: Google Cloud Pub/Subサブスクリプションの名前。指定されている場合、クラウドファイルソースは独自のGCS通知サービスとGoogle Cloud Pub/Subサービスを設定する代わりに、このキューからのイベントを消費します。 デフォルト: なし |