Unity Catalog 外部ロケーション を使用したデータのロード

プレビュー

この機能はパブリックプレビュー段階です。

この記事では、データの追加 UI を使用して、 Unity Catalog 外部ロケーションを使用して Amazon S3 のデータからマネージドテーブルを作成する方法について説明します。 外部ロケーションは、クラウドストレージパスと、クラウドストレージパスへのアクセスを許可するストレージ資格情報を組み合わせたオブジェクトです。

外部の場所を使用してデータを読み込むその他の方法については、「 クラウド テナントに格納されているファイルからテーブルを作成する」を参照してください。

Databricks では、 Unity Catalog 外部ロケーションを使用してクラウド オブジェクト ストレージ内のデータにアクセスすることをお勧めします。 レガシー S3 テーブルのインポート ページでは、レガシー Hive metastore でのテーブルの作成のみがサポートされており、インスタンスプロファイルを使用するコンピュートリソースを選択する必要があります。

始める前に

開始する前に、次のものが必要です。

ファイルの種類

次のファイルの種類がサポートされています。

  • CSV

  • TSV

  • JSON

  • XMLの

  • AVRO

  • PARQUET

ステップ 1: 外部ロケーション へのアクセスを確認する

外部ロケーションへのアクセスを確認するには、次の手順を実行します。

  1. Databricks ワークスペースのサイドバーで、[ カタログ] をクリックします。

  2. カタログ エクスプローラで、[ 外部データ ] > [外部ロケーション] をクリックします。

ステップ 2: マネージドテーブル を作成する

マネージドテーブルを作成するには、次の手順を実行します。

  1. ワークスペースのサイドバーで、[ + 新規 ] > [ データの追加] の順にクリックします。

  2. データの追加 UI で、[ Amazon S3] をクリックします。

  3. ドロップダウン リストから外部ロケーションを選択します。

  4. Databricks に読み込むフォルダーとファイルを選択し、[ テーブルのプレビュー] をクリックします。

  5. ドロップダウン リストからカタログとスキーマを選択します。

  6. (オプション)テーブル名を編集します。

  7. (オプション)ファイルの種類ごとに詳細形式オプションを設定するには、[ 詳細属性] をクリックし、[ファイルの種類 を自動的に検出する] をオフにして、ファイルの種類を選択します。

    形式オプションの一覧については、次のセクションを参照してください。

  8. (オプション)列名を編集するには、列の上部にある入力ボックスをクリックします。

    列名には、コンマ、円記号、または Unicode 文字 (絵文字など) はサポートされていません。

  9. (オプション)列タイプを編集するには、タイプのアイコンをクリックします。

  10. [ テーブルの作成] をクリックします。

ファイルの種類の形式オプション

ファイルの種類に応じて、次の形式オプションを使用できます。

フォーマットオプション

説明

サポートされているファイルの種類

Column delimiter

列間の区切り文字。 使用できる文字は 1 つだけで、円記号はサポートされていません。

デフォルトはコンマです。

CSV

Escape character

データを解析するときに使用するエスケープ文字。

デフォルトは引用符です。

CSV

First row contains the header

このオプションは、ファイルにヘッダーが含まれているかどうかを指定します。

デフォルトで有効になっています。

CSV

Automatically detect file type

ファイルの種類を自動的に検出します。 デフォルトはtrueです。

XMLの

Automatically detect column types

ファイルの内容から列の種類を自動的に検出します。 プレビューテーブルでタイプを編集できます。 これが false に設定されている場合、すべての列型が文字列として推論されます。

デフォルトで有効になっています。

  • CSV

  • JSON

  • XMLの

Rows span multiple lines

列の値がファイル内の複数行にまたがることができるかどうか。

デフォルトでは無効になっています。

  • CSV

  • JSON

Merge the schema across multiple files

複数のファイルにまたがるスキーマを推測し、各ファイルのスキーマをマージするかどうか。

デフォルトで有効になっています。

CSV

Allow comments

ファイル内でコメントを許可するかどうか。

デフォルトで有効になっています。

JSON

Allow single quotes

ファイルで単一引用符を使用できるかどうか。

デフォルトで有効になっています。

JSON

Infer timestamp

タイムスタンプ文字列を TimestampTypeとして推論するかどうか。

デフォルトで有効になっています。

JSON

Rescued data column

スキーマに一致しない列を保存するかどうか。 詳細については、「 レスキューされたデータ列とは」を参照してください。

デフォルトで有効になっています。

  • CSV

  • JSON

  • AVRO

  • PARQUET

Exclude attribute

要素内の属性を除外するかどうか。 デフォルトはfalseです。

XMLの

Attribute prefix

属性と要素を区別するための属性の接頭辞。 デフォルトは_です。

XMLの

列のデータ型

次の列のデータ型がサポートされています。 個々のデータ型の詳細については、「 SQL データ型」を参照してください。

データ型

説明

BIGINT

8 バイトの符号付き整数。

BOOLEAN

Boolean (truefalse) 値。

DATE

タイムゾーンなしの日

DECIMAL (P,S)

最大精度の数値 P と固定スケール S

DOUBLE

8 バイトの倍精度浮動小数点数。

STRING

文字列値。

TIMESTAMP

年、月、日、時、分、秒のフィールドの値と、セッションのローカルタイムゾーンで構成される値。

既知の問題

  • バッククォートまたはコロンを含むキーを持つ JSON オブジェクトなど、複雑なデータ型の特殊文字で問題が発生する可能性があります。

  • 一部の JSON ファイルでは、ファイルの種類として JSON を手動で選択する必要があります。 ファイルの選択後にファイルの種類を手動で選択するには、[ 詳細属性] をクリックし、[ ファイルの種類を自動的に検出する] をオフにして、[ JSON] を選択します。

  • 複合型内の入れ子になったタイムスタンプと小数で問題が発生する可能性があります。