Unity Catalog外部ロケーションを使用したデータの読み込み

備考

プレビュー

この記事では、データの追加 UI を使用して、外部ロケーションUnity Catalogを使用して Amazon S3 のデータからマネージドテーブルを作成する方法について説明します。外部ロケーションは、クラウドストレージパスと、クラウドストレージパスへのアクセスを承認するストレージ資格情報を組み合わせたオブジェクトです。

Databricks では、 Unity Catalog 外部ロケーションを使用してクラウドオブジェクトストレージ内のデータにアクセスすることをお勧めします。レガシー S3 テーブルのインポート ページでは、レガシー Hive metastore でのテーブルの作成のみがサポートされており、インスタンスプロファイルを使用するコンピュートリソースを選択する必要があります。

始める前に

開始する前に、次のものが必要です。

Unity Catalog が有効になっているワークスペース。詳しくは、Unity Catalogの基本操作を参照してください。
外部ロケーションに対する READ FILES 権限。詳細については、外部ロケーションに対する権限の付与を参照してください。
マネージドテーブルを作成するスキーマに対する CREATE TABLE 権限、スキーマに対する USE SCHEMA 権限、および親カタログに対する USE CATALOG 権限。詳細については、「 Unity Catalog 特権とセキュリティ保護可能なオブジェクト」を参照してください。

ファイルの種類

次のファイルタイプがサポートされています。

CSV
TSV
JSON
XML
AVRO
PARQUET

ステップ 1: 外部ロケーションへのアクセスを確認する

外部ロケーションへのアクセスを確認するには、次の手順を実行します。

Databricks ワークスペースのサイドバーで、 [カタログ] をクリックします。
カタログエクスプローラで、「 外部データ」(External Data ) >「外部ロケーション」(External Locations ) をクリックします。

ステップ 2: マネージドテーブルを作成する

マネージドテーブルを作成するには、次の操作を行います。

ワークスペースのサイドバーで、[ + 新規 ] > [データの追加 ] をクリックします。
データの追加 UI で、[ Amazon S3 ] をクリックします。
ドロップダウンリストから外部ロケーションを選択します。
Databricks に読み込むフォルダーとファイルを選択し、[ テーブルのプレビュー ] をクリックします。
ドロップダウンリストからカタログとスキーマを選択します。
（任意）テーブル名を編集します。
(オプション)ファイルの種類ごとに詳細な形式オプションを設定するには、[ 詳細属性 ] をクリックし、[ ファイルの種類を自動的に検出 する] をオフにして、ファイルの種類を選択します。

形式オプションの一覧については、次のセクションを参照してください。
(オプション)列名を編集するには、列の上部にある入力ボックスをクリックします。

列名では、カンマ、バックスラッシュ、Unicode 文字 (絵文字など) はサポートされていません。
（オプション）列タイプを編集するには、タイプのアイコンをクリックします。
[ テーブルを作成 ] をクリックします。

ファイル・タイプ・フォーマット・オプション

ファイルの種類に応じて、次の形式オプションを使用できます。

フォーマット・オプション	説明	サポートされているファイルの種類
`Column delimiter`	列間の区切り文字。 1 文字のみが許可され、バックスラッシュはサポートされていません。デフォルトはカンマです。	CSV
`Escape character`	データの解析時に使用するエスケープ文字。デフォルトは引用符です。	CSV
`First row contains the header`	このオプションは、ファイルにヘッダーが含まれているかどうかを指定します。デフォルトでは有効になっています。	CSV
`Automatically detect file type`	ファイルの種類を自動的に検出します。デフォルトは `true`です。	XML
`Automatically detect column types`	ファイルの内容から列の種類を自動的に検出します。プレビューテーブルでタイプを編集できます。これを false に設定すると、すべての列の型が文字列として推論されます。デフォルトでは有効になっています。	CSVファイル - JSONの - XML形式
`Rows span multiple lines`	列の値がファイル内の複数行にまたがることができるかどうか。デフォルトでは無効です。	CSVファイル - JSONの
`Merge the schema across multiple files`	複数ファイルからスキーマを推定し、各ファイルのスキーマをマージするかどうか。デフォルトでは有効になっています。	CSV
`Allow comments`	ファイル内でコメントを許可するかどうか。デフォルトでは有効になっています。	JSON
`Allow single quotes`	ファイル内で一重引用符が許可されているかどうか。デフォルトでは有効になっています。	JSON
`Infer timestamp`	タイムスタンプ文字列を `TimestampType`として推論するかどうか。デフォルトでは有効になっています。	JSON
`Rescued data column`	スキーマと一致しない列を保存するかどうか。詳細については、「レスキューされたデータ列とは」を参照してください。デフォルトでは有効になっています。	CSVファイル - JSONの - Avro - Parquet
`Exclude attribute`	要素内の属性を除外するかどうか。デフォルトは `false`です。	XML
`Attribute prefix`	属性と要素を区別するための属性の接頭辞。デフォルトは `_`です。	XML

列のデータ型

次の列データ型がサポートされています。個々のデータ型の詳細については、「SQLデータ型」を参照してください。

データ型	説明
`BIGINT`	8バイトの符号付き整数
`BOOLEAN`	ブール値（`true` 、 `false`）
`DATE`	タイムゾーンなしの日
`DECIMAL (P,S)`	最大精度の `P` と固定スケールの `S`を持つ数値。
`DOUBLE`	8 バイトの長倍精度の浮動小数点数
`STRING`	文字列の値
`TIMESTAMP`	年、月、日、時、分、秒のフィールドの値とセッションのローカル・タイムゾーンで構成される値。

既知の問題

複雑なデータ型の特殊文字 (バッククォートやコロンを含むキーを持つ JSON オブジェクトなど) で問題が発生する可能性があります。
一部の JSON ファイルでは、ファイルの種類として JSON を手動で選択する必要があります。ファイルを選択した後にファイルタイプを手動で選択するには、[ 詳細属性 ] をクリックし、[ ファイルタイプの自動検出 ] をオフにして、[ JSON ] を選択します。
複合型内のネストされたタイムスタンプと小数では、問題が発生する可能性があります。

始める前に​

ファイルの種類​

ステップ 1: 外部ロケーションへのアクセスを確認する​

ステップ 2: マネージドテーブルを作成する​

ファイル・タイプ・フォーマット・オプション​

列のデータ型​

既知の問題​