Unity Catalog 外部ロケーションを使用したデータのロード
プレビュー
この機能はパブリックプレビュー段階です。
この記事では、データの追加 UI を使用して、 Unity Catalog 外部ロケーションを使用して Amazon S3 のデータからマネージドテーブルを作成する方法について説明します。 外部ロケーションは、クラウドストレージパスと、クラウドストレージパスへのアクセスを許可するストレージ資格情報を組み合わせたオブジェクトです。
Databricks では、 Unity Catalog 外部ロケーションを使用してクラウドオブジェクトストレージ内のデータにアクセスすることをお勧めします。 レガシー S3 テーブルのインポート ページでは、レガシー Hive metastore でのテーブルの作成のみがサポートされており、インスタンスプロファイルを使用するコンピュートリソースを選択する必要があります。
始める前に
開始する前に、次のものが必要です。
Unity Catalog が有効になっているワークスペース。 詳細については、「 Unity Catalog の設定と管理」を参照してください。
外部ロケーションに対する
READ FILES
権限。 詳細については、 「クラウド ストレージを Databricks に接続するための外部ロケーションを作成する」を参照してください。マネージドテーブルを作成するスキーマに対する
CREATE TABLE
権限、スキーマに対するUSE SCHEMA
権限、および親カタログに対するUSE CATALOG
権限。 詳細については、「 Unity Catalog 特権とセキュリティ保護可能なオブジェクト」を参照してください。
ステップ 1: 外部ロケーションへのアクセスを確認する
外部ロケーションへのアクセスを確認するには、次の手順を実行します。
Databricks ワークスペースのサイドバーで、 [カタログ] をクリックします。
カタログエクスプローラで、「外部データ」(External Data) >「外部ロケーション」(External Locations) をクリックします。
ステップ 2: マネージドテーブルを作成する
マネージドテーブルを作成するには、次の操作を行います。
ワークスペースのサイドバーで、[ + 新規 ] > [データの追加] をクリックします。
データの追加 UI で、[ Amazon S3] をクリックします。
ドロップダウン リストから外部ロケーションを選択します。
Databricks に読み込むフォルダーとファイルを選択し、[ テーブルのプレビュー] をクリックします。
ドロップダウンリストからカタログとスキーマを選択します。
(任意)テーブル名を編集します。
(オプション)ファイルの種類ごとに詳細な形式オプションを設定するには、[ 詳細属性] をクリックし、[ ファイルの種類を自動的に検出する] をオフにして、ファイルの種類を選択します。
形式オプションの一覧については、次のセクションを参照してください。
(オプション)列名を編集するには、列の上部にある入力ボックスをクリックします。
列名では、カンマ、バックスラッシュ、Unicode 文字 (絵文字など) はサポートされていません。
(オプション)列タイプを編集するには、タイプのアイコンをクリックします。
[テーブルを作成] をクリックします。
ファイル・タイプ・フォーマット・オプション
ファイルの種類に応じて、次の形式オプションを使用できます。
フォーマット・オプション |
説明 |
サポートされているファイルの種類 |
---|---|---|
|
列間の区切り文字。 1 文字のみが許可され、バックスラッシュはサポートされていません。 デフォルトはカンマです。 |
CSV |
|
データの解析時に使用するエスケープ文字。 デフォルトは引用符です。 |
CSV |
|
このオプションは、ファイルにヘッダーが含まれているかどうかを指定します。 デフォルトでは有効になっています。 |
CSV |
|
ファイルの種類を自動的に検出します。 デフォルトは |
XMLの |
|
ファイルの内容から列の種類を自動的に検出します。 プレビュー テーブルでタイプを編集できます。 これを false に設定すると、すべての列の型が文字列として推論されます。 デフォルトでは有効になっています。 |
|
|
列の値がファイル内の複数行にまたがることができるかどうか。 デフォルトでは無効です。 |
|
|
複数ファイルからスキーマを推定し、各ファイルのスキーマをマージするかどうか。 デフォルトでは有効になっています。 |
CSV |
|
ファイル内でコメントを許可するかどうか。 デフォルトでは有効になっています。 |
JSON |
|
ファイル内で一重引用符を使用できるかどうか。 デフォルトでは有効になっています。 |
JSON |
|
タイムスタンプ文字列を デフォルトでは有効になっています。 |
JSON |
|
スキーマと一致しない列を保存するかどうか。 詳細については、「 レスキューされたデータ列とは」を参照してください。 デフォルトでは有効になっています。 |
|
|
要素内の属性を除外するかどうか。 デフォルトは |
XMLの |
|
属性と要素を区別するための属性の接頭辞。 デフォルトは |
XMLの |
列のデータ型
次の列データ型がサポートされています。 個々のデータ型の詳細については、「SQLデータ型」を参照してください。
データ型 |
説明 |
---|---|
|
8バイトの符号付き整数 |
|
ブール値( |
|
タイムゾーンなしの日 |
|
最大精度の |
|
8 バイトの長倍精度の浮動小数点数 |
|
文字列の値 |
|
年、月、日、時、分、秒のフィールドの値とセッションのローカル・タイムゾーンで構成される値。 |