Unity Catalog 外部ロケーション を使用したデータのロード
プレビュー
この機能はパブリックプレビュー段階です。
この記事では、データの追加 UI を使用して、 Unity Catalog 外部ロケーションを使用して Amazon S3 のデータからマネージドテーブルを作成する方法について説明します。 外部ロケーションは、クラウドストレージパスと、クラウドストレージパスへのアクセスを許可するストレージ資格情報を組み合わせたオブジェクトです。
外部の場所を使用してデータを読み込むその他の方法については、「 クラウド テナントに格納されているファイルからテーブルを作成する」を参照してください。
Databricks では、 Unity Catalog 外部ロケーションを使用してクラウド オブジェクト ストレージ内のデータにアクセスすることをお勧めします。 レガシー S3 テーブルのインポート ページでは、レガシー Hive metastore でのテーブルの作成のみがサポートされており、インスタンスプロファイルを使用するコンピュートリソースを選択する必要があります。
始める前に
開始する前に、次のものが必要です。
Unity Catalog が有効になっているワークスペース。 詳細については、「 Unity Catalog の設定と管理」を参照してください。
外部ロケーションに対する
READ FILES
権限。 詳細については、 「クラウド ストレージを Databricks に接続するための外部ロケーションを作成する」を参照してください。管理対象表を作成するスキーマに対する
CREATE TABLE
特権、スキーマに対するUSE SCHEMA
特権、および親カタログに対するUSE CATALOG
特権。 詳細については、「 Unity Catalog 特権とセキュリティ保護可能なオブジェクト」を参照してください。
ステップ 1: 外部ロケーションへのアクセスを確認する
外部ロケーションへのアクセスを確認するには、次の手順を実行します。
Databricks ワークスペースのサイドバーで、[ カタログ] をクリックします。
カタログ エクスプローラで、[ 外部データ ] > [外部ロケーション] をクリックします。
ステップ 2: マネージドテーブルを作成する
マネージドテーブルを作成するには、次の手順を実行します。
ワークスペースのサイドバーで、[ + 新規 ] > [ データの追加] の順にクリックします。
データの追加 UI で、[ Amazon S3] をクリックします。
ドロップダウン リストから外部ロケーションを選択します。
Databricks に読み込むフォルダーとファイルを選択し、[ テーブルのプレビュー] をクリックします。
ドロップダウン リストからカタログとスキーマを選択します。
(オプション)テーブル名を編集します。
(オプション)ファイルの種類ごとに詳細形式オプションを設定するには、[ 詳細属性] をクリックし、[ファイルの種類 を自動的に検出する] をオフにして、ファイルの種類を選択します。
形式オプションの一覧については、次のセクションを参照してください。
(オプション)列名を編集するには、列の上部にある入力ボックスをクリックします。
列名には、コンマ、円記号、または Unicode 文字 (絵文字など) はサポートされていません。
(オプション)列タイプを編集するには、タイプのアイコンをクリックします。
[ テーブルの作成] をクリックします。
ファイルの種類の形式オプション
ファイルの種類に応じて、次の形式オプションを使用できます。
フォーマットオプション |
説明 |
サポートされているファイルの種類 |
---|---|---|
|
列間の区切り文字。 使用できる文字は 1 つだけで、円記号はサポートされていません。 デフォルトはコンマです。 |
CSV |
|
データを解析するときに使用するエスケープ文字。 デフォルトは引用符です。 |
CSV |
|
このオプションは、ファイルにヘッダーが含まれているかどうかを指定します。 デフォルトで有効になっています。 |
CSV |
|
ファイルの種類を自動的に検出します。 デフォルトは |
XMLの |
|
ファイルの内容から列の種類を自動的に検出します。 プレビューテーブルでタイプを編集できます。 これが false に設定されている場合、すべての列型が文字列として推論されます。 デフォルトで有効になっています。 |
|
|
列の値がファイル内の複数行にまたがることができるかどうか。 デフォルトでは無効になっています。 |
|
|
複数のファイルにまたがるスキーマを推測し、各ファイルのスキーマをマージするかどうか。 デフォルトで有効になっています。 |
CSV |
|
ファイル内でコメントを許可するかどうか。 デフォルトで有効になっています。 |
JSON |
|
ファイルで単一引用符を使用できるかどうか。 デフォルトで有効になっています。 |
JSON |
|
タイムスタンプ文字列を デフォルトで有効になっています。 |
JSON |
|
スキーマに一致しない列を保存するかどうか。 詳細については、「 レスキューされたデータ列とは」を参照してください。 デフォルトで有効になっています。 |
|
|
要素内の属性を除外するかどうか。 デフォルトは |
XMLの |
|
属性と要素を区別するための属性の接頭辞。 デフォルトは |
XMLの |
列のデータ型
次の列のデータ型がサポートされています。 個々のデータ型の詳細については、「 SQL データ型」を参照してください。
データ型 |
説明 |
---|---|
|
8 バイトの符号付き整数。 |
|
Boolean ( |
|
タイムゾーンなしの日 |
|
最大精度の数値 |
|
8 バイトの倍精度浮動小数点数。 |
|
文字列値。 |
|
年、月、日、時、分、秒のフィールドの値と、セッションのローカルタイムゾーンで構成される値。 |