Unity Catalog外部ロケーションを使用したデータの読み込み
プレビュー
この機能は パブリック プレビュー段階です。
この記事では、データの追加 UIGoogle Cloud Storage を使用して、Unity Catalog 外部ロケーションを使用して 内のデータからマネージドテーブルを作成する方法について説明します。外部ロケーションは、クラウドストレージパスと、クラウドストレージパスへのアクセスを許可するストレージ認証情報を組み合わせたオブジェクトです。
始める前に
開始する前に、次のものが必要です。
- Unity Catalog が有効になっているワークスペース。 詳しくは、「Unity Catalogの設定と管理」を参照してください。
- 外部ロケーションに対する
READ FILES
権限。 詳細については、「クラウド ストレージを Databricksに接続するための外部ロケーションを作成する」を参照してください。 - マネージドテーブルを作成するスキーマに対する
CREATE TABLE
権限、スキーマに対するUSE SCHEMA
権限、および親カタログに対するUSE CATALOG
権限。 詳細については、「 Unity Catalog 特権とセキュリティ保護可能なオブジェクト」を参照してください。
ファイルの種類
次のファイルタイプがサポートされています。
- CSV
- TSV
- JSON
- XMLの
- AVRO
- PARQUET
ステップ 1: 外部ロケーションへのアクセスを確認する
外部ロケーションへのアクセスを確認するには、次の手順を実行します。
- Databricks ワークスペースのサイドバーで、 [カタログ] をクリックします。
- カタログエクスプローラで、「 外部データ」(External Data ) >「外部ロケーション」(External Locations ) をクリックします。
ステップ 2: マネージドテーブルを作成する
マネージドテーブルを作成するには、次の操作を行います。
-
ワークスペースのサイドバーで、[ + 新規 ] > [データの追加 ] をクリックします。
-
データの追加UIで、[ Google Cloud Storage ]をクリックします。
-
ドロップダウン リストから外部ロケーションを選択します。
-
Databricks に読み込むフォルダーとファイルを選択し、[ テーブルのプレビュー ] をクリックします。
-
ドロップダウンリストからカタログとスキーマを選択します。
-
(任意)テーブル名を編集します。
-
(オプション)ファイルの種類ごとに詳細な形式オプションを設定するには、[ 詳細属性 ] をクリックし、[ ファイルの種類を自動的に検出 する] をオフにして、ファイルの種類を選択します。
形式オプションの一覧については、次のセクションを参照してください。
-
(オプション)列名を編集するには、列の上部にある入力ボックスをクリックします。
列名では、カンマ、バックスラッシュ、Unicode 文字 (絵文字など) はサポートされていません。
-
(オプション)列タイプを編集するには、タイプのアイコンをクリックします。
-
[ テーブルを作成 ] をクリックします。
ファイル・タイプ・フォーマット・オプション
ファイルの種類に応じて、次の形式オプションを使用できます。
フォーマット・オプション | 説明 | サポートされているファイルの種類 |
---|---|---|
| 列間の区切り文字。 1 文字のみが許可され、バックスラッシュはサポートされていません。 デフォルトはカンマです。 | CSV |
| データの解析時に使用するエスケープ文字。 デフォルトは引用符です。 | CSV |
| このオプションは、ファイルにヘッダーが含まれているかどうかを指定します。 デフォルトでは有効になっています。 | CSV |
| ファイルの種類を自動的に検出します。 デフォルトは | XMLの |
| ファイルの内容から列の種類を自動的に検出します。 プレビュー テーブルでタイプを編集できます。 これを false に設定すると、すべての列の型が文字列として推論されます。 デフォルトでは有効になっています。 |
|
| 列の値がファイル内の複数行にまたがることができるかどうか。 デフォルトでは無効です。 |
|
| 複数ファイルからスキーマを推定し、各ファイルのスキーマをマージするかどうか。 デフォルトでは有効になっています。 | CSV |
| ファイル内でコメントを許可するかどうか。 デフォルトでは有効になっています。 | JSON |
| ファイル内で一重引用符が許可されているかどうか。 デフォルトでは有効になっています。 | JSON |
| タイムスタンプ文字列を | JSON |
| スキーマと一致しない列を保存するかどうか。 詳細については、「 レスキューされたデータ列とは」を参照してください。 デフォルトでは有効になっています。 |
|
| 要素内の属性を除外するかどうか。 デフォルトは | XMLの |
| 属性と要素を区別するための属性の接頭辞。 デフォルトは | XMLの |
列のデータ型
次の列データ型がサポートされています。 個々のデータ型の詳細については、「SQLデータ型」を参照してください。
データ型 | 説明 |
---|---|
| 8バイトの符号付き整数 |
| ブール値( |
| タイムゾーンなしの日 |
| 最大精度の |
| 8 バイトの長倍精度の浮動小数点数 |
| 文字列の値 |
| 年、月、日、時、分、秒のフィールドの値とセッションのローカル・タイムゾーンで構成される値。 |
既知の問題
- 複雑なデータ型の特殊文字 (バッククォートやコロンを含むキーを持つ JSON オブジェクトなど) で問題が発生する可能性があります。
- 一部の JSON ファイルでは、ファイルの種類として JSON を手動で選択する必要があります。 ファイルを選択した後にファイルタイプを手動で選択するには、[ 詳細属性 ] をクリックし、[ ファイルタイプの自動検出 ] をオフにして、[ JSON ] を選択します。
- 複合型内のネストされたタイムスタンプと小数では、問題が発生する可能性があります。