Amazon Redshiftでのフェデレーティッドクエリーの実行
この記事では、AmazonRedshift によって管理されていない データの実行クエリに対してフェデレーション クエリを実行するためにレイクハウスフェデレーションをセットアップする方法について説明します。Databricksレイクハウスフェデレーションの詳細については、 「レイクハウスフェデレーションとは何ですか?」を参照してください。 。
レイクハウスフェデレーションを使用して Amazon Redshift でクエリを実行するデータベースに接続するには、Databricks Unity Catalog メタストアに以下を作成する必要があります。
Amazon Redshift データベース上の実行クエリーへの接続。
Unity Catalog のクエリー構文ツールとデータガバナンスツールを使用してデータベースへの Databricks ユーザー アクセスを管理できるように、Unity Catalog の Amazon Redshift データベースでクエリーを実行することをミラーリングする フォーリンカタログ 。
始める前に
ワークスペースの要件:
ワークスペースで Unity Catalogが有効になっています。
コンピュート 要件:
コンピュート・リソースからターゲット・データベース・システムへのネットワーク接続。 「レイクハウスフェデレーションのネットワーキングに関する推奨事項」を参照してください。
Databricks コンピュートは、Databricks Runtime 13.3 LTS 以上、および共有またはシングル ユーザー アクセス モードを使用する必要があります。
SQLウェアハウスはProまたはServerlessで、2023.40以上を使用している必要があります。
必要な権限:
接続を作成するには、メタストア管理者であるか、ワークスペースにアタッチされている Unity Catalog メタストアに対する
CREATE CONNECTION
権限を持つユーザーである必要があります。フォーリンカタログを作成するには、メタストアに対する
CREATE CATALOG
権限を持ち、接続の所有者であるか、接続に対するCREATE FOREIGN CATALOG
権限を持っている必要があります。
追加のアクセス許可要件は、以降の各タスクベースのセクションで指定されています。
接続を作成する
接続では、外部データベース システムにアクセスするためのパスと資格情報を指定します。 接続を作成するには、カタログ エクスプローラーを使用するか、Databricks ノートブックまたは Databricks SQL クエリー エディターで CREATE CONNECTION
SQL コマンドを使用できます。
注:
Databricks REST API または Databricks CLI を使用して接続を作成することもできます。 POST /api/2.1/unity-catalog/connections を参照してください。 および Unity Catalog コマンド。
必要な権限: メタストア管理者または CREATE CONNECTION
権限を持つユーザー。
Databricks ワークスペースで、[ カタログ] をクリックします 。
[ カタログ ] ウィンドウの上部にある [ 追加 ] アイコンをクリックし、メニューから [ 接続の追加 ] を選択します。
または、クイック アクセスページで[外部データ >]ボタンをクリックし、 [接続]タブに移動して[接続の作成] をクリックします。
わかりやすい 接続名を入力します。
[接続タイプ] として [Redshift] を選択します。
Redshift インスタンスの次の接続プロパティを入力します。
ホスト: たとえば、
redshift-demo.us-west-2.redshift.amazonaws.com
ポート: たとえば、
5439
ユーザー: たとえば、
redshift_user
パスワード: たとえば、
password123
(オプション)[ 接続のテスト ] をクリックして、動作することを確認します。
(オプション)コメントを追加します。
[作成]をクリックします。
ノートブックまたは Databricks SQL クエリー エディターで次のコマンドを実行します。
CREATE CONNECTION <connection-name> TYPE redshift
OPTIONS (
host '<hostname>',
port '<port>',
user '<user>',
password '<password>'
);
資格情報などの機密性の高い値には、プレーンテキスト文字列の代わりに Databricks シークレット を使用することをお勧めします。 例えば:
CREATE CONNECTION <connection-name> TYPE redshift
OPTIONS (
host '<hostname>',
port '<port>',
user secret ('<secret-scope>','<secret-key-user>'),
password secret ('<secret-scope>','<secret-key-password>')
)
シークレットの設定に関する情報については、「 シークレット管理」を参照してください。
フォーリンカタログの作成
フォーリンカタログは、外部データ システム内のデータベースをミラーリングするため、Databricks と Unity Catalogを使用して、そのデータベース内のデータへのアクセスを管理できます。 フォーリンカタログを作成するには、すでに定義されている DATA への接続を使用します。
フォーリンカタログを作成するには、カタログ エクスプローラー、または Databricks ノートブックまたは SQL クエリ エディターのCREATE FOREIGN CATALOG
SQL コマンドを使用できます。
注:
Databricks REST API または Databricks CLI を使用してカタログを作成することもできます。 POST /api/2.1/unity-catalog/catalogs を参照してください。 および Unity Catalog コマンド。
必要なアクセス許可: メタストアに対する CREATE CATALOG
アクセス許可と、接続の所有権または接続に対する CREATE FOREIGN CATALOG
特権。
Databricks ワークスペースで、[カタログ]をクリックしてカタログ・エクスプローラーを開きます。
[ カタログ ] ウィンドウの上部にある [ 追加 ] アイコンをクリックし、メニューから [ カタログの追加 ] を選択します。
または、[ クイック アクセス ] ページで [ カタログ ] ボタンをクリックし、[ カタログの作成 ] ボタンをクリックします。
「カタログの作成」のフォーリンカタログの作成手順に従ってください。
ノートブックまたは SQL クエリ エディターで次の SQL コマンドを実行します。 括弧内の項目はオプションです。 プレースホルダーの値を置き換えます。
<catalog-name>
: Databricksのカタログの名前。<connection-name>
: データソース、パス、およびアクセス資格情報を指定する 接続オブジェクト 。<database-name>
: Databricks でカタログとしてミラー化するデータベースの名前。
CREATE FOREIGN CATALOG [IF NOT EXISTS] <catalog-name> USING CONNECTION <connection-name>
OPTIONS (database '<database-name>');
サポートされているプッシュダウン
次のプッシュダウンがサポートされています。
フィルター
予測
極限
結合
集計 (平均、カウント、最大、最小、標準偏差ポップ、標準偏差、合計、分散分布)
関数 (文字列関数と、エイリアス、キャスト、並べ替え順序などの他の関数)
分別
次のプッシュダウンはサポートされていません。
Windows の機能
データ型マッピング
Redshift から Spark に読み込むと、データ型は次のようにマップされます。
Redshift タイプ |
Spark タイプ |
---|---|
numeric |
DecimalType |
int2, int4 |
IntegerType |
int8, OID, XID |
LongType |
float4 |
FloatType |
double precision, float8, money |
DoubleType |
bpchar, char, character varying, name, super, text, tid, varchar |
StringType |
bytea, geometry, varbyte |
BinaryType |
bit, bool |
BooleanType |
date |
DateType |
tabstime, time, time with time zone, timetz, time without time zone, timestamp with time zone, timestamp, timestamptz, timestamp without time zone* |
TimestampType/TimestampNTZType |
*Redshift から読み取る場合、Redshift Timestamp
infer_timestamp_ntz_type = false
(デフォルト) の場合、Spark TimestampType
にマップされます。Redshift Timestamp
は、 infer_timestamp_ntz_type = true
TimestampNTZType
にマップされます。