Lakebase Postgresを使い始める

備考

プレビュー

この機能は次のリージョンでパブリックプレビュー段階にあります: us-east-1 、 us-west-2 、 eu-west-1 。

Lakebase オートスケールは、オートスケールコンピュート、ゼロへのスケール、分岐、即時復元を備えた Lakebase の新しいバージョンです。 Lakebase プロビジョニングとの機能の比較については、「バージョン間の選択」を参照してください。

わずか数分で Lakebase Postgres を起動して実行できます。最初のプロジェクトを作成し、データベースに接続し、Unity Catalog の統合などの主要な機能を調べます。

Lakebase Postgres を有効にする

ワークスペースに Lakebase Postgres オートスケールが 表示されない場合は、ワークスペース管理者がそれを有効にすることができます。プレビュー機能の有効化について詳しくは、「プレビューの管理」を参照してください。

最初のプロジェクトを作成する

アプリスイッチャーから Lakebase アプリを開きます。

アプリスイッチャー

[新しいプロジェクト] をクリックします。プロジェクトに名前を付け、Postgres のバージョンを選択します。プロジェクトは 2 つのブランチ ( productionとdevelopment )、当然databricks_postgresデータベース、および各ブランチに構成されたコンピュートリソースを使用して作成されます。

プロジェクト作成ダイアログ

コンピュートが有効になるまでに数分かかる場合があります。

プロジェクトのリージョンは、ワークスペースのリージョンに自動的に設定されます。詳細な構成オプションについては、「プロジェクトの作成」を参照してください。

データベースに接続する

プロジェクトから 本番運用 ブランチを選択し、 「接続」 をクリックします。 OAuth 認証を使用して Databricks ID を使用して接続することも、ネイティブの Postgres パスワードロールを作成することもできます。接続文字列は、 psql 、pgAdmin、または任意の Postgres 互換ツールなどの標準の Postgres クライアントで機能します。

接続ダイアログ

プロジェクトを作成すると、Databricks ID の Postgres ロール (たとえば、 user@databricks.com ) が自動的に作成されます。このロールはデフォルトのdatabricks_postgresデータベースを所有し、 databricks_superuserのメンバーであるため、データベースオブジェクトを管理するための広範な権限が与えられます。

OAuth で Databricks ID を使用して接続するには、接続ダイアログからpsql接続スニペットをコピーします。

Bash
psql 'postgresql://your-email@databricks.com@ep-abc-123.databricks.com/databricks_postgres?sslmode=require'

ターミナルでpsql接続コマンドを入力すると、OAuth トークンの提供を求められます。接続ダイアログの 「OAuth トークンのコピー」 オプションをクリックしてトークンを取得します。

接続の詳細と認証オプションについては、「接続の概要」を参照してください。

最初のテーブルを作成する

Lakebase SQL エディターには、使い始めるのに役立つサンプル SQL がプリロードされています。プロジェクトから 本番運用 ブランチを選択し、 SQLエディターを開き、提供されたステートメントを実行してplaying_with_lakebaseテーブルを作成し、サンプルデータを挿入します。テーブルエディターを使用して視覚的なデータ管理を行ったり、外部 Postgres クライアントに接続したりすることもできます。

サンプルSQLがプリロードされたSQLエディタ

クエリオプションの詳細については、 SQL エディター|テーブルエディター| Postgres クライアントを参照してください。

Unity Catalogに登録する

本番運用ブランチにテーブルを作成したので、 Databricks SQL Editor からそのデータをクエリできるように、 Unity Catalogに本番運用データベースを登録しましょう。

アプリスイッチャーを使用してレイクハウスに移動します。
カタログエクスプローラーで、プラスアイコンをクリックし、 カタログを作成します 。
カタログ名を入力します (例: lakebase_catalog )。
カタログタイプとして Lakebase Postgres を 選択し、 オートスケール オプションを有効にします。
プロジェクト、 productionブランチ、 databricks_postgresデータベースを選択します。
作成をクリックします。

Unity CatalogにLKBデータベースを登録する

SQLウェアハウスを使用して、 Databricks SQLエディターから作成したばかりのplaying_with_lakebaseテーブルをクエリできるようになりました。

SQL
SELECT * FROM lakebase_catalog.public.playing_with_lakebase;

これにより、Lakebase のトランザクションデータをレイクハウスアナリティクスと結合するフェデレーションクエリが有効になります。詳細については、 Unity Catalogに登録するを参照してください。

リバースETLでデータを同期する

Lakebase データを Unity Catalog でクエリ可能にする方法を説明しました。Lakebase は逆方向にも機能し、Unity Catalog から Lakebase データベースにキュレーションされた分析データを取り込みます。これは、レイクハウスにエンリッチデータ、 ML機能、または集約されたメトリクスコンピュートがあり、それらを低レイテンシのトランザクションクエリでアプリケーションによって処理する必要がある場合に便利です。

まず、Unity Catalog に分析データを表すテーブルを作成します。SQLウェアハウスまたはノートブックを開いて実行します。

SQL
CREATE TABLE main.default.user_segments AS
SELECT * FROM VALUES
  (1001, 'premium', 2500.00, 'high'),
  (1002, 'standard', 450.00, 'medium'),
  (1003, 'premium', 3200.00, 'high'),
  (1004, 'basic', 120.00, 'low')
AS segments(user_id, tier, lifetime_value, engagement);

次に、このテーブルを Lakebase データベースに同期します。

レイクハウスカタログエクスプローラーで、 main > なんとか > user_segments に移動します。
作成 > 同期テーブル をクリックします。
同期を設定します。
- テーブル名 : user_segments_syncedを入力します。
- データベースの種類 : Lakebase サーバレス (オートスケール) を選択します。
- 同期モード : 1 回限りのデータ同期の場合は スナップショット を選択します。
- プロジェクト、 本番運用 ブランチ、およびdatabricks_postgresデータベースを選択します。
作成をクリックします。

同期が完了すると、テーブルが Lakebase データベースに表示されます。同期プロセスにより、Unity Catalog スキーマと一致するように Postgres にdefaultスキーマが作成され、 main.default.user_segments_syncedはdefault.user_segments_syncedになります。アプリスイッチャーを使用して Lakebase に戻り、Lakebase SQL エディターでクエリを実行します。

SQL
SELECT * FROM "default"."user_segments_synced" WHERE "engagement" = 'high';

Lakebase SQL エディターで同期されたユーザーセグメントをクエリする

これで、レイクハウスアナリティクスがトランザクションデータベースに保存できるようになりました。継続的な同期、高度な構成、およびデータ型のマッピングについては、「リバース ETL」を参照してください。

次のステップ

最初のプロジェクトを作成したら、次に推奨される手順をいくつか示します。

Tutorials
Connect
Key features
Explore more

ブランチベースの開発チュートリアル- ブランチとスキーマ diff を使用したスキーマ変更ワークフローを学習します。

Lakebase Postgres を有効にする​

最初のプロジェクトを作成する​

データベースに接続する​

最初のテーブルを作成する​

Unity Catalogに登録する​

リバースETLでデータを同期する​

次のステップ​