Power BIをDatabricksに接続する

Microsoft Power BIは、セルフサービスのビジネスインテリジェンス機能を備えたインタラクティブなビジュアライゼーションを提供するビジネスアナリティクスサービスであり、ITスタッフやデータベース管理者に依存することなく、エンドユーザー自身がレポートやダッシュボードを作成することができます。

DatabricksをPower BIのデータソースとして使用すると、データサイエンティストやデータエンジニアだけでなく、すべてのビジネスユーザーに、Databricksのパフォーマンスとテクノロジーのメリットを提供することができます。

Databricks から Power BI Online に公開する

Online Databricksで データソースとして使用する場合、Power BIDatabricks UI から直接テーブルまたはスキーマから PowerBI データセットを作成できます。

要件

  • データはUnity Catalog上に存在し、コンピュート (クラスター) はUnity Catalogが有効になっている必要があります。 Hive metastoreは現在サポートされていません。

  • プレミアム (プレミアム容量またはプレミアム ユーザーごとのライセンス) Power BI ライセンスが必要です。

  • セマンティック モデルを公開後に編集するには、ワークスペース設定とデータ モデル設定で「ユーザーは Power BI サービスでデータ モデルを編集できる (プレビュー)」を有効にする必要があります。 また、XMLA エンドポイントを使用して接続を行うことで、表形式エディターを使用してセマンティック モデルを編集することもできます。

  • PowerBI ワークスペースで XML 書き込みを有効にする必要がある場合は、このリンクの手順に従ってください。

  • ワークスペースがプライベート リンクの下にある場合は、Power BI でデータセットのデータ ソース資格情報を手動で更新する必要があります。

使い

Databricks テーブルを Power BI データセットに公開する

  1. Databricks ワークスペースにサインインし、カタログ エクスプローラーに移動します。 パブリッシュするスキーマ/テーブルを選択します。 Hive metastoreまたはサンプル カタログから選択しないでください。

  2. コンピュート から、このPower BIパブリッシュで使用するデータウェアハウスを選択します。

  3. 公開するテーブル/スキーマをカタログ エクスプローラーで開いた状態で、右上にある [BI ツールで使用] ボタンをクリックします。

  4. 開いたドロップダウン リストで、[Power BI ワークスペースに公開] オプションをクリックします。

この時点で、ウィンドウの右側にメニューが開きます。 以下に詳述するメニューのプロンプトに従います。

  1. 「Microsoft Entra ID に接続」をクリックして、Microsoft アカウントで認証します。

  2. 次のメニューで、「 Power BIワークスペース」から公開先のワークスペースを選択します。 「データセットMode 」で、DirectQuery(デフォルトにより選択)またはインポートモードを選択します。

  3. メニューの下部にある青い「Power BI に公開」ボタンをクリックします。

  4. データセットが公開されるまで待ちます。 通常、これには約10〜20秒かかります。

  5. データセットが公開されると、青いボタンに「Power BI を開く」というリンクが表示されます。 これをクリックすると、新しい Power BI データセットが新しいタブで開きます。

機能と注意事項

  • 複数のテーブルを含むスキーマをパブリッシュすると、列を持つすべてのテーブルがパブリッシュされます。 どのテーブルにも列が存在しない場合、パブリッシュは実行されません。

  • Databricks のテーブルの列のコメントは、Power BI の対応する列の説明にコピーされます。

  • 外部キー関係は公開されたデータセットに保持されます。 ただし、Power BI では、2 つのテーブル間のアクティブなリレーションシップ パスは 1 つだけサポートされます。 したがって、Databricks のスキーマに複数のパスが存在する場合、Power BI 内の対応するリレーションシップの一部は非アクティブに設定されます。 後で、Power BI のデータ モデル ビューでアクティブ/非アクティブなリレーションシップを変更できます。

  • Power BIセマンティック モデルにアクセスできるように、個人アクセストークン (PAT) がユーザーに代わって作成されます。 この認証方法は、後で Power BI データ ソース設定で変更できます。

Power BI Desktop を Databricks に接続する

Power BI DesktopをDatabricksクラスターおよびDatabricks SQLウェアハウスに接続できます。

要件

  • Power BI Desktop 2.85.681.0以降。最新バージョンをダウンロードしてください。Unity Catalogで管理されているデータをPower BIで使用するには、Power BI Desktop 2.98.683.0以降(2021年10月リリース)を使用する必要があります。

    Power BI DesktopにはWindowsが必要です。他のオペレーティングシステムを使用している場合は、物理ホストまたはWindowsベースの仮想マシン上でPower BI Desktopを実行し、ご利用のオペレーティングシステムからそれに接続することもできます。

    2.85.681.0より前のバージョンのPower BI Desktopを使用している場合は、Power BI Desktopと同じ環境にDatabricks ODBCドライバーをインストールする必要もあります。

  • 以下のいずれか(認証用):

    • (推奨)Power BI がアカウントで OAuth アプリケーションとして有効になっている。 これはデフォルトで有効になっています。

    • Databricks の個人用アクセストークン

      自動化されたツール、システム、スクリプト、アプリを使用して認証する場合のセキュリティのベスト プラクティスとして、Databricks ではOAuth トークンを使用することをお勧めします。

      個人用アクセストークン認証を使用する場合、Databricks では、ワークスペース ユーザーではなく、 サービスプリンシパル に属する個人用アクセストークンを使用することをお勧めします。 サービスプリンシパルのトークンを作成するには、「 サービスプリンシパルのトークンを管理する」を参照してください。

    • Databricksのユーザー名(通常はEメールアドレス)とパスワード

      Databricksワークスペースでシングルサインオン(SSO)が有効になっている場合、ユーザー名とパスワードの認証が無効になることがあります。

  • DatabricksクラスターまたはDatabricks SQLウェアハウス

Partner Connectを使用してPower BI DesktopをDatabricksに接続する

Partner Connectを使用すると、数回クリックするだけでPower BI DesktopからクラスターまたはSQLウェアハウスに接続できます。

  1. Databricks アカウント、ワークスペース、およびサインインしているユーザーが Partner Connectの 要件を満たし ていることを確認します。

  2. サイドバーで、「 Partner Connectボタン Partner Connect 」をクリックします

  3. Power BI」タイルをクリックします。

  4. [ パートナーへの接続 ] ダイアログの [コンピュート] で、接続する Databricks コンピュート リソースの名前を選択します。

  5. 接続ファイルをダウンロード」を選択します。

  6. ダウンロードした接続ファイルを開くと、Power BI Desktopが起動します。

  7. Power BI Desktopで、認証情報を入力します。

    • パーソナルアクセストークン:Databricksのパーソナルアクセストークンを入力します。

    • ユーザー名/パスワード:Databricksのユーザー名(通常はEメールアドレス)とパスワードを入力します。Databricksワークスペースでシングルサインオン(SSO)が有効になっている場合、ユーザー名とパスワードの認証が無効になることがあります。Databricksのユーザー名とパスワードを使用してログインできない場合は、代わりにパーソナルアクセストークンオプションを使用してみてください。

    • Microsoft エントラID:適用されません。

  8. 接続」をクリックします。

  9. Power BIのナビゲーターからクエリーするDatabricksデータを選択します。

    Power BIナビゲーター

Power BI DesktopとDatabricksを手動で接続する

選択した認証方法に応じて、Power BI Desktop でクラスターまたは SQLウェアハウスに接続するには、次の手順に従ってください。 Databricks SQL ウェアハウスは、 DirectQuery モードで Power BI を使用する場合に推奨されます。

迅速にPower BI Desktopと接続するには、Partner Connectを使用します。

  1. サーバーのホスト名と HTTP パスを取得します。

  2. Power BI Desktopを起動します。

  3. データを取得」または「ファイル」>「データを取得」をクリックします。

  4. データを取得」をクリックして開始します。

  5. Databricks」と検索し、コネクタをクリックします。

    • Azure Databricks(パーソナルアクセストークンまたはDatabricksのユーザー名とパスワードを使用して認証する場合)

      コネクタ名はAzure Databricksですが、Databricks on AWSでも動作します。

    • Databricks(ベータ)(OAuthを使用して認証する場合)。

  6. 接続」をクリックします。

  7. サーバーのホスト名HTTPパスを入力します。

  8. データ接続モードを選択します。インポートDirectQueryの違いについては、「Power BI DesktopでDirectQueryを使用する」を参照してください。

  9. OK」をクリックします。

  10. 認証方法をクリックします。

    • ユーザー名/パスワード:Databricksのユーザー名とパスワードを入力します。Databricksワークスペースでシングルサインオン(SSO)が有効になっている場合、ユーザー名とパスワードの認証が無効になることがあります。Databricksのユーザー名とパスワードを使用してログインできない場合は、代わりにパーソナルアクセストークンオプションを使用してみてください。

    • パーソナルアクセストークン:パーソナルアクセストークンを入力します。

    • OAuth: [ サインイン] をクリックします。 ブラウザー ウィンドウが開き、IdP でサインインするように求められます。 成功メッセージが表示されたら、ブラウザーを終了し、Power BI Desktop に戻ります。

  11. 接続」をクリックします。

  12. Power BIのナビゲーターからクエリーするDatabricksデータを選択します。ワークスペースでUnity Catalogが有効になっている場合は、スキーマとテーブルを選択する前にカタログを選択します。

    Power BIナビゲーター

カスタムSQLクエリーの使用

DatabricksコネクタはDatabricks.Queryデータソースを提供しています。これを使用すると、ユーザーがカスタムSQLクエリーを指定できます。

  1. Power BI Desktop との接続 」で説明されている手順に従って、データ接続モードとして [インポート ] を使用して接続を作成します。

  2. ナビゲーターで、選択したホスト名とHTTPパスを含む一番上のアイテムを右クリックし、「データを変換」をクリックしてPower Queryエディタを開きます。

    ナビゲーターで「データを変換」をクリック
  3. 関数バーで、関数名Databricks.CatalogsDatabricks.Queryに置き換えて、変更を適用します。これにより、SQLクエリーをパラメーターとして受け取るPower Query関数が作成されます。

  4. パラメーターフィールドに目的のSQLクエリーを入力し、「実行」をクリックします。これによりクエリーが実行され、クエリー結果をコンテンツとして含む新しいテーブルが作成されます。

自動HTTPプロキシ検出

Power BI Desktopバージョン2.104.941.0以降(2022年5月リリース)には、Windowsシステム全体のHTTPプロキシ構成を検出するためのサポートが組み込まれています。最新バージョンをダウンロードしてください。

Power BI Desktopは、Windowsシステム全体のHTTPプロキシ構成を自動的に検出して使用できます。

プロキシサーバーが CRL 配布ポイント(CDP)を提供しない場合、Power BIから次のエラーメッセージが表示されることがあります。

Details: "ODBC: ERROR [HY000] [Microsoft][DriverSupport] (1200)
-The revocation status of the certificate or one of the certificates in the certificate chain is unknown."

このエラーに対応するには、以下のステップを実行します。

  1. ファイルが存在しない場合は、C:\Program Files\Microsoft Power BI Desktop\bin\ODBC Drivers\Simba Spark ODBC Driver\microsoft.sparkodbc.iniを作成します。

  2. microsoft.sparkodbc.iniファイルに以下の構成を追加します。

    [Driver]
    CheckCertRevocation=0
    

Power BI Delta Sharingコネクタ

Power BI Delta Sharingコネクタにより、ユーザーはDelta Sharingオープンプロトコルを通じて共有されたデータセットを発見、分析、視覚化することができます。このプロトコルにより、RESTとクラウドストレージを活用することで、製品やプラットフォーム間でデータセットを安全に交換できるようになります。

接続手順については、「 Power BI: 共有データの読み取り」を参照してください。

制限事項

  • DatabricksコネクタはWebプロキシをサポートしています。ただし、.pacファイルで定義された自動プロキシ設定はサポートされません。

  • Databricksコネクタでは、Databricks.QueryデータソースとDirectQueryモードの組み合わせはサポートされていません。

  • Delta Sharingコネクタが読み込むデータは、マシンのメモリに収まるものである必要があります。これを確実にするために、コネクタはインポートされる行の数を、以前に設定された行制限に制限します。

関連リソース

サポート