メインコンテンツまでスキップ

GitHubコネクタ

備考

ベータ版

この機能はベータ版です。ワークスペース管理者は、 プレビュー ページからこの機能へのアクセスを制御できます。Databricksのプレビューを管理するを参照してください。

LakeFlow ConnectのマネージドGitHubコネクタを使用すると、 GitHubからDatabricksにデータを取り込むことができます。

始める前に知っておくべきこと

トピック

なぜそれが重要なのか

Databricksのユーザーペルソナ

ワークフローは、Databricksのユーザーペルソナによって異なります。

  • シングルユーザー: 管理者ユーザーは、 Unity Catalog接続と取り込みパイプラインを作成します。
  • マルチユーザー:管理者ユーザーが、管理者以外のユーザーがパイプラインを作成するための接続を作成します。

認証方法

接続を確立するための手順は、選択した認証方法によって異なります。

インタフェース

パイプラインを作成するステップはインターフェースによって異なります。

摂取頻度

パイプラインのスケジュールは、お客様のレイテンシとコスト要件によって異なります。

一般的なパターン

取り込みのニーズに応じて、パイプラインは履歴追跡、列選択、行フィルタリングなどの設定を使用する場合があります。対応構成はコネクタによって異なります。機能の利用可否については、こちらをご覧ください。

GitHubからのデータ取り込みを開始します

以下の表は、ユーザーの種類に基づいた、エンドツーエンドのGitHub取り込みフローをまとめたものです。

ユーザー

ステップ

管理

  1. GitHubを設定して、Databricksからの認証を有効にします。GitHub 取り込みのための OAuth U2M の設定を参照してください。
  2. どちらか:
    • Catalog Explorerを使用してGitHubへの接続を作成し、管理者以外のユーザーでもパイプラインを作成できるようにします。See GitHub.
    • データ取り込み UI を使用して、接続とパイプラインを同時に作成します。 GitHubからのデータ取り込みを参照してください。

非管理者

サポートされている任意のインターフェースを使用して、既存の接続からパイプラインを作成します。GitHubからのデータ取り込みを参照してください。

機能の利用可能性

機能

可用性

UIベースのパイプライン作成

はいにチェックマークサポート対象

APIベースのパイプライン作成

はいにチェックマークサポート対象

宣言型オートメーションバンドル

はいにチェックマークサポート対象

増分取り込み

はいにチェックマーク部分的に支持されています

一部のテーブルは、段階的なデータ取り込みをサポートしています。その他のテーブルは、全面的な更新が必要です。サポートされているデータを参照してください。

Unity Catalogガバナンス

はいにチェックマークサポート対象

Lakeflow ジョブ

はいにチェックマークサポート対象

SCDタイプ2

はいにチェックマークサポート対象

列の選択と選択解除

はいにチェックマークサポート対象

APIベースの行フィルタリング

x印番号サポートされていません

自動スキーマ進化:新規列と削除列

x印番号サポートされていません

自動スキーマ進化: データ型の変更

x印番号サポートされていません

自動スキーマ進化:列名の変更

x印番号サポートされていません

自動スキーマ進化: 新しいテーブル

x印番号サポートされていません

認証方法

認証方法

可用性

OAuth U2M

はいにチェックマークサポート対象

OAuth M2M

x印番号サポートされていません

OAuth (マニュアル更新)

x印番号サポートされていません

基本認証(ユーザー名/パスワード)

x印番号サポートされていません

基本認証(APIキー)

x印番号サポートされていません

Basic認証(サービスアカウントJSONキー)

x印番号サポートされていません