SharePoint取り込み設定の概要
Databricks への SharePoint 取り込みでサポートされている認証方法について説明します。
ベータ版
管理された SharePoint コネクタはベータ版です。ワークスペース管理者は、 プレビュー ページからこの機能へのアクセスを制御できます。「Databricks プレビューの管理」を参照してください。
このページでは、RAG などのアプリケーションで使用するために非構造化ファイル (PDF、DOCX など) を取り込むための管理された SharePoint コネクタについて説明します。
SharePoint コネクタを使用してカスタム パイプラインを構築し、構造化ファイル (CSV や Excel など) と非構造化ファイルの両方の Delta テーブルへの解析、変換、および取り込みを完全に制御するには、 「SharePoint からファイルを取り込む」を参照してください。
SharePointコネクタを選択する
LakeFlow Connect 2 つの補完的な SharePoint コネクタを提供します。 どちらも SharePoint のデータにアクセスしますが、サポートする目的は異なります。
考慮 | 管理された SharePoint コネクタ | 標準 SharePoint コネクタ |
|---|---|---|
管理とカスタマイズ | フルマネージドコネクタ。 Delta テーブルにデータを取り込み、ソースとの同期を維持するエンタープライズ アプリケーション向けのシンプルでメンテナンスの手間が少ないコネクタ。LakeFlow Connectのマネージド コネクタを参照してください。 |
取り込み中に複雑な変換を実行する柔軟性を提供し、パイプラインの管理と保守の責任をより大きくします。 |
出力フォーマット | 均一なバイナリ コンテンツ テーブル。各ファイルをバイナリ形式(1行につき1ファイル)で取り込み、ファイルメタデータとともに 追加の列。 | 構造化されたDeltaテーブル。 構造化ファイル (CSV や Excel など) を Delta テーブルとして取り込みます。摂取にも使える バイナリ形式の非構造化ファイル。 |
粒度、フィルタリング、選択 | 今日はサブフォルダまたはファイル レベルの選択はありません。パターンベースのフィルタリングはありません。 指定された SharePoint ドキュメント ライブラリ内のすべてのファイルを取り込みます。 | きめ細かくカスタマイズ可能。 ドキュメント ライブラリ、サブフォルダー、または個々のファイルから取り込むための URL ベースの選択。また、 |
どの認証方法がサポートされていますか?
SharePoint コネクタは、次の認証方法をサポートしています。
どの認証方法を選択すればよいですか?
ほとんどのシナリオでは、Databricks はマシン間 (M2M) OAuth を推奨します。M2M はコネクタのアクセス許可を特定のサイトに限定します。ただし、認証ユーザーがアクセスできるすべてのものに権限を限定する場合は、代わりにユーザー対マシン (U2M) OAuth を選択します。どちらの方法でも、トークンの自動更新と強化されたセキュリティが提供されます。
手動トークン更新認証は従来の方法と見なされており、推奨されません。
U2MとM2Mの比較
次の表は、SharePoint への認証における U2M と M2M を比較したものです。
機能 | OAuth U2M | OAuth M2M |
|---|---|---|
認証タイプ | 委任されたアクセス(ユーザーベース) | アプリ限定アクセス(サービスプリンシパル) |
ユーザーの操作が必要 | はい - ユーザーはサインインする必要があります | いいえ - 完全自動化 |
どのようなタスクにベストなのか | ユーザー固有のアクセスシナリオ | 自動本番運用パイプライン |
トークンの更新 | Databricksによって自動的に処理されます | Databricksによって自動的に処理されます |
SharePoint 権限 | 委任された権限 | アプリケーションの権限 |
アクセススコープ | ユーザーの権限に制限 | アプリ登録によって定義される |