メインコンテンツまでスキップ

SharePoint取り込み設定の概要

Databricks への SharePoint 取り込みでサポートされている認証方法について説明します。

備考

ベータ版

管理された SharePoint コネクタはベータ版です。ワークスペース管理者は、 プレビュー ページからこの機能へのアクセスを制御できます。「Databricks プレビューの管理」を参照してください。

ヒント

このページでは、RAG などのアプリケーションで使用するために非構造化ファイル (PDF、DOCX など) を取り込むための管理された SharePoint コネクタについて説明します。

SharePoint コネクタを使用してカスタム パイプラインを構築し、構造化ファイル (CSV や Excel など) と非構造化ファイルの両方の Delta テーブルへの解析、変換、および取り込みを完全に制御するには、 「SharePoint からファイルを取り込む」を参照してください。

SharePointコネクタを選択する

LakeFlow Connect 2 つの補完的な SharePoint コネクタを提供します。 どちらも SharePoint のデータにアクセスしますが、サポートする目的は異なります。

考慮

管理された SharePoint コネクタ

標準 SharePoint コネクタ

管理とカスタマイズ

フルマネージドコネクタ。

Delta テーブルにデータを取り込み、ソースとの同期を維持するエンタープライズ アプリケーション向けのシンプルでメンテナンスの手間が少ないコネクタ。LakeFlow Connectのマネージド コネクタを参照してください。

read_filesspark.readCOPY INTO 、 Auto LoaderなどのバッチAPIsとストリーミング API を使用して、 SQL 、 PySpark 、またはLakeFlow Spark宣言型パイプラインでカスタム インジェスト パイプラインを構築します。

取り込み中に複雑な変換を実行する柔軟性を提供し、パイプラインの管理と保守の責任をより大きくします。

出力フォーマット

均一なバイナリ コンテンツ テーブル。各ファイルをバイナリ形式(1行につき1ファイル)で取り込み、ファイルメタデータとともに 追加の列。

構造化されたDeltaテーブル。 構造化ファイル (CSV や Excel など) を Delta テーブルとして取り込みます。摂取にも使える バイナリ形式の非構造化ファイル。

粒度、フィルタリング、選択

今日はサブフォルダまたはファイル レベルの選択はありません。パターンベースのフィルタリングはありません。

指定された SharePoint ドキュメント ライブラリ内のすべてのファイルを取り込みます。

きめ細かくカスタマイズ可能。

ドキュメント ライブラリ、サブフォルダー、または個々のファイルから取り込むための URL ベースの選択。また、 pathGlobFilterオプションを使用したパターンベースのフィルタリングもサポートします。

どの認証方法がサポートされていますか?

SharePoint コネクタは、次の認証方法をサポートしています。

どの認証方法を選択すればよいですか?

ほとんどのシナリオでは、Databricks はマシン間 (M2M) OAuth を推奨します。M2M はコネクタのアクセス許可を特定のサイトに限定します。ただし、認証ユーザーがアクセスできるすべてのものに権限を限定する場合は、代わりにユーザー対マシン (U2M) OAuth を選択します。どちらの方法でも、トークンの自動更新と強化されたセキュリティが提供されます。

手動トークン更新認証は従来の方法と見なされており、推奨されません。

U2MとM2Mの比較

次の表は、SharePoint への認証における U2M と M2M を比較したものです。

機能

OAuth U2M

OAuth M2M

認証タイプ

委任されたアクセス(ユーザーベース)

アプリ限定アクセス(サービスプリンシパル)

ユーザーの操作が必要

はい - ユーザーはサインインする必要があります

いいえ - 完全自動化

どのようなタスクにベストなのか

ユーザー固有のアクセスシナリオ

自動本番運用パイプライン

トークンの更新

Databricksによって自動的に処理されます

Databricksによって自動的に処理されます

SharePoint 権限

委任された権限

アプリケーションの権限

アクセススコープ

ユーザーの権限に制限

アプリ登録によって定義される