Databricks アプリのベストプラクティス

このページでは、Databricks アプリの開発と実行に関する重要なベストプラクティスの一覧を示します。これらのガイドラインは、セキュリティ、パフォーマンス、およびプラットフォームの要件に焦点を当てています。

一般的なベストプラクティス

データ処理には Databricks ネイティブ機能を使用します 。App コンピュートは UI レンダリング用に最適化されています。クエリとデータセットにはDatabricks SQL 、バッチ処理にはLakeflow Jobs、 AI推論ワークロードにはモデルサービングを使用します。パフォーマンスの問題を回避するために、大量のデータ処理をこれらのサービスにオフロードします。予想される負荷条件下でアプリをテストし、要件を満たしていることを確認します。
グレースフルシャットダウン処理を実装します 。アプリは、 SIGTERM シグナルを受信してから 15 秒以内にシャットダウンするか、 SIGKILLで強制的に終了する必要があります。
特権操作を避けてください 。アプリは権限のないユーザーとして実行され、ルートアクセスなどの昇格された権限を必要とするアクションを実行できません。apt-get 、 yum 、 apkなどのパッケージマネージャーを使用してシステムレベルのパッケージをインストールすることはできません。代わりに、PyPI の Python パッケージまたは npm の Node.js パッケージを使用して、アプリの依存関係を管理します。
プラットフォーム管理型ネットワーキングを理解する 。リクエストはリバースプロキシ経由で転送されるため、アプリはリクエストの発信元に依存することはできません。Databricks は TLS ターミネーションを処理し、アプリは HTTP/2 クリアテキスト (H2C) をサポートする必要があります。カスタム TLS 処理を実装しないでください。
正しいホストとポートにバインドします 。アプリは0.0.0.0でリッスンし、 DATABRICKS_APP_PORT環境変数で指定されたポートを使用する必要があります。Databricksアプリで環境変数を定義する方法については、こちらをご覧ください。
コンテナの起動時間を最小限に抑えます 。初期化ロジックを軽量にして、コールドスタートのレイテンシを短縮します。スタートアップ中に大きな依存関係のインストールや外部 API 呼び出しなどの操作をブロックしないようにします。必要な場合にのみ、重いリソースをロードします。
標準出力と標準エラー出力にログを出力します 。Databricksは、標準出力ストリームとエラーストリームからログを取得します。これらの設定をすべてのログ記録に使用することで、ログがDatabricksのUIに表示されるようになります。ログをローカルファイルに書き込むことは避けてください。
予期しないエラーを適切に処理します 。グローバル例外処理を実装して、キャッチされないエラーによるクラッシュを防ぎます。スタックトレースや機密データを公開せずに、適切なHTTPエラー応答を返します。
Pythonの依存関係管理にはuv使用してください 。Databricksは、すべてのPythonアプリにuvを推奨しています。これにより、インストールが高速化され、完全に再現可能なビルドのためのロックファイル（ uv.lock ）が提供され、任意のPythonバージョンを使用できる機能も得られます。requirements.txtを使用する場合は、ビルド間で一貫した環境を確保するために、正確なバージョン番号をピン留めします。
ユーザー入力を検証し、サニタイズします 。内部向けアプリであっても、常に受信データを検証し、サニタイズして、インジェクション攻撃や不正な形式の入力を防ぎます。
負荷の高い操作には、メモリ内キャッシュを使用します 。クエリ結果や API 応答など、頻繁に使用されるデータをキャッシュして、レイテンシを減らし、冗長な処理を回避します。functools.lru_cache、cachetools、または同様のライブラリを使用し、マルチユーザーアプリではキャッシュのスコープを慎重に設定します。
長時間実行される操作には非同期要求パターンを使用します 。タイムアウトになる可能性がある、操作の完了を待機する同期リクエストは避けてください。代わりに、操作を開始するための最初のリクエストを行い、その後、リソースの状態またはエンドポイントを定期的に照会して完了ステータスを確認します。

セキュリティのベストプラクティス

最小特権の原則に従います 。ユーザーまたはグループごとに必要な権限のみを付与します。フルコントロールが必要な場合を除き、CAN MANAGEではなくCAN USEを使用してください。権限のベストプラクティスを参照してください。
認証方法は慎重に選択してください 。リソースとデータへのアクセスがアプリのすべてのユーザーで同じである場合は、サービスプリンシパルを使用します。アプリが呼び出し元のユーザーの権限を尊重する必要がある場合、信頼できるアプリ作成者とピアレビュー済みのアプリコードを持つワークスペースでのみ、ユーザー認証を実装します。
アプリごとに専用サービスプリンシパルをご利用ください 。サービスプリンシパルの資格情報をアプリまたはユーザー間で共有しないでください。 CAN USEやCAN QUERYなど、必要最小限の権限のみを付与します。アプリ作成者が組織を離れる場合は、サービスプリンシパルの資格情報を更新します。「リソースへのアプリのアクセスを管理する」を参照してください。
アプリ環境を分離します 。異なるワークスペースを使用して、開発、ステージング、本番運用アプリを分離します。これにより、開発およびテスト中に本番運用データに誤ってアクセスすることが防止されます。
適切なコンピュートを通じてデータにアクセスします 。データに直接アクセスしたり、データを処理したりするようにアプリを構成しないでください。クエリにはSQL 、 AI推論にはモデルサービング、バッチ処理にはLakeflow Jobs を使用します。
シークレットを管理します 。環境変数で生のシークレット値を公開しないでください。アプリ構成で valueFrom を使用し、特にチームの役割が変更された場合に、シークレットを定期的にローテーションします。「ベストプラクティス」を参照してください。
スコープを最小限に抑え、ユーザーアクションをログに記録します 。ユーザー認証を使用する場合は、アプリに必要なスコープのみをリクエストし、構造化された監査レコードを使用してすべてのユーザーアクションを記録します。ユーザー認証のベストプラクティスを参照してください。
送信ネットワークアクセスを制限します 。パッケージリポジトリや外部APIsなど、アプリに必要なドメインのみを許可します。構成を検証するには、dry-実行モードと拒否ログを使用します。ネットワークポリシーを構成するためのベストプラクティスを参照してください。
安全なコーディングプラクティスに従ってください 。SQL クエリをパラメーター化して、インジェクション攻撃を防ぎ、入力検証やエラー処理などの一般的な安全な開発ガイドラインを適用します。ステートメント実行 API: ウェアハウスで SQL を実行するを参照してください。
不審なアクティビティを監視します 。監査ログを定期的に確認して、異常なアクセスパターンや不正なアクションがないか確認します。重大なセキュリティイベントに関するアラートを設定します。

一般的なベストプラクティス​

セキュリティのベストプラクティス​

一般的なベストプラクティス

セキュリティのベストプラクティス