Databricks の技術用語集

A

アクセス制御リスト (ACL)

ワークスペース、クラスター、ジョブ、テーブル、またはエクスペリメントにアタッチされたアクセス許可の一覧。 ACL は、オブジェクトへのアクセスを許可するユーザーまたはシステムプロセスと、アセットに対して許可される操作を指定します。一般的な ACL の各エントリは、サブジェクトと操作を指定します。アクセス制御リストを参照してください。

アクセスモード

コンピュートリソースを使用できるユーザーと、コンピュートリソースの使用中にアクセスできるデータを決定するセキュリティ機能。 Databricks内のすべてのコンピュートリソースにはアクセスモードがあります。「アクセスモード」を参照してください。

ACIDトランザクション

確実に処理されるデータベース・トランザクション。 ACIDは、原子性、一貫性、分離性、耐久性の頭文字をとったものです。「信頼性のベストプラクティス」を参照してください。

人工知能(AI)

コンピューターの知的な人間の行動を模倣する能力。「Databricks の AI と機械学習」をご覧ください。

AIエージェント

複雑な推論機能を備えたアプリケーションにより、独自の計画を作成し、自由に使えるツールに従ってタスクを実行できます。でのアプリ生成の概要AIDatabricks を参照してください。

AI機能

組み込みの SQL 関数を使用すると、Databricks の SQL から直接データに AI を適用できます。を使用したデータへのの適用AIDatabricksAI Functions を参照してください。

AI playground

ユーザーがDatabricksワークスペースで提供されている生成モデルAIモデルを操作、テスト、比較できるDatabricks機能。「LLM とのチャット」および「を使用したプロトタイプ生成AI アプリAI Playground 」を参照してください。

異常検出

データセットで予想される動作に準拠していない異常なパターンを特定するために使用される手法とツール。 Databricksは、機械学習とデータ処理機能を通じて異常検出を促進します。

Apache Spark

ビッグデータワークロードに使用されるオープンソースの分散コンピューティングシステム。「Databricks 上の Apache Spark」を参照してください。

人工ニューラルネットワーク(ANN)

ヒトの脳内のニューロンの働きを模倣した計算システム。

アセット

Databricks ワークスペース内のエンティティ (オブジェクトやファイルなど)。

監査ログ

Databricks環境内のユーザーのアクティビティとアクションの記録は、セキュリティ、コンプライアンス、および運用監視に不可欠です。監査ログのリファレンスを参照してください。

Auto Loader

新しいデータファイルがクラウドストレージに到着したときに、追加の設定なしで段階的かつ効率的に処理するデータ取り込み機能。「Auto Loaderとは」を参照してください。

AutoML

Databricksの機能は、最適なアルゴリズムとハイパーパラメーター構成を自動的に見つけることで、データセットに機械学習を適用するプロセスを簡素化します。「AutoML とは」を参照してください。

自動化されたデータリネージ

データの発生源からさまざまな変換を経て最終的な形式に至るまでのデータの流れを自動的に追跡および視覚化するプロセスで、デバッグ、コンプライアンス、およびデータの依存関係の理解に不可欠です。 Databricksは、データリネージツールとの統合を通じてこれを促進します。

オートスケール, 水平

エグゼキューターを追加または削除するには、スケジュールを待機しているタスクの数に基づいて設定します。これは、1 回の更新中に動的に行われます。

オートスケール, 垂直

マシン (ドライバーまたはエグゼキューター) のサイズを、メモリの負荷 (またはメモリ不足) に基づいて増減すること。これは、新しい更新の開始時にのみ発生します。

Azure Databricks

Microsoft Azure クラウドプラットフォーム用に最適化された Databricks のバージョン。

B

バッチ処理

固定量の静的で変更されないデータを 1 つの操作として処理するための明示的な命令を定義できるデータ処理方法。Databricks は Spark SQL または DataFramesを使用します。 Lakeflowコネクトの標準コネクタを参照してください。

バイアスの検出と軽減

データと機械学習モデルのバイアスを特定して対処し、公平性と精度を確保するプロセス。 Databricks は、バイアスの検出と軽減に役立つツールとインテグレーションを提供しています。分類モデルの公平性とバイアスの監視を参照してください。

ビジネスインテリジェンス(BI)

企業がビジネス情報のデータ分析と管理に使用する戦略とテクノロジー。

C

カタログエクスプローラー

データ、スキーマ (データベース)、テーブル、モデル、関数、およびその他の AI 資産を探索および管理するための UI を提供する Databricks 機能。これを使用して、データオブジェクトと所有者の検索、テーブル間のデータリレーションシップの理解、アクセス許可と共有の管理を行うことができます。「カタログエクスプローラとは」を参照してください。

子インスタンス

子インスタンスは、元のデータベース・インスタンスのコピー・オン・ライト・クローンです。これは、現在の時点から作成することも、保持期間内の履歴時点から作成することもできます。「子インスタンスの作成」を参照してください。

CICD または CI/CD

継続的インテグレーション (CI) と継続的デリバリー (CD) を組み合わせたプラクティス。「Databricks の CI/CD」を参照してください。

データのクリーニング

データクレンジングプロセス (レコードセット、テーブル、またはデータベースから破損または不正確なレコードを検出して修正 (または削除) するプロセス) を通過したデータ。データの不完全、不正確、不正確、または無関係な部分を特定し、ダーティデータまたは粗いデータを交換、変更、または削除することを指します。

クリーンルーム

DatabricksDelta Sharingとサーバレスコンピュートを使用して、複数の関係者が機密性の高いエンタープライズデータを共有し、互いのデータに直接アクセスすることなく共同作業できる、安全でプライバシー保護された環境を提供する機能。クリーンルームを使えば、他の Databricks アカウントのユーザーは、機密性の高い基礎データへのアクセスを共有することなく、広告キャンペーン、投資決定、研究開発などの共有プロジェクトに関する知見を共同で生成することができます。「Databricksクリーンルームとは」をご覧ください。

クラウドプラットフォームプロバイダー

クラウドコンピューティングプラットフォームを提供する会社。たとえば、 Microsoft Azure、 Amazon Web サービス (AWS)、Google Cloud Platform (GCP) などです。

クラスター

ノートブック、ジョブ、および Lakeflow 宣言型パイプラインで使用される非サーバレスコンピュートリソース。 コンピュート という用語は、Databricks UI 全体でクラスタリングに置き換わりましたが、クラスタリングとメタデータでは引き続き使用されます。API

コンピュート

コンピュートリソースとは、ハードウェアであれソフトウェアであれ、データの受信・分析・保存を通じて課題解決やソリューション創出を可能にするインフラ要素を指します。コンピュート.

連続パイプライン

新しいデータが入力に到着すると、停止せずにすべてのテーブルを継続的に更新するパイプライン。「トリガーパイプラインモードと継続的パイプラインモード」を参照してください。

D

有向非巡回グラフ (DAG)

ワークフローまたはパイプライン内のタスク間の依存関係を表す方法。 DAG 処理モデルでは、タスクは有向非巡回グラフのノードとして表され、エッジはタスク間の依存関係を表します。

データカタログ

データソースを管理するためのメタデータ管理ツールで、データの構造、場所、使用状況に関する情報を提供します。Databricks は外部データカタログと統合して、メタデータ管理を強化します。

データガバナンス

データの可用性、整合性、セキュリティ、およびユーザビリティを管理するプラクティスであり、データの品質およびコンプライアンスを確保するためのポリシー、手順およびテクノロジーが含まれます。

データ取り込み

さまざまなソースからデータを Databricks にインポート、転送、読み込み、処理して、保存、分析、処理するプロセス。

データレイク

必要になるまで大量の生データをネイティブ形式で保持する大規模なストレージリポジトリ。

データレイクハウス

データレイクとデータウェアハウスのメリットを組み合わせたデータマネジメントシステム。データレイクハウスは、機械学習(ML)やビジネスインテリジェンス(BI)など、さまざまなワークロードを処理するための孤立したシステムを避けたい現代の組織に、スケーラブルなストレージと処理機能を提供します。データレイクハウスは、真実の単一のソースを確立し、冗長なコストを排除し、データの鮮度を確保するのに役立ちます。データレイクハウスとはを参照してください。

データパイプライン

データの生成、収集、処理、および宛先への移動を行う一連のステージ。 Databricks は、バッチおよびリアルタイムデータ処理のための複雑なデータパイプラインの作成と管理を容易にします。

データプライバシー

個人データを不正なアクセス、使用、開示、または盗難から保護するプラクティス。 Databricks では、エンドツーエンドの暗号化、役割ベースのアクセス制御、主要なデータ保護規則とのコンプライアンスなど、堅牢なデータプライバシーおよびセキュリティ機能を強調して、機密情報を保護し、データガバナンスを確保しています。

データの可視化

アプリケーションがデータを取得および操作できるようにするアプローチで、データの形式や物理的な場所など、データに関する技術的な詳細は必要ありません。 Databricks は、異なるソース間でデータへのシームレスなアクセスと分析を提供することで、データ仮想化レイヤーの一部として機能します。

データウェアハウジング

複数のソースからデータを収集して保存し、ビジネスの知見やレポート作成のためにすばやくアクセスできるようにすることを指します。レイクハウスのアーキテクチャと Databricks SQL は、クラウドデータウェアハウジングの機能をデータレイクにもたらします。データウェアハウジング architectureを参照してください。

データベース・カタログ

1 つのインスタンスで Postgres データベースを表す Unity Catalog カタログエンティティ。これは概念的には、Unity Catalogのフォーリンカタログと似ています。「Unity Catalog にデータベースを登録する」を参照してください。

データベース・インスタンス

データベース・インスタンスは、ストレージ・リソースとコンピュート・リソースを管理し、ユーザーが接続するエンドポイントを提供します。データベース・インスタンスとはを参照してください。

Databricks

エンタープライズグレードのデータ分析を構築、デプロイ、共有、保守するための統合されたオープンアナリティクスプラットフォームであり、 AI ソリューションを大規模に構築します。 Databricks Data Intelligence Platform は、クラウドアカウントのクラウドストレージとセキュリティと統合し、ユーザーに代わってクラウドインフラストラクチャを管理およびデプロイします。「Databricks とは」を参照してください。

Databricks AI/BI

データのセマンティクスを理解し、セルフサービスのデータ分析を可能にするビジネスインテリジェンス製品。AI/BIAIは、Databricks ETLパイプライン、リネージ、その他のクエリを含むプラットフォーム全体のデータのライフサイクル全体から知見を引き出す複合システム上に構築されています。「Databricks AI/BI とは」を参照してください。

Databricks AI の機能

Databricks プラットフォームを支えるデータインテリジェンスエンジン。これは、AIモデルの使用、検索、ランク付け、およびパーソナライゼーションシステムを組み合わせて、組織のデータと使用パターンのセマンティクスを理解する複合AIシステムです。「Databricks AI を利用した機能」を参照してください。

Databricksアセットバンドル

ソース管理、コードレビュー、テスト、継続的インテグレーションとデリバリー(CI/CD)など、ソフトウェアエンジニアリングのベストプラクティスをデータおよびAIプロジェクトに導入するためのツール。バンドルを使用すると、ジョブ、パイプライン、ノートブックなどの Databricks リソースをソースファイルとして記述できます。「Databricks アセットバンドルとは」を参照してください。

Databricksアシスタント

AIベースのペアプログラマーであり、ノートブック、クエリ、ダッシュボード、ファイルの作成をより効率的にするサポートエージェントです。コードとクエリの生成、最適化、完了、説明、修正を行うことで、質問に迅速に回答するのに役立ちます。「Databricks Assistant とは」を参照してください。

Databricks CLI

Databricks のコマンドラインインターフェイスで、ユーザーは Databricks ワークスペースを管理および自動化し、ジョブ、ノートブック、ライブラリをデプロイできます。「Databricks CLI とは」を参照してください。

Databricks Connect

開発者がお気に入りの IDEsやノートブックなどのツールを Databricks コンピュートに接続し、 Spark コードをリモートで実行できるクライアントライブラリです。「Databricks Connect とは」を参照してください。

Databricks Container Services

DatabricksDockerコンピュートを作成する際にイメージを指定できる機能です。「Databricks Container Service を使用したコンテナのカスタマイズ」を参照してください。

Databricks Marketplace

データ製品を交換するためのオープンフォーラム。プロバイダーは Databricks アカウントを持っている必要がありますが、受信者は誰でもかまいません。 Marketplace アセットには、データセット、 Databricks ノートブック、 Databricks ソリューションアクセラレータ、機械学習 (AI) モデルが含まれます。データセットは通常、表形式データのカタログとして使用できますが、Databricks ボリュームの形式で表形式以外のデータもサポートされています。「Databricks Marketplace とは」を参照してください。

Databricks Runtime

ビッグデータ分析用に最適化されたランタイム。 Databricks では、機械学習ワークロード用に最適化された Databricks Runtime for Machine Learning も提供しています。 Databricks Runtime リリースノートと Databricks Runtime リリースノートのバージョンと互換性を参照してください。

Databricks SQL (DBSQL)

既存のデータレイクにデータウェアハウジングの機能とパフォーマンスをもたらすサービスのコレクションです。 Databricks SQL では、オープン形式と標準の ANSI SQL がサポートされています。プラットフォーム内の SQL エディターとダッシュボードツールにより、チームメンバーはワークスペース内で他の Databricks ユーザーと直接コラボレーションできます。データウェアハウジング on Databricksを参照してください。

DBU

Databricksユニット(DBU)は、測定および価格目的で使用されるDatabricksレイクハウスプラットフォーム上の処理能力の正規化された単位です。ワークロードが消費する DBU の数は、処理メトリクス (使用されるコンピュートリソースや処理されたデータの量など) によって決まります。「Databricks コンポーネント」を参照してください。

データフレーム

スプレッドシートのように、データを行と列の 2 次元テーブルに整理するデータ構造。データフレームは、データを保存および操作するための柔軟で直感的な方法であるため、最新のデータ分析で使用される最も一般的なデータ構造の1つです。「チュートリアル: Apache Spark データフレームを使用したデータの読み込みと変換」を参照してください。

データセット

分析または処理のために整理および保存されるデータの構造化されたコレクション。データセット内のデータは、通常、何らかの方法で関連しており、単一のソースから取得されるか、単一のプロジェクトを対象としています。

Delta Lake

データレイクに信頼性をもたらすオープンソースのストレージレイヤー。Delta Lake は、 ACIDトランザクション、スケーラブルなメタデータ処理を提供し、ストリーミングとバッチデータ処理を統合します。「Databricks の Delta Lake とは」を参照してください。

パイプライン

信頼性、保守性、テスト性に優れたデータ処理パイプラインを構築するための宣言型フレームワーク。データに対して実行する変換を定義し、宣言型パイプライン Lakeflow タスクオーケストレーション、クラスタリング管理、モニタリング、データ品質、およびエラー処理を管理します。 Lakeflow 宣言型パイプラインを参照してください。

パイプラインデータセット

ストリーミングテーブル、マテリアライズドビュー、および宣言型クエリの結果として保持されるビュー。

Delta Sharing

Databricks のデータと AI アセットを、Databricks を使用しているかどうかに関係なく、組織外のユーザーと共有できます。また、表形式データを共有するためのオープンソースプロジェクトとしても利用でき、Databricks で使用すると、非表形式、非構造化データ(ボリューム)、AI モデル、ビュー、フィルタリングされたデータ、ノートブックを共有する機能が追加されます。「Delta Sharing とは」を参照してください。

Delta テーブル

Databricksのデフォルトデータテーブル形式は、Delta Lakeオープンソースデータフレームワークの機能です。Delta テーブルは通常、データがストリーミングまたは大規模なバッチで取り込まれるデータレイクに使用されます。「Databricks テーブルの概要」を参照してください。

E

ETL (抽出, 変換, ロード)

ソースからデータを抽出し、それをターゲットシステムにロードし、ターゲットシステム内で変換するデータ統合への最新のアプローチ。「チュートリアル: 宣言型パイプラインを使用してETLパイプラインを構築する」Lakeflowを参照してください。

F

Feature Store

機械学習モデルの機能を保存、管理、提供するための中央リポジトリ。「機能管理」を参照してください。

フロー

フローは、 Lakeflow 宣言型パイプライン内のプロセスであり、データの読み取り、変換、および宛先への書き込みを行います。

基盤モデル

大規模な ML モデルは、より具体的な言語理解と生成タスクのために微調整することを意図して事前トレーニングされています。 Databricks基盤モデル APIを参照してください。

G

生成AI

人工知能の一種で、コンピューターがモデルを使用して画像、テキスト、コード、合成データなどのコンテンツを作成する能力に焦点を当てています。生成AI アプリケーションは、大規模言語モデル (LLMs) と基盤モデル) のAI モデルの上に構築されます。「Databricks の AI と機械学習」をご覧ください。

J

ジョブ

Databricksでの本番運用ワークロードのスケジュールと調整のための主要な単位です。ジョブは 1 つ以上のタスクで構成されます。「ジョブLakeflow」を参照してください。

L

Lakeflowコネクト

エンタープライズアプリケーションやデータベースから取り込むための組み込みコネクタを提供します。結果として得られるインジェストパイプラインは Unity Catalog によって制御され、サーバレスコンピュートと Lakeflow 宣言型パイプラインによって駆動されます。 Lakeflowコネクトの管理対象コネクタを参照してください。

レイクハウスフェデレーション

Databricks のクエリフェデレーションプラットフォーム。クエリフェデレーションという用語は、すべてのデータを統合システムに移行することなく、ユーザーとシステムが複数のデータソースに対してクエリを実行できるようにする機能のコレクションを表します。 Databricks は Unity Catalog を使用してクエリのフェデレーションを管理します。「レイクハウスフェデレーションとは」を参照してください。

レイクベース

Databricks Lakebaseは、レイクハウスと統合されたOLTPデータベースです。オンライン・トランザクション処理 (OLTP) データベースは、大量のリアルタイム・トランザクション・データを効率的に処理するために設計された、特殊なタイプのデータベース・システムです。Lakebaseを使用すると、 Databricks上にOLTPデータベースを作成し、OLTPワークロードをレイクハウスに取り込むことができます。 Lakebaseとはを参照してください。

レイクハウス監視

アカウント内のすべてのテーブルのデータの統計的プロパティと品質を監視します。また、これを使用して、モデル入力と予測を含む推論テーブルを監視することにより、機械学習モデルとモデルサービングエンドポイントのパフォーマンスを追跡することもできます。「Databricks レイクハウスモニタリングの概要」を参照してください。

大規模言語モデル (LLM)

自由形式の質問への回答、チャット、コンテンツの要約、ほぼ任意の指示の実行、翻訳、コンテンツとコードの生成などのタスク用に設計された自然言語処理(NLP)モデル。 LLMは、高度な機械学習アルゴリズムを使用して大量のデータセットから学習され、人間の言語のパターンと構造を学習します。「Databricks の大規模言語モデル (LLM)」を参照してください。

ライブラリ

クラスタリングで実行されているノートブックまたはジョブで使用できるコードのパッケージ。 Databricks ランタイムには多くのライブラリが含まれており、独自のライブラリをアップロードすることもできます。ライブラリのインストールを参照してください。

M

マテリアライズドビュー

事前に計算および保存されているため、より短いレイテンシでクエリを実行したり、冗長な計算を行わずに繰り返しクエリを実行したりできます。マテリアライズドビューを参照してください。

メダリオンアーキテクチャ

レイクハウス内のデータを論理的に整理するために使用されるデータ設計パターンで、アーキテクチャの各レイヤー (ブロンズテーブル⇒、シルバーテーブル、ゴールドレイヤーテーブル) を通過するデータの構造と品質を段階的かつ段階的に向上させることを目的としています⇒。メダリオンレイクハウスの建築とは何ですか?

メタストア

データウェアハウス内のさまざまなテーブルとパーティションのすべての構造情報 (列と列の型情報、データの読み取りと書き込みに必要なシリアライザーとデシリアライザー、データが格納されている対応するファイルなど) を格納するコンポーネント。「メタストア」を参照してください。

MLflow

エンドツーエンドの機械学習ライフサイクル (実験、再現性、デプロイなど) を管理するためのオープンソースプラットフォーム。MLflow on Databricks は、エンタープライズ顧客向けの追加機能を備えた完全マネージドサービスであり、 MLflow. ML モデルのライフサイクルについては、「MLflow」を参照してください。

モデルトレーニング

多くの一般的なオープンソースライブラリを使用して、Databricks で機械学習モデルとディープラーニングモデルをトレーニングするプロセス。「AI モデルと ML モデルのトレーニング」を参照してください。

Mosaic AI

を構築、デプロイ、評価、管理するための統合ツールを提供し、予測AI MLMLモデルの構築から最新のアプリの生成まで、ソリューションAI 。「Databricks の AI と機械学習」をご覧ください。

Mosaic AI モデルサービング

AIモデルをデプロイ、制御、クエリしてリアルタイムおよびバッチ推論を行うための統合インターフェイス。 Mosaic AI Model Servingを使用したモデルのデプロイを参照してください。

Mosaic AIモデルトレーニング

この機能を使用すると、データを使用して基盤モデルをカスタマイズし、特定のアプリケーションに対してそのパフォーマンスを最適化できます。フルパラメーターファインチューニングまたは基盤モデルの継続的なトレーニングを行うことで、モデルをゼロからトレーニングするよりも大幅に少ないデータ、時間、およびコンピュートリソースを使用して独自のモデルをトレーニングできます。基盤モデルファインチューニングを参照してください。

Mosaic AI Vector Search

Databricks Data Intelligence Platform に組み込まれ、ガバナンスおよび生産性向上ツールと統合されるベクトル検索インデックス。Mosaic AI Vector Searchを参照してください。

N

ノートブック

data scientistsやエンジニアが、同じドキュメント内で複数の言語 (Python、Scala、SQLなど) でコードを記述して実行するために使用する対話型 Web インターフェイス。「Databricks ノートブック」を参照してください。

O

OAuth

OAuthはアクセス委任のオープンスタンダードであり、インターネットユーザーがWebサイトまたはアプリケーションに他のWebサイト上の情報へのアクセスを許可する方法として一般的に使用されていますが、パスワードは提供されません。「Databricks リソースへのアクセスの承認」を参照してください。

P

Partner Connect

独立系ソフトウェアベンダーが保守する統合を提供し、ほとんどのエンタープライズデータシステムに接続するための Databricks プログラム。「Databricks Partner Connect とは」を参照してください。

パーソナルアクセストークン(PAT)

パスワードの代わりにコンピューターシステムにアクセスするときにユーザーを認証するために使用される文字列。「Databricks リソースへのアクセスの承認」を参照してください。

Photon

SQL ワークロードとデータフレーム API 呼び出しをより高速に実行し、ワークロードあたりの総コストを削減する、高パフォーマンスの Databricks ネイティブのベクトル化クエリエンジンです。 Photon は Apache Spark APIと互換性があるため、既存のコードで動作します。 Photonとはを参照してください。

パイプライン

テーブル、ビュー、マテリアライズドビュー、フロー、シンクの DAG は、システムによって決定された依存関係の順序に従って遅延更新されます。

R

検索拡張生成(RAG)

大規模言語モデル (LLM) が、外部の情報ソースから取得したサポートデータを使用してユーザーのプロンプトを拡張することにより、エンリッチメントされた応答を生成できるようにする手法。この取得した情報を組み込むことで、RAGは、プロンプトに追加のコンテキストを追加しない場合と比較して、LLMがより正確で高品質の応答を生成することができます。Databricks の RAG (Retrieval Augmented Generation) を参照してください。

S

スキーマ (Unity Catalog)

Unity Catalog のカタログの子で、テーブル、ビュー、ボリューム、モデル、関数を含めることができます。スキーマは、Unity Catalog の 3 レベルの名前空間 (catalog.schema.table-etc) の 2 番目のレベルです。「Unity Catalog とは」を参照してください。

サーバーレスコンピュート

コンピュートは Databricksによって管理され、管理オーバーヘッドを削減し、ユーザーの生産性を向上させるためのインスタントコンピュートを提供します。サーバレスコンピュートへの接続を参照してください。

サービスプリンシパル

自動化ツール、実行中のジョブ、およびアプリケーションで使用するために作成された ID。Databricksユーザーと同じ方法で、アクセス許可を使用してリソースへのアクセスをサービスプリンシパルのアクセスを制限できます。Databricksユーザーとは異なり、サービスプリンシパルはAPIのみのIDです。Databricks UI や Databricks CLI に直接アクセスすることはできません。「サービスプリンシパル」を参照してください。

シンク(パイプライン)

シンクは、外部システム (Kafka、Kinesis、Delta など) に書き込むフローの送信先です。

SQLウェアハウス

Databricksでデータをクエリおよび探索できるコンピュートリソース「SQLウェアハウスへの接続」を参照してください。

ストリーム処理

無限に増加し続けるデータセットに対するクエリを定義し、データを小さな増分バッチで処理できるデータ処理方法。Databricks ストリーム処理では、構造化ストリーミングが使用されます。構造化ストリーミングの概念を参照してください。

ストリーミング

ストリーミングとは、インターネット経由でコンピューターやモバイルデバイスに配信され、リアルタイムで再生されるメディアコンテンツ(ライブまたは録画されたデータストリーム)を指します。構造化ストリーミングの概念を参照してください。

ストリーミング分析

さまざまなソースによって継続的に生成されるデータを分析するプロセス。Databricks は、構造化ストリーミングによるストリーミング分析をサポートしており、ライブデータのリアルタイム知見の処理と分析を可能にします。

構造化ストリーミング

Spark SQL エンジン上に構築されたスケーラブルでフォールトトレラントなストリーム処理エンジンで、ストリーミングクエリとしての複雑な計算を可能にします。構造化ストリーミングの概念を参照してください。

ストリーミングテーブル

ストリームが書き込んでいるマネージドテーブル。ストリーミングテーブルを参照してください

同期されたテーブル

同期されたテーブルは、Unity Catalog テーブルのデータをデータベースインスタンスに自動的に同期する Unity Catalog 読み取り専用の Postgres テーブルです。「Unity Catalog テーブルからデータベースインスタンスへのデータの同期」を参照してください。

T

テーブル

テーブルはスキーマに存在し、データの行を含みます。Databricks で作成されたすべてのテーブルは、デフォルトで Delta Lake を使用します。Delta Lake によってサポートされるテーブルは、Delta テーブルとも呼ばれます。「Databricks テーブルの概要」を参照してください。

トリガーされたパイプライン

各テーブルの更新の開始時に使用可能だったすべてのデータを取り込むパイプラインで、依存関係の順序で実行され、その後終了します。「トリガーパイプラインモードと継続的パイプラインモード」を参照してください。

U

Unity Catalog

Databricksワークスペース全体で一元的なアクセス制御、監査、リネージ、およびデータディスカバリー機能を提供するDatabricks機能。「Unity Catalog とは」を参照してください。

V

ベクトルデータベース

埋め込みの格納と取得に最適化されたデータベース。埋め込みは、データ (通常はテキストまたは画像データ) の意味内容を数学的に表現したものです。Databricks は、 Delta テーブルでベクトルデータベース機能を使用できるようにするベクトル検索インデックスを提供します。 Mosaic AI Vector Searchを参照してください。

ビュー

SQL クエリによって定義される仮想テーブル。それ自体はデータを格納しませんが、1 つ以上のテーブルからのデータを特定の形式または抽象化で表示する方法を提供します。「ビューとは」を参照してください。

ボリューム (Unity Catalog)

非表形式データセットに対するガバナンスを可能にする Unity Catalog オブジェクト。ボリュームは、クラウド・オブジェクト・ストレージ・ロケーション内のストレージの論理ボリュームを表します。ボリュームは、ファイルへのアクセス、保存、管理、および整理の機能を提供します。 Unity Catalogボリュームとはを参照してください。

W

Lakeflow ジョブ

Databricks でデータ処理タスクをスケジュールおよび調整できるツールのセット。「ジョブLakeflow」を参照してください。

ワークロード

タスクまたはタスクのグループを実行するために必要な処理能力の量。 Databricks では、データエンジニアリング (ジョブ) とデータ分析 (汎用) の 2 種類のワークロードを識別します。「Databricks コンポーネント」を参照してください。

workspace

Databricks ユーザーがノートブック、エクスペリメント、クエリ、ダッシュボードなどのオブジェクトを開発、参照、共有できる組織環境。「ワークスペース UI」を参照してください。

A​

B​

C​

D​

E​

F​

G​

J​

L​

M​

N​

O​

P​

R​

S​

T​

U​

V​

W​

A

B

C

D

E

F

G

J

L

M

N

O

P

R

S

T

U

V

W