Databricks データエンジニアリング

Databricks データエンジニアリング機能は、データサイエンティスト、データエンジニア、データアナリストによる共同作業のためのロバストな環境を提供します。データエンジニアリングのタスクは、Databricksの機械学習 ソリューションのバックボーンでもあリます。

注:

SQLクエリーやBIツールを主に使用するデータアナリストであれば、Databricks SQLの方を好むかもしれません。

データエンジニアリングのドキュメントには、Databricksの共同作業によるアナリティクス・プラットフォームを最大限に活用するための手引きが記載されています。チュートリアルや基本情報については、はじめに:アカウントとワークスペースの設定およびDatabricksとはを参照してください。

  • Delta Live Tables

    Databricks Delta Live Tablesを用いて取り込みと変換のためのデータパイプラインを構築する方法を説明します。

  • 構造化ストリーミング

    Databricks の構造化ストリーミングを利用したストリーミング、インクリメンタル、リアルタイムのワークロードについて説明します。

  • Apache Spark

    Apache Spark が Databricks と Databricks プラットフォームでどのように機能するかについて説明します。

  • クラスター

    ワークスペースで使用できる Databricks コンピュートの種類について説明します。

  • ノートブック

    Databricksのノートブックとは何か、そして、データの処理、分析、可視化のためにノートブックを使用・管理する方法について説明します。

  • ワークフロー

    Databricksデータインテリジェンスプラットフォームでデータ処理、機械学習、データ分析のワークフローを調整する方法を学びます。

  • ライブラリ

    ライブラリを使い、Databricksでサードパーティまたはカスタムのコードを利用できるようにする方法を説明します。Databricks にライブラリをインストールするためのさまざまなモードについても説明します。

  • initスクリプト

    初期化(init)スクリプトを使用して、パッケージやライブラリのインストール、システムプロパティと環境変数の設定、Apache Sparkの設定パラメータの変更、Databricks クラスターでのその他の設定について学びましょう。

  • Gitフォルダ

    Databricksで開発するノートブックやその他のファイルのバージョンをGitを用いて管理する方法を学びます。

  • DBFS

    Databricksワークスペースにマウントされ、Databricksクラスターで使用できる分散ファイルシステムであるDatabricksファイルシステム(DBFS)について説明します。

  • ファイル

    Databricksでファイルを操作するためのオプションについて説明します。

  • 移行

    ETLジョブ、エンタープライズデータウェアハウス、ML、データサイエンス、アナリティクスなどのデータアプリケーションをDatabricksに移行する方法を説明します。

  • 最適化とパフォーマンス

    Databricksの最適化とパフォーマンスに関する推奨事項について学びます。