Databricks での探索的データ分析: ツールと手法
この記事では、Databricks での探索的データ分析 (EDA) のツールと手法について説明します。
EDAとは何か、なぜ役立つのか?
探索的データ分析 (EDA) には、データ セットを探索して、その主な特性を要約し、データの問題を特定する方法が含まれています。 統計的手法と視覚化を使用して、データセットについて学習し、分析の準備が可能かどうかを判断し、データ準備に適用すべき手法を通知できます。 EDA は、ML モデルのトレーニングに適用するアルゴリズムにも影響を与える可能性があります。
Databricks の EDA ツールとは何ですか?
Databricks には、 Databricks SQL と Databricks Runtimeの両方に組み込み分析ツールと視覚化ツールがあります。 Databricks で使用できる視覚化の種類の一覧については、「 視覚化の種類」を参照してください。
Databricks SQL の EDA
Databricks SQL のデータ視覚化ツールと探索ツールに関する役立つ記事をいくつか紹介します。
Databricks Runtime の EDA
Databricks Runtime は、一般的なデータ探索ライブラリが既にインストールされている事前構築済みの環境を提供します。 組み込みライブラリのリストは、 リリースノートで確認できます。
さらに、次の記事では、Databricks Runtime の視覚化ツールの例を示しています。
Databricks Python ノートブックでは、SQL と Python を組み合わせてデータを探索できます。 Python ノートブックの SQL 言語セルでコードを実行すると、テーブルの結果は自動的に Python データフレーム として使用可能になります。 詳細については、「 Python ノートブックでの SQL セルの結果の調査」を参照してください。