はじめに
データの可視化の重要性
データ分析において、データの可視化は非常に重要な作業です。データの分布や傾向を視覚的に理解することで、データの特徴をより深く理解することができます。
データの可視化には、さまざまな方法があります。その中でも、散布図は、2次元データの分布を視覚化するためによく使用される方法です。散布図は、データの各点の座標をプロットすることで、データの分布を直感的に把握することができます。
しかし、散布図だけでは、データの分布の詳細を理解することは難しい場合があります。例えば、データに複数のクラスターが存在する場合、散布図ではクラスターが重なってしまい、それぞれのクラスターの特徴を区別することが困難になります。
このような場合に、密度の等高線を重ねて表示することで、データの分布の詳細をよりわかりやすく表現することができます。
2次元データの密度プロット
密度プロットは、データの分布を示すためのグラフです。密度プロットは、データの各点の周囲の密度を色や濃さで表現することで、データの分布の特徴を視覚的に把握することができます。
2次元データの密度プロットを作成するには、カーネル密度推定法と呼ばれる方法がよく使用されます。カーネル密度推定法は、データの各点周囲の密度をカーネル関数を用いて推定する方法です。
R言語では、カーネル密度推定法を使用して密度プロットを描くことができる関数がいくつか用意されています。例えば、geom_density_2d()
関数は、2次元データの密度プロットを描くための関数です。
本記事の内容
本記事では、R言語を使用して2次元データの散布図を作成し、その上に密度の等高線を重ねて表示する方法を紹介します。
具体的には、以下の手順で作業を行います。
- 2次元データを準備する
- 散布図を作成
- 密度プロットを作成
- 密度の等高線を重ねて表示
初心者でもわかりやすいように、サンプルコードも掲載しています。
ぜひ、本記事を参考にして、R言語で2次元データの密度プロットを描いてみてください。
2次元データの密度プロットを描く方法
必要なパッケージとデータの準備
本ブログ記事では、ggplot2
とMASS
パッケージを使いますので、まだインストールしていない人はインストールして、ライブラリーを呼び出してください。サンプルコードは次のとおりです。
必要なパッケージの準備
#パッケージのインストール
install.packages("ggplot2")
install.packages("MASS")
#ライブラリの呼び出し
library(ggplot2)
library(MASS)
データの準備
ここでは、MASS
パッケージに含まれる geyser
データセットを使用します。
# データセットの読み込み
data(geyser)
geyser
データセットとは?
geyser
データセットは、R言語の統計パッケージ MASS
に含まれる有名なデータセットの一つです。このデータセットは、アメリカ合衆国ワイオミング州にあるイエローストーン国立公園内のオールドフェイスフル間欠泉(Old Faithful geyser)の噴出に関するデータを含んでいます。
データセットの内容
geyser
データセットには主に以下の2つの変数が含まれています:
-
duration(持続時間): オールドフェイスフルの噴出の持続時間(分単位)。これは、間欠泉が噴出している時間の長さを示します。
-
waiting(待ち時間): 連続する2回の噴出の間の待ち時間(分単位)。これは、一つの噴出が終わってから次の噴出が始まるまでの時間を示します。
データセットの使用
geyser
データセットは、特に統計学やデータサイエンスの分野で、データの探索的分析(Exploratory Data Analysis, EDA)やクラスタリング、回帰分析、時間系列分析などの教育や実践的な例としてよく使用されます。このデータセットの特徴は、2つの変数間に明確な関係が見られることと、特定のパターンやクラスタが存在することです。
データセットの重要性
geyser
データセットは、実世界のデータがどのように振る舞うかを理解するのに役立つ典型的な例です。このデータセットを用いることで、データサイエンティストや統計学者はデータの可視化、パターン認識、統計的推論の技術を練習し、実践することができます。また、異なるデータ分析手法の効果を比較するための基準としても使用されます。
散布図の作成
まず、データポイントの散布図を作成します。
# 散布図の作成
ggplot(geyser, aes(x = duration, y = waiting)) +
geom_point() +
labs(title = "Geyser Duration vs Waiting Time Scatter Plot",
x = "Duration",
y = "Waiting Time") +
theme_minimal()
スクリプトの解説
-
ggplot() 関数: この関数は、グラフの基本的な枠組みを設定します。ここでは
geyser
データセットを使用し、aes()
関数を通じて、x軸にduration
(持続時間)、y軸にwaiting
(待ち時間)をマッピングしています。 -
geom_point() 関数: この関数は散布図のポイント(データポイント)をプロットします。
ggplot()
関数で設定されたaes()
のマッピングに基づいて、各データポイントをx軸とy軸にプロットします。 -
labs() 関数: グラフのラベルを設定します。ここでは、グラフのタイトルを "Geyser Duration vs Waiting Time Scatter Plot" に設定し、x軸のラベルを "Duration"、y軸のラベルを "Waiting Time" に設定しています。
-
theme_minimal() 関数: グラフのテーマを設定します。
theme_minimal()
は、シンプルで読みやすいデザインのテーマを提供します。
<スクリプトの目的>
このスクリプトの目的は、オールドフェイスフル間欠泉の噴出持続時間と噴出間の待ち時間の関係を視覚化することです。散布図は、これら二つの変数間の関係を理解するのに役立ち、データポイントの分布やパターンを明確に示します。
生成されるグラフ
ここまでのスクリプトを実施すると次のようなグラフが出来上がります。
密度の等高線の作成
次に、同じデータセットに対して密度の等高線を示すグラフを作成します。
# 密度の等高線の作成
ggplot(geyser, aes(x = duration, y = waiting)) +
geom_density_2d() +
labs(title = "Density Contours of Geyser Duration vs Waiting Time",
x = "Duration",
y = "Waiting Time") +
theme_minimal()
スクリプトの解説
-
ggplot() 関数: この関数はグラフの基本的な枠組みを設定します。ここでは
geyser
データセットを使用し、aes()
関数を通じて、x軸にduration
(持続時間)、y軸にwaiting
(待ち時間)をマッピングしています。 -
geom_density_2d() 関数: この関数は、2次元の密度推定を行い、その結果を等高線で表示します。これにより、データポイントが集中している領域やパターンが視覚的に明確になります。等高線は、データの密度が高い領域を示すために使用されます。
-
labs() 関数: グラフのラベルを設定します。ここでは、グラフのタイトルを "Density Contours of Geyser Duration vs Waiting Time" に設定し、x軸のラベルを "Duration"、y軸のラベルを "Waiting Time" に設定しています。
-
theme_minimal() 関数: グラフのテーマを設定します。
theme_minimal()
は、シンプルで読みやすいデザインのテーマを提供します。
生成されるグラフ
ここまでのスクリプトを実施すると次のようなグラフが出来上がります。
散布図と等高線の重ね合わせ
次に、散布図と密度の等高線を重ねて表示します。
# 散布図と密度の等高線を重ねて表示
ggplot(geyser, aes(x = duration, y = waiting)) +
geom_point() +
geom_density_2d() +
labs(title = "Scatter Plot with Density Contours of Geyser Duration vs Waiting Time",
x = "Duration",
y = "Waiting Time") +
theme_minimal()
スクリプトの解説
-
ggplot() 関数: この関数はグラフの基本的な枠組みを設定します。ここでは
geyser
データセットを使用し、aes()
関数を通じて、x軸にduration
(持続時間)、y軸にwaiting
(待ち時間)をマッピングしています。 -
geom_point() 関数: この関数は散布図のポイント(データポイント)をプロットします。
ggplot()
関数で設定されたaes()
のマッピングに基づいて、各データポイントをx軸とy軸にプロットします。 -
geom_density_2d() 関数: この関数は、2次元の密度推定を行い、その結果を等高線で表示します。これにより、データポイントが集中している領域やパターンが視覚的に明確になります。等高線は、データの密度が高い領域を示すために使用されます。
-
labs() 関数: グラフのラベルを設定します。ここでは、グラフのタイトルを "Scatter Plot with Density Contours of Geyser Duration vs Waiting Time" に設定し、x軸のラベルを "Duration"、y軸のラベルを "Waiting Time" に設定しています。
-
theme_minimal() 関数: グラフのテーマを設定します。
theme_minimal()
は、シンプルで読みやすいデザインのテーマを提供します。
生成されるグラフ
ここまでのスクリプトを実施すると次のようなグラフが出来上がります。