広告 散布図

Rによる散布図の描き方(変数の大きさをグラフに反映させる方法)

2023年11月4日

R言語でggplot2パッケージを使用して、変数の値を色や大きさにマッピングした散布図を作成する方法を説明します。まず、ggplot2パッケージが必要ですので、インストールされていない場合はインストールしてください。

#ggplot2のインストール
install.packages("ggplot2") 
library(ggplot2)

データの準備: mtcarsデータセットを使用

mtcarsデータセットはRに組み込まれているサンプルデータです。

mtcarsデータセットの中身を見るには次のようにmtcarsと入力し、実行すると現れます。

mtcars

すると次の様に表示されます。データセットの中身はこのようになっています。

散布図の作成

このデータセットを使って、車の重量(wt)と燃費(mpg)の関係を散布図で表し、各車のシリンダー数(cyl)を色で、馬力(hp)を点の大きさで表します。

ggplot(mtcars, aes(x = wt, y = mpg, color = factor(cyl), size = hp)) +
geom_point() +
labs(color = "Cylinders", size = "Horse Power") +
theme_minimal() +
ggtitle("Car Weight vs. Mileage: Colored by Cylinders and Sized by Horse Power") +
theme(
axis.title.x = element_text(size=16), # X軸ラベルのフォントサイズ
axis.title.y = element_text(size=16), # Y軸ラベルのフォントサイズ
axis.text.x = element_text(size=12, family="Helvetica", face="bold"), # X軸数値のフォント
axis.text.y = element_text(size=12, family="Helvetica", face="bold") # Y軸数値のフォント
)

ggplot部分の解説

  • ggplot(mtcars, aes(x = wt, y = mpg, color = factor(cyl), size = hp)): ggplot関数でmtcarsデータセットを使用し、aes(aesthetic mappings)でwt(重量)をx軸に、mpg(燃費)をy軸に設定。color = factor(cyl)でシリンダー数を色で表し、size = hpで馬力を点の大きさで表します。
  • geom_point(): 点をプロットするための関数です。
  • labs(color = "Cylinders", size = "Horse Power"): 色とサイズの凡例のラベルを「Cylinders」と「Horse Power」に設定します。
  • theme_minimal(): グラフのテーマをシンプルなデザインに設定します。
  • ggtitle("Car Weight vs. Mileage: Colored by Cylinders and Sized by Horse Power"): グラフのタイトルを設定します。

theme部分の解説

  • axis.title.x = element_text(size=16): X軸のタイトルのフォントサイズを16に設定します。
  • axis.title.y = element_text(size=16): Y軸のタイトルのフォントサイズを16に設定します。
  • axis.text.x = element_text(size=12, family="Helvetica", face="bold"): X軸のテキスト(数値)のフォントサイズを12、フォントファミリーをHelvetica、スタイルを太字に設定します。
  • axis.text.y = element_text(size=12, family="Helvetica", face="bold"): Y軸のテキスト(数値)のフォントサイズを12、フォントファミリーをHelvetica、スタイルを太字に設定します。

これらの設定により、散布図の見た目がより読みやすく、プロフェッショナルな外観になります。フォントサイズやフォントファミリーの変更は、グラフの情報をより明確に伝えるために重要です。

散布図の出力

以上のスクリプトを実行すると次のような散布図が得られます。

シリンダー数に基づいて色を自分で指定したい場合

シリンダー数(cyl)に基づいて色を自分で指定したい場合、ggplot2scale_color_manual関数を使用して、特定の色を各シリンダー数に割り当てることができます。以下にその方法を示します。

シリンダー数に基づく色の手動設定

まず、mtcarsデータセットのcyl(シリンダー数)列に含まれるユニークな値を確認します。mtcarsデータセットには、通常4, 6, 8のシリンダー数があります。

次に、これらのシリンダー数ごとに色を指定します。

ggplot(mtcars, aes(x = wt, y = mpg, color = factor(cyl), size = hp)) +

geom_point() +
scale_color_manual(values = c("4" = "black", "6" = "yellow", "8" = "purple")) +
labs(color = "Cylinders", size = "Horse Power") +
theme_minimal() +
ggtitle("Car Weight vs. Mileage: Colored by Cylinders and Sized by Horse Power") +
theme(
axis.title.x = element_text(size=16),
axis.title.y = element_text(size=16),
axis.text.x = element_text(size=12, family="Helvetica", face="bold"),
axis.text.y = element_text(size=12, family="Helvetica", face="bold")
)

スクリプトを実行すると次のような散布図が得られます。色が変わっていますね。

特殊なグラフ

2024/4/26

R言語でQQプロットを作成する方法

はじめに QQプロット(Quantile-Quantileプロット)は統計分析で非常に役立つツールです。これを使って、データセットが特定の理論分布に従っているかどうかを視覚的に評価することができます。R言語には、この種のプロットを簡単に作成できる強力なツールが用意されています。この記事では、R言語を使用してQQプロットを作成する基本的なステップを説明します。 必要なパッケージ QQプロットを描くためには、基本的にstatsパッケージが必要ですが、これはRの標準パッケージに含まれているため、特別なインストー ...

ReadMore

グラフのカスタマイズ

2024/4/17

Rでエラーバー付きのグラフを作成する方法

はじめに データの可視化において、エラーバーはデータの変動や不確実性を表現する重要な手段です。R言語を用いたグラフ作成においてエラーバーを追加する方法を学ぶことで、データの解釈をより深く行うことが可能になります。この記事では、基本的なエラーバーの追加方法から、カスタマイズする方法までを段階的に解説します。 エラーバーを含むグラフの重要性 エラーバーは、データ点のばらつきや測定の不確かさを表すのに役立ちます。科学研究や技術報告でよく見られるこの表現方法は、データの信頼性や有効性を視覚的に伝えるために不可欠で ...

ReadMore

グラフのカスタマイズ

2024/4/17

R言語でのグラフ作成:X軸とY軸のスケール比の設定方法

はじめに R言語はデータ分析と可視化に非常に強力なツールです。特にグラフ作成機能は多くのデータサイエンティストや研究者に利用されています。この記事では、R言語でグラフを作成する際にX軸とY軸のスケール比を設定する方法を詳しく解説します。スケール比を調整することで、データの比率や関係性をより正確に表現することが可能になります。 グラフの基本的な作成方法 まず、R言語で基本的なグラフを作成する方法から見ていきましょう。ここでは、plot() 関数を使用してシンプルな散布図を描きます。 # サンプルデータの生成 ...

ReadMore

統計学基礎

2025/2/27

多重共線性とは?統計分析への影響と対策、Rでの検出方法を徹底解説!

統計分析や機械学習において、説明変数(独立変数)同士が強い相関を持つこと は、回帰モデルの推定精度を低下させる可能性があります。 このような状況を 「多重共線性(Multicollinearity)」 と呼びます。 多重共線性が起こると何が問題か? ✅ 回帰係数の推定値が不安定 になり、解釈が難しくなる✅ 統計的な有意性(p値)が正しく評価できなくなる✅ モデルの予測精度が低下 し、新しいデータに対して適用しにくくなる 例えば、以下のようなデータセットを考えます。 ...

ReadMore

回帰分析

2025/2/26

偏回帰分析とは?基本概念から解釈、Rによる実装まで徹底解説!

統計分析において、「ある説明変数が目的変数に与える影響を評価したい」と考えることはよくあります。しかし、多くのデータには 複数の説明変数が同時に影響を及ぼしている ため、単純な単回帰分析では正しい評価ができないことがあります。 そこで活用されるのが 偏回帰分析(Partial Regression Analysis) です。 ✅ 偏回帰分析の主な目的 特定の変数が目的変数に与える影響を、他の変数の影響を除外した上で評価する 多変量データの中で、各説明変数の相対的な寄与度を明確にする 重回帰分 ...

ReadMore

統計学基礎

2025/2/26

ベイズ統計学とは?事前確率と事後確率を用いた推論の基礎からRでの実装まで徹底解説!

統計学において、「新しい情報を得たときに、既存の知識をどのように更新するか?」という問題は非常に重要です。その問題に答えるのがベイズ統計学 です。 ベイズ統計学(Bayesian Statistics) は、事前確率(prior probability)と新しいデータの尤度(likelihood)を組み合わせ、事後確率(posterior probability)を求めることで推論を行います。 例えば、以下のようなケースで活用されています。 ✅ 医療診断:「ある検査で陽性が出た場合、本当に病 ...

ReadMore

-散布図
-

S