広告 統計学

統計学の歴史②:古代から現代まで、データ分析の進化と発展の軌跡

2025年2月19日

2. 19世紀~20世紀前半:統計学の黄金期

2-1 統計学の学問的確立

19世紀後半から20世紀初頭にかけて、統計学は独立した学問分野として確立されていきました。この時期、統計学は記述的な段階から分析的・推測的な段階へと発展し、その理論的基盤が大きく強化されました。

この時代の統計学発展の中心となったのが、イギリスの優生学者・統計学者カール・ピアソンです。ゴルトンの研究を引き継いだピアソンは、1901年に「統計的研究のための数学的貢献」を発表し、その中で相関係数(ピアソンの積率相関係数)を定式化しました。また、彼はカイ二乗検定など、多くの統計的検定手法を開発しました。

ピアソンは1901年に世界初の統計学専門誌「バイオメトリカ」を創刊し、1911年にはロンドン大学に世界初の統計学科を設立しました。彼は統計学の教育と研究のための制度的基盤を築くとともに、生物学、医学、社会科学などの分野への統計学の応用を積極的に推進しました。

同時期、フランシス・Y・エッジワースやウィリアム・S・ゴセットなどの統計学者も重要な貢献をしています。エッジワースは多変量分析の基礎を築き、ゴセットは小標本理論を発展させました。特にゴセットの「スチューデントのt分布」の発見は、サンプルサイズが小さい場合でも統計的推測を可能にする重要な進歩でした。

この時期の統計学発展のもう一つの特徴は、政府統計機関の整備と公的統計の発展です。19世紀から20世紀初頭にかけて、多くの国で政府統計局が設立され、人口・経済・社会に関する体系的なデータ収集が行われるようになりました。例えば、アメリカでは1902年に恒久的な統計局が設立され、イギリスでは1837年から民事登録制度が開始されました。

これらの公的統計の整備は、社会・経済現象の定量的分析を可能にし、「社会調査」という新しい統計的手法の発展を促しました。特に都市の貧困、労働条件、公衆衛生などの社会問題に関する調査が盛んに行われ、社会改革運動の科学的基盤となりました。

また、この時期には統計学の国際的な協力体制も形成されています。1885年には国際統計協会(ISI)が設立され、国際的な統計基準の統一や統計学の発展のための交流が促進されました。

学術面では、統計学は数学、生物学、経済学、心理学などの分野と密接に連携しながら発展しました。特に生物学との結びつきは強く、バイオメトリー(生物測定学)という新しい分野が誕生しました。この分野では、生物の形態や特性の測定と統計的分析が行われ、後の集団遺伝学や進化生物学の基礎となりました。

経済分野では、統計的手法を用いた経済分析が「計量経済学」として発展し始めました。特に時系列分析や指数理論などの統計的手法が経済現象の理解に応用されるようになりました。

このように、19世紀末から20世紀初頭にかけて、統計学は理論的基盤の強化、応用範囲の拡大、制度的基盤の確立という三つの面で大きく発展し、独立した学問分野としての地位を確立していったのです。

2-2 推測統計学の誕生

20世紀初頭から中頃にかけて、統計学の中で最も革命的な発展があったのが「推測統計学」の分野です。推測統計学とは、サンプル(標本)から母集団の特性を推測するための理論と方法を扱う統計学の一分野で、現代統計学の中核を成しています。

推測統計学発展の中心人物となったのが、イギリスの統計学者ロナルド・A・フィッシャーです。彼は1925年に『研究者のための統計的方法』を発表し、実験計画法と分散分析の理論を体系化しました。フィッシャーの最大の貢献は、仮説検定のための厳密な枠組みを構築し、p値や有意水準という概念を導入したことです。これにより、科学的実験から得られたデータの解釈に統計学的な厳密さがもたらされました。

フィッシャーはまた、最尤法という統計的推定法を開発し、統計学の理論的基盤を大きく強化しました。彼は1935年の『実験計画法』において、無作為化、繰り返し、ブロック化などの実験デザインの原則を確立し、科学実験の方法論に革命をもたらしました。

一方、イギリスの統計学者エゴン・ピアソン(カール・ピアソンの息子)とポーランド出身の数学者ジェジー・ネイマンは、1930年代に「ネイマン=ピアソン理論」として知られる仮説検定の厳密な数学的枠組みを構築しました。彼らは第一種の誤り(偽陽性)と第二種の誤り(偽陰性)の概念を導入し、検定力(power)や最適検定の理論を発展させました。

フィッシャーとネイマン=ピアソンのアプローチは根本的な哲学的・方法論的違いを持っており、両者の間には激しい論争がありました。しかし、今日の推測統計学は両者のアプローチを統合したものになっています。

同時期、イギリスの統計学者ウィリアム・S・ゴセット(「スチューデント」というペンネームで論文を発表)は、小標本理論を発展させ、特に正規分布から抽出された小さなサンプルの平均値の分布(t分布)を導出しました。この「スチューデントのt検定」は、サンプルサイズが小さい場合でも統計的推測を可能にするもので、特に実験科学の分野で広く採用されました。

1930年代から40年代には、アブラハム・ワルドによってシーケンシャル分析(逐次分析)が開発され、特に品質管理や臨床試験の分野で重要な応用を見ました。また、ハロルド・ホテリングは主成分分析や正準相関分析など、多変量解析の手法を発展させました。

推測統計学の発展は、理論的な進歩だけでなく、その応用範囲の拡大も特徴としています。特に農業実験、工業の品質管理、医学研究、心理学的測定などの分野で推測統計学の手法が積極的に採用されるようになりました。フィッシャーが英国のロザムステッド農業試験場で行った仕事は、農業研究における統計的方法の重要性を示す先駆的なものでした。

また、第二次世界大戦中および戦後には、オペレーションズ・リサーチ(OR)という新しい分野が統計学と密接に関連して発展しました。これは軍事作戦や産業プロセスの効率化のために数学的・統計的手法を用いる分野で、現代の意思決定科学の基礎となりました。

このように、20世紀前半に大きく発展した推測統計学は、データから一般的法則を導き出すための強力な方法論を提供し、科学研究の方法自体に革命をもたらしました。現代の科学研究で当たり前となっている実験デザインや統計的仮説検定の枠組みは、この時代に確立されたものなのです。

2-3 応用統計学の広がり

19世紀末から20世紀前半にかけて、統計学の理論的発展と並行して、その応用範囲も急速に拡大しました。統計的手法は多様な学問分野や実務領域に導入され、それぞれの分野に大きな変革をもたらしました。

農業分野では、フィッシャーのロザムステッド農業試験場での仕事が先駆的でした。彼は実験計画法と分散分析を用いて作物の収量に影響する要因を科学的に分析し、農業研究に革命をもたらしました。この手法は新品種の開発や肥料・農薬の効果検証などに広く応用され、20世紀の農業生産性向上に大きく貢献しました。

工業分野では、統計的品質管理が重要な応用領域となりました。アメリカの物理学者ウォルター・シューハートは、1920年代にベル研究所で統計的プロセス管理(SPC)の基礎を築き、管理図という品質変動を監視するためのツールを開発しました。これは大量生産システムにおける品質管理の基本となり、特に第二次世界大戦中の軍需生産で重要な役割を果たしました。

第二次世界大戦後、日本に統計的品質管理を導入したエドワーズ・デミングとジョセフ・ジュランの貢献も特筆すべきものです。彼らの指導の下、日本企業は統計的手法を徹底的に採用し、「品質革命」を達成しました。この成功は後に「シックスシグマ」など、より洗練された統計的品質管理手法の開発につながりました。

医学・公衆衛生分野では、疫学研究に統計的手法が導入され、疾病の原因究明や予防策の評価に革命的な進歩がもたらされました。1950年代のドール・ヒルによるタバコと肺がんの関連性を示した研究は、統計的疫学研究の代表的成功例です。また、臨床試験における無作為化比較試験(RCT)の方法論が確立され、医薬品や治療法の有効性・安全性評価の金標準となりました。

経済学分野では、統計的手法を用いた実証分析が「計量経済学」として発展しました。1930年代にラグナル・フリッシュとヤン・ティンバーゲンが計量経済学の基礎を築き、経済理論と統計的検証を結びつける枠組みを提供しました。彼らは1969年に第1回ノーベル経済学賞を共同受賞しています。

心理学分野では、心理測定学(サイコメトリクス)が発展し、知能、性格、態度などの心理的特性を測定・分析するための統計的手法が開発されました。特に因子分析は、チャールズ・スピアマンによって知能研究の文脈で開発され、後にルイス・サーストンらによって一般化されました。また、心理学実験における統計的方法の標準化も進みました。

社会学分野では、サンプリング理論に基づく社会調査手法が発展し、世論調査や市場調査などが科学的に行われるようになりました。特にアメリカのジョージ・ギャラップは世論調査の方法論を確立し、1936年の大統領選挙予測で成功を収めました(ただし1948年の選挙では失敗しています)。

地理学や生態学などの分野でも、空間的パターンや種の分布を分析するための統計的手法が開発されました。また、時系列分析の方法論も気象学や経済学などの分野で大きく発展しました。

このように、20世紀前半には統計学の応用範囲が急速に拡大し、各応用分野で統計学の専門家が育成されるようになりました。この時期に、統計学は単なる道具から、科学的探究と意思決定の基本的方法論へと発展したのです。応用分野の多様化は、統計学自体の発展にも刺激を与え、新しい統計的手法や理論の開発につながりました。

R言語

2025/2/26

ベルヌーイ分布とは?確率論の基本から具体例、Rでのシミュレーションまで解説!

確率論や統計学の基礎において、「ある事象が起こるか、起こらないか」を表現するのに便利な分布がベルヌーイ分布です。 例えば、 コインを投げたときに表(1)が出る確率 メールがスパム(1)かそうでない(0)か 機械が正常に作動するか(1)しないか(0) このように、結果が**「成功」または「失敗」の二択** となる確率モデルを扱う際にベルヌーイ分布が使われます。本記事では、以下のポイントを解説します。 ✅ ベルヌーイ分布の基本概念と性質✅ 実際のデータや応用例を用いた説明' ...

ReadMore

R言語

2025/2/27

ロバスト統計学とは?異常値に強い統計手法の基礎からRによる実装まで徹底解説!

統計分析を行う際、データの中に 外れ値(異常値) が含まれていることはよくあります。例えば、以下のようなケースが考えられます。 ✅ 売上データにおいて、一部の異常に高い値がある✅ 医療データで、極端に異常な検査結果が混ざっている✅ センサー測定値にノイズが含まれ、誤ったデータが発生している このような異常値の影響を受けると、平均値や標準偏差などの統計量が歪み、本来のデータの傾向を適切に反映できなくなる 可能性があります。 この問題を解決するのが、ロバスト統計学(R ...

ReadMore

特殊なグラフ

2024/4/26

R言語でQQプロットを作成する方法

はじめに QQプロット(Quantile-Quantileプロット)は統計分析で非常に役立つツールです。これを使って、データセットが特定の理論分布に従っているかどうかを視覚的に評価することができます。R言語には、この種のプロットを簡単に作成できる強力なツールが用意されています。この記事では、R言語を使用してQQプロットを作成する基本的なステップを説明します。 必要なパッケージ QQプロットを描くためには、基本的にstatsパッケージが必要ですが、これはRの標準パッケージに含まれているため、特別なインストー ...

ReadMore

統計学基礎

2025/2/27

多重共線性とは?統計分析への影響と対策、Rでの検出方法を徹底解説!

統計分析や機械学習において、説明変数(独立変数)同士が強い相関を持つこと は、回帰モデルの推定精度を低下させる可能性があります。 このような状況を 「多重共線性(Multicollinearity)」 と呼びます。 多重共線性が起こると何が問題か? ✅ 回帰係数の推定値が不安定 になり、解釈が難しくなる✅ 統計的な有意性(p値)が正しく評価できなくなる✅ モデルの予測精度が低下 し、新しいデータに対して適用しにくくなる 例えば、以下のようなデータセットを考えます。 ...

ReadMore

回帰分析

2025/2/26

偏回帰分析とは?基本概念から解釈、Rによる実装まで徹底解説!

統計分析において、「ある説明変数が目的変数に与える影響を評価したい」と考えることはよくあります。しかし、多くのデータには 複数の説明変数が同時に影響を及ぼしている ため、単純な単回帰分析では正しい評価ができないことがあります。 そこで活用されるのが 偏回帰分析(Partial Regression Analysis) です。 ✅ 偏回帰分析の主な目的 特定の変数が目的変数に与える影響を、他の変数の影響を除外した上で評価する 多変量データの中で、各説明変数の相対的な寄与度を明確にする 重回帰分 ...

ReadMore

統計学基礎

2025/2/26

ベイズ統計学とは?事前確率と事後確率を用いた推論の基礎からRでの実装まで徹底解説!

統計学において、「新しい情報を得たときに、既存の知識をどのように更新するか?」という問題は非常に重要です。その問題に答えるのがベイズ統計学 です。 ベイズ統計学(Bayesian Statistics) は、事前確率(prior probability)と新しいデータの尤度(likelihood)を組み合わせ、事後確率(posterior probability)を求めることで推論を行います。 例えば、以下のようなケースで活用されています。 ✅ 医療診断:「ある検査で陽性が出た場合、本当に病 ...

ReadMore

-統計学

S