【分散分析】一元配置法を利用した分散分析の実践例

分散分析
あい
あい

今回は一元配置法を利用して
分散分析を説明します

[PR]※本サイトには、プロモーションが含まれています

分散分析(ANOVA: Analysis of Variance)とは?

分散分析とは

ばらつきを分けて解析する方法です

具体的にいうと

ある因子の影響によって

発生するばらつきが

統計的に有意かどうかを評価する手法です


次に分散分析の手順を示します。

分散分析(一元配置法)の手順

ある農場で

3つの異なる肥料の効果を比較するために

同じ作物を用いて実験が行われました


各肥料をランダムに選んで

それぞれ10区画に適用しました。


収穫量(kg)を見て


肥料の効果を比較するために

分散分析を実施します。

水準12345678910合計平均
肥料A1820222524211923202221421.4
肥料B1716181920212219181718718.7
肥料C2324252627282930313227527.5

データをプロットします

あい
あい

肥料の違いでがあ
肥料Cを利用した時の収穫量
が一番良いように見えますね!


肥料の違いによって

収穫量に差があるのか

統計学を利用して

判断する手法として

分散分析を紹介します

データの分解

肥料の変更以外で発生するばらつきを実験誤差

肥料の種類によって発生するばらつき

と2つに区分して考えていく

肥料の種類によって発生するばらつきが

肥料の変更以外で発生するばらつきに比べて

大きければ肥料による違いを認めることが出来る

同じぐらいであれば肥料による違いは

誤差程度であると
考える

データを\(x_{ij}\)と置いてデータを分解してみる
iを肥料の種類
jを繰り返し番号

データを次のように分解します

\(x_{ij}-\bar {\bar x}=(\bar x_{i・} – \bar{\bar x})+(x_{ij} – \bar x_{i・})\)

\(x_{ij}- \bar{\bar x}\)は個々のデータと全平均の差
\(\bar x_{i・} – \bar{\bar x}\)は肥料ごとの平均と全平均の差
\(x_{ij} – \bar x_{i・}\)は個々のデータと肥料ごとの平均の差

\(個々のデータと全平均の差\)
\(=肥料ごとの平均と全平均の差+個々のデータと肥料ごとの平均の差\)

実際のデータを分解していきます。
全平均\(\bar { \bar x}=22.53 ≒ 22.5\)

\(x_{ij}-\bar {\bar x}\)

-4.5-2.5-0.52.51.5-1.5-3.50.5-2.5-0.5
-5.5-6.5-4.5-3.5-2.5-1.5-0.5-3.5-4.5-5.5
0.51.52.53.54.55.56.57.58.59.5

\(\bar x_{i・} – \bar{\bar x}\)

-1.1-1.1-1.1-1.1-1.1-1.1-1.1-1.1-1.1-1.1
-3.8-3.8-3.8-3.8-3.8-3.8-3.8-3.8-3.8-3.8
5555555555

\(x_{ij} – \bar x_{i・}\)

-3.4-1.40.63.62.6-0.4-2.41.6-1.40.6
-1.7-2.7-0.70.31.32.33.30.3-0.7-1.7
-4.5-3.5-2.5-1.5-0.50.51.52.53.54.5

ばらつきの評価を行うためそれぞれを2乗する
\((x_{ij}-\bar {\bar x})^2\)

20.256.250.256.252.252.2512.250.256.250.25
30.2542.2520.2512.266.252.250.2512.2520.2530.25
0.252.256.2512.2520.2530.2542.2556.2572.2590.25

個々のデータと全体平均の差
二乗した総和を総平方和といい以下の式から求める
\(\displaystyle S_T =\sum_{i=1}^{3}\sum_{j=1}^{10} (x_{ij}-\bar {\bar x})^2=565.5\)

\((\bar x_{i・} – \bar{\bar x})^2\)

1.211.211.211.211.211.211.211.211.211.21
14.4414.4414.4414.4414.4414.4414.4414.4414.4414.44
25252525252525252525

肥料ごとの平均と全平均の差
二乗したものの総和をA間平方和といい以下の式から求める
\(\displaystyle S_A =\sum_{i=1}^{3}\sum_{j=1}^{10}(\bar x_{i・} – \bar{\bar x})^2 =406.5\)

\(x_{ij} – \bar x_{i・}\)

11.561.960.3612.966.760.165.762.561.960.36
2.897.290.490.091.695.2910.890.090.492.89
20.2512.256.252.250.250.252.256.2512.2520.25

個々のデータと肥料ごとの平均の差
二乗したものの総和を誤差間平方和
といい以下の式から求める
\(\displaystyle S_E =\sum_{i=1}^{3}\sum_{j=1}^{10} (x_{ij} – \bar x_{i・})^2=159\)

平方和

各データの平方和に関して以下の関係が成り立つ

\(S_T = S_A + S_E \)

\(\displaystyle S_T =\sum_{i=1}^{3}\sum_{j=1}^{10} (x_{ij}-\bar {\bar x})^2=565.5\)
\(\displaystyle S_A =\sum_{i=1}^{3}\sum_{j=1}^{10}(\bar x_{i・} – \bar{\bar x})^2 =406.5\)
\(\displaystyle S_E =\sum_{i=1}^{3}\sum_{j=1}^{10} (x_{ij} – \bar x_{i・})^2=159\)

\(S_A\)をそれぞれの肥料によるばらつき
\(S_E\)をそれぞれの誤差によるばらつき
と考える分散分析はばらつきを評価する
手法だが平方和のまま比較はできない
平方和から分散を求めて比較する必要がある

分散

分散は平方和を自由度で割る

\(\displaystyle V_A = \frac{S_A}{Φ_A}\)
\(\displaystyle V_E = \frac{S_E}{Φ_E}\)

自由度

肥料の違いは3種類

\(\bar x_{1・} – \bar{\bar x}=-1.13≒-1.1\)
\(\bar x_{2・} – \bar{\bar x}=-3.83≒-3.8\)
\(\bar x_{3・} – \bar{\bar x}=4.97≒5.0\)

計算結果より3種のデータの総和は≒0
つまり2つの値が決まればよい
\(S_A\)は2つの情報で構成されるの
\(Φ_A= 2\)

\(V_A=406.5/2=203.25\)

\(S_E\)も30個データがあるが
平方する前のデータを見てみると
最後の行は9行決まれば10行目の値が決まる

\(Φ_E= 30- 3=27\)
\(V_E= 159/27=5.89\)

次に\(V_AとV_E\)を比較するための
検定統計量を求める

\(\displaystyle F_0 =\frac{V_A}{V_E} \)

\(\displaystyle F_0 =\frac{V_A}{V_E} = 34.51 \)

分散分析表

要因平方和自由度分散\(F_0\)
A406.52203.2534.51
E159275.89

分散分析による仮説検定

目的は肥料によって収穫量に違いがあることを
上記を踏まえた上で帰無仮説、対立仮説
を設定する

帰無仮説は\(H_0\) : 肥料による違いはない
対立仮説は\(H_1\) : 肥料による違いがある

\(H_0 : μ_1 = μ_2 = μ_3\)
\(H_1 : H_0が成り立たない\)

検定統計量\(F_0\)は
帰無仮説\(H_0 \)の元で
自由度\(Φ_A , Φ_E\)のF分府に従う

片側検定の棄却域を設定する

\(R : F_0 ≧F(Φ_A ,Φ_E , α)\)
\(R : F_0 ≧F(2 ,27 , 0.01)=5.49\)

分散分析表を見ると
\(F_0 = 34.51\)より
統計的に有意である以上より
帰無仮説は棄却され
肥料の違いにより

収穫量の差があると判断する

最適な肥料による収穫量の推定と予測

次にどの肥料によって
収穫量が多くなるか
最適水準の
推定をしてみる

点推定 : \(\hat μ_i = \bar x_{i・}\)
区間推定 : 信頼率100(1-α)%の信頼区間
\((\displaystyle \hat x_i・-t(Φ_E , α)\sqrt{\frac{V_E}{r}} ,\) \hat x_i・+t(Φ_E , α)\sqrt{\frac{V_E}{r}})\)

点推定は各肥料の収穫量の平均なので

水準収穫量(Kg)の平均
肥料A21.4
肥料B18.7
肥料C27.5

収穫量の推定量は
肥料Cを利用した時が一番大きいので

肥料Cが最適水準と考える
肥料Cを利用した時
収穫量95%の信頼区間は

\((\displaystyle 27.5・-t(27 , 0.05)\sqrt{\frac{5.89}{2}} , \hat x_i・+t(27 , 0.05)\sqrt{\frac{5.89}{2}})\)

\([23.97,31.02]\)

もう一度同じ実験を行った時の
予測値
以下のようになる

点予測 : \(\hat μ_i = \bar x_{i・}\)
区間予測 : 信頼率100(1-α)%の予測区間
\((\displaystyle \hat x_i・-t(Φ_E , α)\sqrt{(\frac{1}{r}+1)V_E} , \)
\(\hat x_i・+t(Φ_E , α)\sqrt{(\frac{1}{r}+1)V_E})\)

分散分析基本用語

用語意味
因子特性値,このページでは肥料の事
水準因子の条件を変更した段階,このページでは肥料は3種類
つまり3水準
自由度平方和を割る定数
平均平方分散のこと
主効果因子による特性値の影響度
交互作用効果2つの因子による組み合わせによる特性値の影響度
要因主効果,交互作用効果,繰り返しの総称
繰り返し実験及び測定の繰り返し

参考文献

入門統計解析法
あい
あい

第6章 分散分析より

タイトルとURLをコピーしました