今回は平均値や中央値
最頻値の意味が分からないよ~
って人向けに私が
説明していきます !
[PR]※本サイトには、プロモーションが含まれています
目次
今回紹介する統計値 !
統計量 | 数学記号 |
平均(mean) | \(\overline x\) |
中央値(median) | \(median\) |
最頻値(mode) | \(mode\) |
範囲(range) | \(range\) |
統計量って?
統計量は
“あるグループのデータの特徴を数値で表したもの“です。
・・・・?
Iさん・・?
授業でやったよね
もう一回説明しようか?
せ、先生! お願いします!
OK !
統計量の代表的な
平均値を使って
説明していくよ!
1組5人のA組 ,B組が
あったとしよう!
下の表が数学の点数を
纏めたものなんだ
どっちの組の方が
点数は良いと言えるかな ?
A組 | B組 |
60 | 70 |
45 | 30 |
85 | 55 |
55 | 80 |
60 | 75 |
先生!
人によって
点数が違うので
わかりません!
そうだね!
このままだとどっちの
組の点数が良いか
判断できないよね
なので平均値をデータから
計算して客観的に
判断していくんだ
平均値・・?
Iさん!?
・・平均値は
グループ内のデータの合計を
データの総数で割った値を
求めることで計算できるんだ。
この問題では
データの合計は
“A組の合計点数”
“B組の合計点数”
データの総数は
“A組の人数”
“B組の人数”だね
\(\displaystyle\overline x_A =\frac{“A組の合計点数”}{“A組の人数”} \)
\(\displaystyle\overline x_A =\frac{60+45+85+55+60}{5} = 61\)
\(\displaystyle\overline x_B =\frac{“B組の合計点数”}{“B組の人数”} \)
\(\displaystyle\overline x_A =\frac{70+30+55+80+75}{5} = 62\)
B組の方が点数が高い!
平均値によって
B組の方が
点数が高いと
判断できました。
このように
統計量を
計算することで
グループの特徴を
表すことが出来るんです!
平均値(Mean)
平均値は
“データの合計をデータの総数で割った値“
平均値の公式(高校範囲)
\(\displaystyle\overline x=\frac{1}{n} \sum_{k=1}^{n}x_k\)
平均値の公式は
覚えておくと
いいですよ!
は~い
次にいろいろな
平均値の派生形
を教えます
母平均と標本平均
母平均は「全体の集団(母集団)の平均」
標本平均は「サンプリングされたデータの平均」を示す。
例えると
母平均は
Iさんのクラス全員の平均
標本平均は
Iさんのクラスの何人かの平均
って感じだね!
わかりやすい!
平均値って
便利ですね!
平均値を使えば
グループの真ん中が
わかるんですね!
平均値は集団の
特徴を掴むのに
便利な統計量ですが
実は弱点が
あるんです!
じゃ弱点!?
平均値は外れ値に弱い
平均値は極端に離れた値異常値や外れ値に弱い
下記に極端な外れ値 がある集団と
ない集団の平均値を確認していきます
外れ値がある集団\(\overline x_2\):40,20,30,45,53,24,32,38,56,2000
平均値 \(\overline x_1=38.1\) \(\overline x_2=233.8\) 上記の結果から分かるように
極端な数字に左右されやすいことが分かります。
極端な数字によって左右されやすい。
このように
外れ値や異常値対して敏感な統計量は
頑健性(ロバスト性)が低いといいます
仲間外れの値が
大きかったら
平均値の計算は
出来ないってこと!?!?
はい。
なので異常値を
取り除いてあげて
平均値を計算してあげたり
頑健性の高い統計量を
使用して集団の特徴を
掴む必要があります
最後に頑健性の強い
トリム平均
最頻値,中央値を
紹介していきます
は~い(つかれた(;´Д`))
トリム平均
トリム平均
n個のデータを昇順に並べてその最大値と最小値を取り除き
残りのn-2個から求めた平均
\(\displaystyle\overline x=\frac{1}{n-2} \sum_{k=2}^{n-1}x_k\)
意図的にデータの外れ値を
取り除くことができます
さっきのデータから
40と2000を取り除いて
トリム平均を計算
してみましょう
\(\displaystyle\overline x_2 =\frac{40+30+45+53+24+32+38+56}{8} = 39.75\)
凄い!
平均値が233から
39.75になったよ
はい
明らかに外れ値が
あったら
事前に処理しておきましょう
中央値(median)
中央値(midian)
データを昇順に並び替えて
データの個数が奇数の場合は中央に位置する値であり
偶数の場合は中央の2つの値の平均です。
中央値は、外れ値の影響を受けにくい頑健な統計量の1つです。
最頻値(mode)
最も多く観測された値
範囲(Range)
データの範囲=最大値-最小値=\(R_{max}-R_{min}\)
今回は平均値や中央値
最頻値について説明
していきました。
ありがとうございました!
・・・・・