
計測や実験などで得られた
連続的な測定値を
整理し視覚的に情報を得る
手法として
ヒストグラムという
手法が存在します
今回はヒストグラムを
エクセルで作成して
説明をします!
[PR]※本サイトには、プロモーションが含まれています

目次
ヒストグラム(histogram)とは?
連続データの分布を
視覚的に表現するためのグラフ
縦軸を度数、横軸を各区間に分け
グラフを作ります

ヒストグラム・・?
どんなグラフなんだろう?
5個のデータを使ってヒストグラムを説明する
最初は難しいので
6個の数学のテストデータを
使って簡単に説明します
1 | 2 | 3 | 4 | 5 | 6 |
61 | 78 | 72 | 71 | 92 | 91 |

このデータだと
今回のテストが
どんな感じだったのか
ぱっと見わからないよ~
この問題を解決すべく
ヒストグラムが利用されます
各区間をまず用意してあげます
61 ~ 70 点の人は1人
71~80点の人は3人
81~90点の人は0人
91 ~100点の人は2人
階級 | 人数 |
61 ~ 70 | 1 |
71 ~ 80 | 3 |
81 ~ 90 | 0 |
90 ~ 100 | 2 |
と分けていきます
縦軸を人数
横軸を各点数毎の階級をラベルにして
ヒストグラムを作ります


ヒストグラムを
見ることで
71点 ~ 80点の
人が何人いるか
などすぐ判断できる
ようになりましたね
ヒストグラムを実装する
ヒストグラム実装するための
フローを書きだしました。
ヒストグラムの作成フロー


こんなにたくさんの
フローがあるの⁉
エクセルでヒストグラムを実装する
データの測定範囲とデータ数を明確にしよう
下記に測定単位0.5の測定データを50個用意する
14.5,23.5,35.5,21.5,27,22.5,28,26.5,27,29,17,22.5,35,22,27,24,32,12.5,20,25,27.5,34,13.5,20,23.5,18.5,24,27.5,21,25,30,23.5,26.5,23,22.5,26,22,20,15.5,16,29.5,18,26,31.5,10,24.5,19.5,24.5,22.5,21.5
データの個数は50個なので
データサイズは50
測定単位は0.5

データがどんな
データかわかりましたね!
データから最大値、最小値、範囲を求めよう
エクセルにデータを入れていきましょう
Excelはおおよそ1048576行
読めるのでそれを越えなければ
大丈夫です
データをセットして
基本統計量を計算して
最大値、最小値、範囲を求めていきます

百万行!?


データの範囲は25.5,最小値10,最大値35.5
データの仮区間の数を決めよう
データの区間を自分で決めていきます
区間の決め方を求める方法として
スタージェスの公式がある

決め方がわからないよ~
スタージェスの公式(Sturges’ formula)
\(区間数(K)=1+\log_2(n)\)
エクセル関数は
\(=1 + LOG2(数値,底)\)
データサイズは \(n=50\)なので代入すると
\(区間数(K)=1+\log_2(50)=6.64\)
6.64を四捨五入すると
\(区間数(K)=1+\log_2(50)\approx 7\)
区間数が求められました。

公式で区間の数を
自動的に決めれるんだね
データサイズの平方根から求める
データサイズの平方根から求める
\(h=\sqrt{50}\approx 7\)
区間の幅を決めよう
データの範囲が25.5
区間数は7と設定したので区間の幅は…
\(\displaystyle C=\frac{25.5}{7}=3.64 \approx3.5 \)

区間の幅が決まったね~
区間のスタートを決めよう
データの最小値は10なので
最小値が最初の区間に入るには
測定値の最小値10より小さい値をとる必要がある。
測定単位は0.5なので
\(\displaystyle 10-\frac{0.50}{0.2}=9.75\)

区間のスタートが決まったね~
早速エクセルに階級を
入れていきます。
度数表を作る
一番最初の区間に求めた9.75を入れます

区間幅は3.5と設定しているので9.75に3.5を足します。

区間の1の範囲は9.75から13.25になりました。
つまり区間1には9.75から13.25のデータが入ります。

どんどんいこ~

完成しました。
最大値のデータが入っているか確認
次に最大値のデータが入っているか確認してみましょう。
最大値は35.5です

え!?データはいってない!
区間に最大値が入っていないので区間8を増やします。


これでデータはいりました
安心♪安心♪
区間の中心値と各区間に入る個数求める。
区間の中心値は各区間のstartとEndを足して2で割った値です。
次に区間の度数を調べます。

度数表を作ることができました。
度数表からヒストグラム用のデータをセットする
度数表から区間名と度数を
ひっぱってきて
データをセットします

ヒストグラムは棒グラフから簡単に実装できる

個の棒グラフはラベル間で間が
開いていますがヒストグラムは
連続データなので間を詰めます

完成しました。

参考文献
入門 統計解析法 | 永田 靖 |本 | 通販 | Amazon
まとめ
今回はヒストグラムを作るプロセスを一つずつ
丁寧に解説しながらヒストグラムを作っていきました。
如何だったでしょうか?かなりエッセンス詰め込みました…
記事を読んでもらった方に少しでも理解が深まれば幸いです。
ありがとうございました!