こんにちわ!Yamuです。
皆さんは2つの物事の関係を視覚的に確認したい、
もしくは2つの観測値に関係性があるかどうか
確認したい時ありませんか?そういった時
相関分析と呼ばれる手法があり
二つの物事の関係性を可視化する手法として散布図があります!
そして二つの関係を数値化して評価するため
の指標相関係数といったものが存在します!
今回は散布図と相関係数について徹底解説致します!
- 散布図とは?散布図の作り方を知りたい方
- 散布図の種類を知りたい方
- 相関係数について知りたい方
目次
散布図(Scatter Plot)とは?
散布図(Scatter Plot)は
2つの連続的な変数(数値データ)の関係を
視覚的に表現するためのデータ可視化手法です。
通常、横軸に1つの変数、縦軸にもう1つの変数を配置し
データポイントを点としてプロットすることで
変数間の相互関係やパターンを直感的に理解しやすくします。
グラフにするとこんな感じです!
横軸はテスト1週間前の数学の勉強時間
縦軸は数学のテストの点数を配置しプロット
し散布図を作成しています。
グラフから直感的に判断すると
1週間前の勉強時間が多い人ほど
点数が高い傾向がありますね
- 異常値がないかどうか調べる
- 層別の必要がないか調べる
- 調べる前に相関がありそうな2変数にあたりをつけておく
散布図の種類
正の線形相関(Positive Linear correlation)
2つの変数が直線的に関連しており
一方の変数が増加すると
他方の変数も増加する傾向があり
散布図上でデータポイントは
右上がりの傾向を持ちます。
無相関(No Correlation)
2つの変数が互いに影響を与えない
散布図を見てみると規則性はありません。
負の線形相関(Negative Linear Correlation)
2つの変数が直線的に関連しており
一方の変数が増加すると他方の変数は減少する傾向があり
散布図上でデータポイントは右下がりの傾向を持ちます。
非線形相関(Non-Linear Correlation)
非線形相関は、変数間の関係が直線的ではなく
曲線的な傾向があり
散布図上でデータポイントは
曲線や非直線的な傾向を持ちます。
散布図を用いて変数間の関係を視覚化できましたね!
2変数間のデータの関係性を視覚化できたので
次に相関係数に関して説明していきます!
相関係数(Correlation Coefficient)
2つの変数の間の相関関係を数値化
した指標です。
主にピアソンの相関係数
として知られており
2つの連続的な変数(数値データ)の相互関係を評価
するのに広く使用されます。
早速相関係数を求めていきます。!
ピアソンの相関係数は
変数間の直線の関係を評価します。
式にすると
\(\displaystyle r= \frac{S_{xy}}{\sqrt{S_xS_y}}\)
平方和が式に利用されています!
上記の式を更に分解すると
\(\displaystyle r=\frac{\sum_{k=1}^{n}{(x_k-\overline x)(y_k-\overline y)}}{\sqrt{\sum_{k=1}^{n}{(x_k-\overline x)^2}\sum_{k=1}^{n}{(y_k-\overline y)^2}}}\)
以上の式から算出した値は-1から1までの間を取ります。
- 1に近い場合: 強い正の相関がある。
>一方の変数が増加すると他方の変数も増加する傾向がある。 - -1に近い場合: 強い負の相関がある。
>一方の変数が増加すると他方の変数は減少する傾向がある。 - 0に近い場合: 相関が弱いかない
変数間にはほとんど相関がない
散布図と相関係数を利用することによって
視覚的、数字的に
相関関係を評価できるんですね!
もうちょっとだけ相関係数に関して深掘りしていきます。
偏差平方和(おまけ)
偏差平方和の式は・・
\(S_{xy}= \sum_{k=1}^{n}{(x_k-\overline x)(y_k-\overline y)}\)
式を観察してみると各変数の
観測地から平均値の差の乗算
になってますね
- xとyの両方が観測値が平均値と比べて大きい=[xが増加すればyも増加する]
→\((x_k-\overline x)(y_k-\overline y)>0\) - xとyの両方が観測値が平均値と比べて小さい=[xが減少すればyも減少する]
→\((x_k-\overline x)(y_k-\overline y)>0\) - xとyの観測値が平均値と比べて片方が大きい、片方が小さい=[xが減少すればyは増加する]
→\((x_k-\overline x)(y_k-\overline y)<0\)
グラフで上記の領域を見てみるとこんな感じになります。
- 青枠
\((x_k-\overline x)(y_k-\overline y)>0\)の領域 - 赤枠
\((x_k-\overline x)(y_k-\overline y)<0\)の領域
このグラフで分かることは
青枠の領域にあるデータの合計が
赤枠の領域にあるデータの合計より多いことです。
偏差平方和の式は\((x_k-\overline x)(y_k-\overline y)\)の合計
なので正になります。
[xが増加すればyも増加する][xが減少すればyも減少する]という
2変数の関係性は正の相関を持つので
共分散が正の時、2変数は正の相関を持ち
共分散が負の時、負の相関を持つ可能性
があることが分かる
偏相関係数(Partial Correlation Coefficient)
偏相関係数は、3つ以上の変数間の相関を評価するための指標です。
偏相関係数は、特定の2つの変数の間の相関を評価する際に
他の変数の影響を制御するために使用されます。
言い換えれば、偏相関係数は、他の変数の影響を除去して
2つの変数の直接の相関を評価するための手法です。
賃貸マンションデータの3つの変数
を使って説明していきます。
2変数 | ピアソンの相関係数 | 相関関係 |
部屋の大きさと家賃 | 0.8 | 強い正の相関 |
部屋の大きさと築年数 | 0.5 | やや強い正の相関 |
家賃と築年数 | 0.2 | 弱い正の相関 |
相関係数から論理を纏めると…
- 家賃が大きいほど家賃が高くなる
- 部屋の大きさと築年数には相関関係がある
- 家賃が高いほど築年数(古い物件が多い) ?
相関係数から論理を纏めてみると
家賃が高いほど古い物件が多いという論理は一般的におかしいですね。
これを見かけ上の相関の可能性があります。
第三の変数が家賃と築年数の関係に影響を及ぼした可能性があります。
三変数の相関関係を表にすると
家賃と築年数の相関は部屋の大きさの影響ではないか?
と考えてピアソンの相関係数の代わりに
部屋の大きさの影響を除いた偏相関係数を利用する。
偏相関係数の公式は…
\(\displaystyle r_{xy・z}=\frac{r_{yz}-r_{xy}r_{xz}}{\sqrt{1-r_{xy}^2}\sqrt{1-r_{xz}^2}}\)
(x,y,z)=(大きさ、家賃、築年数)とすると
\(r_{xy}=0.8,r_{xz}=0.5,r_{yz}=0.2\)
\(r_{xy・z}=-0.288\)
弱い負の相関になったので家賃が安いほど建物が古い傾向であることが分かる。
相関分析の時の注意点
- 相関関係と因果関係は異なる
- 因果関係がなくても2変数の相関関係が大きくなる可能性がある。
2つの変数に第3の変数の値が大きく影響している可能性がある。
これを見かけ上の相関(擬相関)という
参考文献
まとめ
以上が相関分析に使用される散布図と相関係数の説明でした!