【推定統計】相関分析-散布図とは?散布図の種類と相関係数に関して徹底解説

推定統計

こんにちわ!Yamuです。
皆さんは2つの物事の関係視覚的に確認したい、
もしくは2つの観測値関係性があるかどうか
確認したい時ありませんか?そういった時
相関分析と呼ばれる手法があり
二つの物事の関係性可視化する手法として散布図があります!
そして二つの関係を数値化して評価するため
の指標相関係数といったものが存在します!
今回は散布図相関係数について徹底解説致します!

この記事はこんな方におススメ
  • 散布図とは?散布図の作り方を知りたい方
  • 散布図の種類を知りたい方
  • 相関係数について知りたい方

散布図(Scatter Plot)とは?

散布図(Scatter Plot)
2つの連続的な変数(数値データ)の関係を
視覚的に表現するためのデータ可視化手法です。
通常、横軸に1つの変数縦軸にもう1つの変数を配置し
データポイントを点としてプロットすることで
変数間の相互関係やパターン直感的に理解しやすくします。

グラフにするとこんな感じです!
横軸はテスト1週間前の数学の勉強時間
縦軸は数学のテストの点数を配置しプロット
散布図を作成しています
グラフから直感的に判断すると
1週間前の勉強時間が多い人ほど
点数が高い傾向がありますね

  • 異常値がないかどうか調べる
  • 層別の必要がないか調べる
  • 調べる前に相関がありそうな2変数にあたりをつけておく

散布図の種類

正の線形相関(Positive Linear correlation)

2つの変数が直線的に関連しており
一方の変数が増加すると
他方の変数も増加する傾向があり
散布図上でデータポイントは
右上がりの傾向を持ちます。

無相関(No Correlation)

2つの変数が互いに影響を与えない
散布図を見てみると規則性はありません。

負の線形相関(Negative Linear Correlation)

2つの変数が直線的に関連しており
一方の変数が増加すると他方の変数は減少する傾向があり
散布図上でデータポイントは右下がりの傾向を持ちます。

非線形相関(Non-Linear Correlation)

非線形相関は、変数間の関係が直線的ではなく
曲線的な傾向があり
散布図上でデータポイントは
曲線や非直線的な傾向を持ちます。

散布図を用いて変数間の関係を視覚化できましたね!
2変数間のデータの関係性を視覚化できたので
次に相関係数に関して説明していきます!

相関係数(Correlation Coefficient)

2つの変数の間の相関関係を数値化
した指標です。
主にピアソンの相関係数
として知られており
2つの連続的な変数(数値データ)の相互関係を評価
するのに広く使用されます

早速相関係数を求めていきます。!

ピアソンの相関係数は
変数間の直線の関係を評価します。
式にすると

\(\displaystyle r= \frac{S_{xy}}{\sqrt{S_xS_y}}\)

平方和が式に利用されています!
上記の式を更に分解すると

\(\displaystyle r=\frac{\sum_{k=1}^{n}{(x_k-\overline x)(y_k-\overline y)}}{\sqrt{\sum_{k=1}^{n}{(x_k-\overline x)^2}\sum_{k=1}^{n}{(y_k-\overline y)^2}}}\)

以上の式から算出した値は-1から1までの間を取ります。

  • 1に近い場合: 強い正の相関がある。
    >一方の変数が増加すると他方の変数も増加する傾向がある。
  • -1に近い場合: 強い負の相関がある。
    >一方の変数が増加すると他方の変数は減少する傾向がある。
  • 0に近い場合: 相関が弱いかない
    変数間にはほとんど相関がない

散布図相関係数を利用することによって
視覚的数字的
相関関係評価できるんですね!
もうちょっとだけ相関係数に関して深掘りしていきます。

偏差平方和(おまけ)

偏差平方和の式は・・

\(S_{xy}= \sum_{k=1}^{n}{(x_k-\overline x)(y_k-\overline y)}\)

式を観察してみると各変数の
観測地から平均値の差の乗算
になってますね

  • xとyの両方が観測値が平均値と比べて大きい=[xが増加すればyも増加する]
    →\((x_k-\overline x)(y_k-\overline y)>0\)
  • xとyの両方が観測値が平均値と比べて小さい=[xが減少すればyも減少する]
    →\((x_k-\overline x)(y_k-\overline y)>0\)
  • xとyの観測値が平均値と比べて片方が大きい片方が小さい[xが減少すればyは増加する]
    →\((x_k-\overline x)(y_k-\overline y)<0\)

グラフで上記の領域を見てみるとこんな感じになります。

  • 青枠
    \((x_k-\overline x)(y_k-\overline y)>0\)の領域
  • 赤枠
    \((x_k-\overline x)(y_k-\overline y)<0\)の領域

このグラフで分かることは
青枠の領域にあるデータの合計が
赤枠の領域にあるデータの合計より多いことです。
偏差平方和の式は\((x_k-\overline x)(y_k-\overline y)\)の合計
なので正になります。

[xが増加すればyも増加する][xが減少すればyも減少する]という
2変数の関係性は正の相関を持つので

共分散が正の時、2変数は正の相関を持ち
共分散が負の時、負の相関を持つ可能性
があることが分かる

偏相関係数(Partial Correlation Coefficient)

偏相関係数は、3つ以上の変数間の相関を評価するための指標です。
偏相関係数は、特定の2つの変数の間の相関を評価する際に
他の変数の影響を制御するために使用されます。
言い換えれば、偏相関係数は、他の変数の影響を除去して
2つの変数の直接の相関を評価するための手法です。

賃貸マンションデータの3つの変数
を使って説明していきます。

2変数ピアソンの相関係数相関関係
部屋の大きさと家賃0.8強い正の相関
部屋の大きさと築年数0.5やや強い正の相関
家賃と築年数0.2弱い正の相関

相関係数から論理を纏めると…

  • 家賃が大きいほど家賃が高くなる
  • 部屋の大きさと築年数には相関関係がある
  • 家賃が高いほど築年数(古い物件が多い) ?

相関係数から論理を纏めてみると
家賃が高いほど古い物件が多いという論理は一般的におかしいですね。
これを見かけ上の相関の可能性があります。
第三の変数が家賃と築年数の関係に影響を及ぼした可能性があります。

三変数の相関関係を表にすると

家賃と築年数の相関は部屋の大きさの影響ではないか?
と考えてピアソンの相関係数の代わりに
部屋の大きさの影響を除いた偏相関係数を利用する。

偏相関係数の公式は…

\(\displaystyle r_{xy・z}=\frac{r_{yz}-r_{xy}r_{xz}}{\sqrt{1-r_{xy}^2}\sqrt{1-r_{xz}^2}}\)

(x,y,z)=(大きさ、家賃、築年数)とすると

\(r_{xy}=0.8,r_{xz}=0.5,r_{yz}=0.2\)

\(r_{xy・z}=-0.288\)

弱い負の相関になったので家賃が安いほど建物が古い傾向であることが分かる。

相関分析の時の注意点

  • 相関関係因果関係は異なる
  • 因果関係がなくても2変数の相関関係が大きくなる可能性がある。
    2つの変数第3の変数の値が大きく影響している可能性がある。
    これを見かけ上の相関擬相関)という

参考文献

https://amzn.to/47HQ5oP
Bitly

まとめ

 以上が相関分析に使用される散布図相関係数の説明でした!

タイトルとURLをコピーしました