今回は説明変数にダミー変数を
含む重回帰モデルについて解説します
合わせて読みたい
[PR]※本サイトには、プロモーションが含まれています
ダミー変数を持つ重回帰モデル
線形重回帰モデルでは
ダミー変数を説明変数として組み込むことで
カテゴリーの違いが目的変数に与える影響を
考慮したモデルを構築することが出来ます
目的変数を家賃,説明変数を最寄駅からの距離\(X1\)
間取り\(x_2\)の2種類とした線形回帰モデルを考える
最寄りからの距離は数値データなのでそのまま
間取りは“1K”,”1DK”,”1LDK”,2LDK”からなる
質的データであるためダミー変数に変換する
間取り | \(x_{21}\) | \(x_{22}\) | \(x_{23}\) |
1K | 0 | 0 | 0 |
1DK | 1 | 0 | 0 |
1LDK | 0 | 1 | 0 |
2LDK | 0 | 0 | 1 |
上記を纏めると重回帰モデルは
\(Y = β_0 + β_1X_1 + β_{21}X_{21} + β_{22}X_{22}+β_{23}X_{23}\)
実際に重回帰モデル
の例題を1つ紹介します
ダミー変数を持つ重回帰モデル例題
高専・短大卒ダミー変数Cを
統計検定2級公式問題集より引用
高卒・短大卒なら1、それ以外なら0をとる変数とする。
同様に大学卒ダミー変数Uと
大学院修士課程修了のダミー変数Gを作成する
初任給yを目的変数,3つの学歴ダミー変数
C,U,Gを説明変数,互いに独立に
正規分布\(N(0, σ^2\)に従う誤差項をu
とする重回帰モデル
\(y=β_1 + β_2C + β_3U+β_4G + u\)
を最小二乗法で推定した所
以下のような値になった
回帰係数 | 標準偏差 | t-値 | P-値 | |
切片 | 16.653 | 0.510 | 32.652 | \(4.31×10^{-13}\) |
C | 2.255 | 0.721 | 3.127 | \(8.75×10^{-3}\) |
U | 4.450 | 0.721 | 6.170 | \(4.8×10^{-5}\) |
G | 7.180 | 0.721 | 9.955 | \(3.76×10^{-7}\) |
観測数 | 16 | \(\hat σ\) | 1.020 |
決定係数 | 0.900 | 自由度調整済み決定係数 | 0.876 |
\(y = 2.255C + 4.450U + 7.180G+16.653\)
といった重回帰モデルを作成することが出来ました。
このモデルから学歴ごとの初給与を予測していきます。
学歴 | モデルから初任給の予測 |
高校卒 | 16.653 |
高専・短大卒 | 18.908 |
大卒 | 21.103 |
大学院修士課程 | 23.833 |
参考文献
https://amzn.to/3SGNXIb
Amazon.co.jp