【回帰分析】最小二乗法を利用して回帰直線を作る

回帰分析
あい
あい

今回は
単回帰モデルの
回帰係数を
最小二乗法

利用して推定し
回帰直線を
作っていきます

[PR]※本サイトにはプロモーションが含まれています

線形単回帰モデルとは?

データから

2つの変数の関係性を

直線関係として推定

モデル化したものです

モデル化し直線

単回帰直線といいます

2つの変数は

説明変数x(独立変数)と

目的変数
yと呼ばれます

単回帰分析の数学モデル

\(y=B_0+B_1x+ε\)

yは目的変数、x は説明変数
β0​ は切片(y軸との交点)
β1​ は回帰係数、ε は誤差

あい
あい

データから
直線をつくるんだ~

じゃあデータから
どうやって
直線を作るの?

回帰直線の作り方

回帰直線はデータから

作ることができます

もっと詳しい言い方をすると

最小二乗法を利用し

実データと推定された

誤差が最小になるように

回帰係数を計算し

回帰直線を作ります

最小二乗法とは?

データから推定される回帰直線は

実データと誤差が少ないことが

理想的です

言い換えると

予測値と観測地の誤差の総和が最小になるような

パラメータが良いと考えられます

パラメータとは

\(β_0 ,β_1\)

このパラメータを

最小二乗法で求めることを行います

\(\displaystyle S(β_0 , β_1)= \sum_{i=1}^{n}ε_i^2=\sum_{i=1}^{n}(y_i-(β_0 + β_1x_i))^2\)

これは誤差二乗和と呼ばれます

最小二乗法は観測値とモデルの
予測値との残差(誤差)の二乗和を最小化
するような回帰係数を求める手法です。

あい
あい

早速最小二乗法
を使って
計算してみよ

最小二乗法を利用したβ0,β1の推定

最小二乗法を利用して推定された

バラメータは以下になります。

\(B_0=-B_1\bar x+\bar y\)
\(B_1=\displaystyle\frac{S_{xy}}{S_{xx}}\)

あい
あい

式の証明を
していきます

データを用意する

データ用意

\((x_1,y_1),(x_2,y_2),(x_3,y_3)…..(x_n,y_n)\)

あい
あい

データを
用意しました!

誤差二乗和の式を作る

数式

\(ε_i^2(B_1,B_0)=\displaystyle\sum_{k=1}^{n}(y_i-B_1x_i-B_0)^2\)

あい
あい

このεが最小になるように
すればいいのか~

\(ε(B_1,B_0)\)は

パラメータ\(B_1,B_0\)に関する二次関数です

このεを最小にするには\(B_1,B_0\)で式を偏微分し

0と置いた連立方程式を解くことで

パラメータ\(B_1,B_0\)を解くことが出来る

ε(β1,β2)の偏微分

\(\frac{\partialε(B_1,B_0)}{\partial B_0} =0\)

\(\frac{\partialε(B_1,B_0)}{\partial B_1} =0\)

あい
あい

展開!

式の展開

\(\frac{\partialε(B_1,B_0)}{\partial B_0} =-2\displaystyle\sum_{k=1}^{n}(y_i-B_1x_i-B_0)=0\)

\(\frac{\partialε(B_1,B_0)}{\partial B_0} =-2\displaystyle\sum_{k=1}^{n}x_i(y_i-B_1x_i-B_0)=0\)

展開式の整理

\(B_1\displaystyle \sum_{k=1}^{n}x_i+B_0n=\sum_{k=1}^{n}y_i\)

\(B_1\displaystyle \sum_{k=1}^{n}x_i^2+B_0\sum_{k}^{n}x_i=\sum_{k=1}^{n}x_iy_i\)

①の式をnで割ると

\(B_1\frac{\sum_{k=1}^{n}x_i}{n}+B_0=\frac{\sum_{k=1}^{n}y_i}{n}\) ・・(1-1)

  • xの平均値
    →\(\bar x=\frac{\displaystyle\sum_{k=1}^{n}x_i}{\displaystyle n}\)
  • yの平均値
    →\(\bar y=\frac{\displaystyle\sum_{k=1}^{n}y_i}{\displaystyle n}\)
  • xの二乗和平均
    →\(\bar x^2=\frac{\displaystyle\sum_{k=1}^{n}x_i^2}{\displaystyle n}\)
  • xとyの積和の平均
    →\(\bar{xy}=\frac{\displaystyle\sum_{k=1}^{n}x_iy_i}{\displaystyle n}\)

データの平均の公式を(1-1)に代入すると

\(B_1\bar x +B_0=\bar y\)・・・(1-2)

(1-2)より\(B_0\)は

\(B_0=-B_1\bar x+\bar y\)・・・(1-3)

\(B_0\)に(1-3)を代入すると

\(B_1\displaystyle \sum_{k=1}^{n}x_i^2+(-B_1\bar x +\bar y)\sum_{k}^{n}x_i\)
\(\displaystyle=\sum_{k=1}^{n}x_iy_i\)・・・(2-1)

(2-1)を変形してnで割ると

\(B_1(\frac{\sum_{k=1}^{n}x_i^2}{n}-\bar x\frac{\sum_{k=1}^{n}x_i}{n})\)
\(=\frac{\sum_{k=1}^{n}x_iy_i}{n}-\bar y\frac{\sum_{k=1}^{n}x_i}{n}\)・・・(2-2)

(2-2)にデータの平均値の公式を代入すると

\(B_1(\bar x^2-(\bar x)^2)=\bar{xy}-\bar x \bar y\)・・・(2-3)

(2-3)より\(B_1\)は

\(B_1=\displaystyle\frac{\bar{xy}-\bar x \bar y}{\bar x^2-(\bar x)^2}\)・・・(2-4)

\(B_1=\displaystyle\frac{S_{xy}}{S_{xx}}\)

エクセルで回帰係数の計算をしよう

あい
あい

最後にエクセルで
簡単に回帰係数の
計算を
する方法教えちゃいます!

散布図を作り、回帰直線を表示して確認する

\(B_1=1.0521,B_2=61.523\)であることが確認できる

エクセル統計の回帰分析を利用して回帰係数を求める

データからデータ分析をクリックして回帰分析を選択する

入力範囲Yに目的変数、入力範囲Xに説明変数を入れる

エクセルの係数欄を確認する

目的変数の予測

回帰係数を求めると単回帰直線を作ることが出来る
モデルが出来たので
このモデルを使用して
目的変数の予測をすることが出来る
観測値内で予測することを内挿
観測値外で予測することを外挿という
観測値外で予測する時は
モデルからデータが外れている
可能性があるので慎重に判断する必要がある。

あい
あい

予測は慎重にね!

当てはまりの評価

回帰モデルの当てはまり(適合度)を

評価する方法はいくつかあります

代表的な評価指標を簡単に紹介していきます。

平均絶対誤差(MAE – Mean Absolute Error)

各観測値において実際の値と予測値の絶対値の平均を取る


\(MAE=\frac{1}{n}\sum_{k=1}^{n}\left|y_i-\hat y_i\right|\)


小さいほど良いモデルの適合度を示す

平均二乗誤差(MSE – Mean Squared Error)

各観測値において
実際の値と予測値の差の二乗の平均を取ります。


\(MSE=\frac{1}{n}\sum_{k=1}^{n}(y_i-\hat y_i)^2\)


小さいほど良いモデルの適合度を示す
二乗しているため大きな誤差が大きくなる

平均二乗平方根誤差(RMSE – Root Mean Squared Error)

平均二乗誤差の平方根を取ります

\(RMSE=\sqrt{MSE}\)

RMSEも小さいほど適合度が高いとされます
MSEの単位を元に戻したものと考えることができます

決定係数(\(R^2\) – Coefficient of Determination)

モデルによって説明される分散の割合を示します
最大値は1で、1に近いほど適合度が高いとされます

\(R^2=1-\frac{\displaystyle \sum_{k=1}^{n}(y_i-\hat y_i)^2}{\displaystyle \sum_{k=1}^{n}(y_i-\bar y_i)^2}\)

以上が単回帰モデル回帰係数(パラメータ)の推定
目的変数の推定について解説でした!
ありがとうございました。

タイトルとURLをコピーしました