最小二乗法(2) 一般的な正規方程式

前:最小二乗法(1) 最小二乗法の理念 - equal_l2’s blog
次:最小二乗法(3) 線形最小二乗法と非線形最小二乗法 - equal_l2’s blog

$\def \vb {\vec{\beta}} \def \fxb {f(x_i,\vb)}$
実際に、次の式を満たすような $f(x_i)$ を推定しよう。
$S={\displaystyle \sum_{i=1}^{n}\bigl(y_i- f(x_i)\bigr)^2}={\displaystyle \sum_{i=1}^{n}{\epsilon_i}^2}=0$

推定すべきこの関数 $f(x_i)$ をモデル関数と呼ぶ。

全く制限がないとモデル関数は求めがたいので、制限を加える。

$f(x_i)$ は、何かしらの既知の関数のパラメータを操作することで決めることにする。パラメータの数を $(d+1)$ とする。
パラメータからなる $(d+1)$ 次元ベクトルを $\vb$ として、その第 $j$ 成分を $\beta_{j-1}$ とする。
つまり、 $\vb=\left(\begin{array}{c}{\beta_0 \\ \beta_1 \\ \vdots \\ \beta_d }\end{array}\right)$

これに伴い、 $f(x_i)$ が $\vb$ に依存することを明確にするため、 $\fxb$ と書くことにする。

このとき、モデル関数は $\fxb=\beta_0 e^{\beta_1 x_i}$ とか $\fxb=\beta_0+\beta_1 x_i$ のような形になる。

さて、この制限下で前述の目的を満たすには、 $S=0$ の両辺を $\beta_j$ で偏微分してやって、
$\frac{\partial S}{\partial \beta_j}=0 \rm \hspace{10pt} for \hspace{2pt} all \hspace{2pt} \it j$
この方程式を、正規方程式という。

ここで、 $x_i,y_i$ は(定数であるから当然なのだが) $\vb$ の要素で偏微分すると0になる。

したがって、先の $S$ についての偏微分の式は、
$\begin{eqnarray} \frac{\partial S}{\partial \beta_j} &=& \frac{\partial}{\partial \beta_j}\sum_{i=1}^{n}\bigl(y_i- \fxb\bigr)^2\\ &=& -2 \sum_{i=1}^{n}\frac{\partial \fxb}{\partial \beta_j}\bigl(y_i- \fxb\bigr)= 0 \end{eqnarray}$
と変形できる。

もう少し変形すれば、
${\displaystyle \sum_{i=1}^{n}\frac{\partial \fxb}{\partial \beta_j} y_i = \sum_{i=1}^{n}\frac{\partial \fxb}{\partial \beta_j} \fxb }$
となる。

各パラメータの推定誤差 $\sigma(\beta_j)$ を求める。
全ての $y_i$ が持つ同一の誤差 $\sigma_y$ は次のようにあらわされる。
$\sigma_y=\displaystyle{\sqrt{\frac{\sum_{i=1}^{n}\bigl(y_i- f(x_i)\bigr)^2}{n-d-1}}}$

誤差の伝播式より、
$\begin{eqnarray} \sigma(\beta_j)&=&\sqrt{\sum_{i=1}^{n}\left\{ {\sigma_y}^2 \left( \frac{\partial \beta_j}{\partial y_i} \right)^2\right\}}\\ &=& \sigma_y \sqrt{\sum_{i=1}^{n}\left\{ \left( \frac{\partial \beta_j}{\partial y_i} \right)^2\right\}} \end{eqnarray}$

次回は、モデル関数の性質について考える。