equal_l2’s blog

※記載されている内容の正確性は保証しませんが、間違いを指摘していただければ直します。

最小二乗法(2) 一般的な正規方程式

前:最小二乗法(1) 最小二乗法の理念 - equal_l2’s blog
次:最小二乗法(3) 線形最小二乗法と非線形最小二乗法 - equal_l2’s blog

\def \vb {\vec{\beta}} \def \fxb {f(x_i,\vb)}
実際に、次の式を満たすようなf(x_i)を推定しよう。
S={\displaystyle \sum_{i=1}^{n}\bigl(y_i- f(x_i)\bigr)^2}={\displaystyle \sum_{i=1}^{n}{\epsilon_i}^2}=0

推定すべきこの関数f(x_i)モデル関数と呼ぶ。

全く制限がないとモデル関数は求めがたいので、制限を加える。

f(x_i)は、何かしらの既知の関数のパラメータを操作することで決めることにする。パラメータの数を(d+1)とする。
パラメータからなる(d+1)次元ベクトルを\vbとして、その第j成分を\beta_{j-1}とする。
つまり、\vb=\left(\begin{array}{c}{\beta_0 \\ \beta_1 \\ \vdots \\ \beta_d }\end{array}\right)

これに伴い、f(x_i)\vbに依存することを明確にするため、\fxbと書くことにする。

このとき、モデル関数は\fxb=\beta_0 e^{\beta_1 x_i}とか\fxb=\beta_0+\beta_1 x_iのような形になる。

さて、この制限下で前述の目的を満たすには、S=0の両辺を\beta_j偏微分してやって、
{\displaystyle \frac{\partial S}{\partial \beta_j}=0 \rm \hspace{10pt} for \hspace{2pt} all \hspace{2pt} \it j}
この方程式を、正規方程式という。

ここで、x_i,y_iは(定数であるから当然なのだが)\vbの要素で偏微分すると0になる。

したがって、先のSについての偏微分の式は、
\begin{eqnarray}
\frac{\partial S}{\partial \beta_j}
&=& \frac{\partial}{\partial \beta_j}\sum_{i=1}^{n}\bigl(y_i- \fxb\bigr)^2\\
&=& -2 \sum_{i=1}^{n}\frac{\partial \fxb}{\partial \beta_j}\bigl(y_i- \fxb\bigr)= 0
\end{eqnarray}
と変形できる。

もう少し変形すれば、
{\displaystyle
\sum_{i=1}^{n}\frac{\partial \fxb}{\partial \beta_j} y_i =
\sum_{i=1}^{n}\frac{\partial \fxb}{\partial \beta_j} \fxb
}
となる。

各パラメータの推定誤差\sigma(\beta_j)を求める。
全てのy_iが持つ同一の誤差\sigma_yは次のようにあらわされる。
\sigma_y=\displaystyle{\sqrt{\frac{\sum_{i=1}^{n}\bigl(y_i- f(x_i)\bigr)^2}{n-d-1}}}

誤差の伝播式より、
\begin{eqnarray}
\sigma(\beta_j)&=&\sqrt{\sum_{i=1}^{n}\left\{ {\sigma_y}^2 \left( \frac{\partial \beta_j}{\partial y_i} \right)^2\right\}}\\
&=& \sigma_y \sqrt{\sum_{i=1}^{n}\left\{ \left( \frac{\partial \beta_j}{\partial y_i} \right)^2\right\}}
\end{eqnarray}

次回は、モデル関数の性質について考える。