非线性最小二乘法

非线性最小二乘法是非线性形式的最小二乘法，用包含 $n$ 个未知参数的非线性模型拟合 $m$ 个观测值（ $m\geq n$ ），可用于某些形式的非线性回归。该方法的基础是使用线性模型近似并通过连续迭代来优化参数。它与线性最小二乘法既有相同之处、也有一些显著差异。

理论

考虑一组 $(x_{1},y_{1}),(x_{2},y_{2}),\dots ,(x_{m},y_{m})$ 共 $m$ 个数据点以及曲线（模型函数） ${\hat {y}}=f(x,{\boldsymbol {\beta }})$ 。该曲线同时取决于 $x$ 与 ${\boldsymbol {\beta }}=(\beta _{1},\beta _{2},\dots ,\beta _{n})$ 共 $n$ 个参数（满足 $m\geq n$ ）。目标是找到在最小二乘意义上与数据点拟合最好的曲线所对应的参数 ${\boldsymbol {\beta }}$ ，即最小化平方和 $S=\sum _{i=1}^{m}r_{i}^{2},$

其中残差 $r i$ 的定义为 $r_{i}=y_{i}-f(x_{i},{\boldsymbol {\beta }}),\qquad (i=1,2,\dots ,m).$

$S$ 取最小值时的梯度为零。由于模型包含 $n$ 个参数，因此可得到 $n$ 个梯度方程： ${\frac {\partial S}{\partial \beta _{j}}}=2\sum _{i}r_{i}{\frac {\partial r_{i}}{\partial \beta _{j}}}=0\quad (j=1,\ldots ,n).$

在非线性系统中，偏导数 ${\textstyle {\frac {\partial r_{i}}{\partial \beta _{j}}}}$ 同时是自变量 $x$ 和参数 ${\boldsymbol {\beta }}$ 的函数，因此这些梯度方程通常没有封闭解。因而必须为参数选择初始值用以迭代求解。迭代表达式为 $\beta _{j}\approx \beta _{j}^{k+1}=\beta _{j}^{k}+\Delta \beta _{j}.$

其中， $k$ 是迭代次数， $\Delta {\boldsymbol {\beta }}$ 则是偏移向量。每次迭代时，使用关于 ${\boldsymbol {\beta }}^{k}$ 的一阶泰勒级数展开以线性化模型： $f(x_{i},{\boldsymbol {\beta }})\approx f(x_{i},{\boldsymbol {\beta }}^{k})+\sum _{j}{\frac {\partial f(x_{i},{\boldsymbol {\beta }}^{k})}{\partial \beta _{j}}}\left(\beta _{j}-\beta _{j}^{k}\right)=f(x_{i},{\boldsymbol {\beta }}^{k})+\sum _{j}J_{ij}\,\Delta \beta _{j}.$

雅可比矩阵 $J$ 是常数、自变量与参数的函数，因此每次迭代时的 $J$ 并不固定。对线性化模型而言， ${\frac {\partial r_{i}}{\partial \beta _{j}}}=-J_{ij},$

残差的表达式则为 $\Delta y_{i}=y_{i}-f(x_{i},{\boldsymbol {\beta }}^{k}),$ $r_{i}=y_{i}-f(x_{i},{\boldsymbol {\beta }})=\left(y_{i}-f(x_{i},{\boldsymbol {\beta }}^{k})\right)+\left(f(x_{i},{\boldsymbol {\beta }}^{k})-f(x_{i},{\boldsymbol {\beta }})\right)\approx \Delta y_{i}-\sum _{s=1}^{n}J_{is}\Delta \beta _{s}.$

将上述表达式代入梯度方程，可以得到 $-2\sum _{i=1}^{m}J_{ij}\left(\Delta y_{i}-\sum _{s=1}^{n}J_{is}\ \Delta \beta _{s}\right)=0,$

以上方程可化简为 $n$ 个联立的线性方程，称为正规方程（normal equations）： $\sum _{i=1}^{m}\sum _{s=1}^{n}J_{ij}J_{is}\ \Delta \beta _{s}=\sum _{i=1}^{m}J_{ij}\ \Delta y_{i}\qquad (j=1,\dots ,n).$

正规方程可用矩阵表示法写成 $\left(\mathbf {J} ^{\mathsf {T}}\mathbf {J} \right)\Delta {\boldsymbol {\beta }}=\mathbf {J} ^{\mathsf {T}}\ \Delta \mathbf {y} .$

上述方程是使用高斯-牛顿算法（英语：Gauss–Newton algorithm）求解非线性最小二乘问题的的基础。

需要注意的是雅可比矩阵定义中导数的符号约定。某些文献中的 $J$ 可能与此处的定义相差一个负号。

权重扩展

不同数据点（观测结果）的可靠性并不一定相同，此时可使用加权平方和 $S=\sum _{i=1}^{m}W_{ii}r_{i}^{2}.$

权重矩阵 $W$ 是一个对角矩阵，理想情况下每个权重系数应等于观测误差方差的倒数。^[1]此时，正规方程可扩展为 $\left(\mathbf {J} ^{\mathsf {T}}\mathbf {WJ} \right)\Delta {\boldsymbol {\beta }}=\mathbf {J} ^{\mathsf {T}}\mathbf {W} \ \Delta \mathbf {y} .$

参见

注释

^ 此处假定所有观测点是相互独立的。如果观测点之间相关时，加权平方和可表示为 $S=\sum _{k}\sum _{j}r_{k}W_{kj}r_{j}.$ 此时权重矩阵的理想值应为观测误差协方差矩阵的逆。

参考文献

Kelley, C. T. Iterative Methods for Optimization (PDF). SIAM Frontiers in Applied Mathematics no 18. 1999 [2023-03-05]. ISBN 0-89871-433-8. （原始内容存档 (PDF)于2023-03-29）.
Strutz, T. Data Fitting and Uncertainty : A Practical Introduction to Weighted Least Squares and Beyond 2nd. Springer Vieweg. 2016. ISBN 978-3-658-11455-8.

[1] 此处假定所有观测点是相互独立的。如果观测点之间相关时，加权平方和可表示为 $S=\sum _{k}\sum _{j}r_{k}W_{kj}r_{j}.$ 此时权重矩阵的理想值应为观测误差协方差矩阵的逆。

[1]