吉洪诺夫正则化
吉洪诺夫正则化得名于安德烈·尼古拉耶维奇·吉洪诺夫,是在自变量高度相关的情景下估计多元回归模型系数的方法。[1]它已被用于许多领域,包括计量经济学、化学和工程学。[2]吉洪诺夫正则化为非适定性问题的正则化中最常见的方法。在統計學中,本方法被稱為脊迴歸或岭回归(ridge regression);在機器學習領域則稱為權重衰減或權值衰減(weight decay)。因為有不同的數學家獨立發現此方法,此方法又稱做吉洪諾夫-米勒法(Tikhonov–Miller method)、菲利浦斯-圖米法(Phillips–Twomey method)、受限線性反演(constrained linear inversion method),或線性正規化(linear regularization)。此方法亦和用在非線性最小二乘法的萊文貝格-馬夸特方法相關。它对于缓解线性回归中的多重共线性问题特别有用,这常见于有大量参数的模型中。[3]总的来说,这种方法提高了参数估计的效率,但也有可容忍的偏差(见偏差-方差权衡)。[4]
该理论于1970年由Hoerl与Kennard发表在《技术计量学》上的文章《岭回归:非正交问题的偏估计》及《岭回归:非正交问题中的应用》中首次提出。[5][6][1] This was the result of ten years of research into the field of ridge analysis.[7]
岭回归是通过创建岭回归估计量(RR)实现的。当线性回归模型具有多重共线(高度相关)的自变量时,岭回归对于最小二乘估计的不精确性是一种可能的解决方案。这提供了更精确的岭参数估计,因为它的方差和均方估计量通常小于先前推导的最小二乘估计量。[8][2]
当求解超定问题(即)时, 矩阵 的协方差矩阵 奇异或接近奇异时,利用最小二乘方法求出的结果 会出现发散或对 不合理的逼近。为了解决这一问题,吉洪诺夫于1963年提出了利用正则化项修改最小二乘的代价函数的方法,修改后的代价函数如下:
式中 称为正则化参数[9],这种方法被称为吉洪诺夫正则化。
概览
在最简单的情况下,向主对角线添加正元素可以缓解近奇异矩量矩阵 问题,减少条件数。类似于最小二乘估计量,简单岭估计量可定义为
其中 是回归子, 是设计矩阵, 是单位矩阵,岭参数 则是矩量矩阵对角线的恒定位移。[10]可以证明这个估计量是约束为 的最小二乘问题的解,可表达为拉格朗日形式:
其说明, 不过是约束的拉格朗日乘数。[11]通常要根据启发式准则选择 ,以便不完全满足约束。特别是在约束 ,即非约束约束(non-binding constrain),岭估计量退化为普通最小二乘法。下面讨论一种更通用的吉洪诺夫正则化方法。
历史
吉洪诺夫正则化是在许多不同背景下独立发明的。 安德烈·吉洪诺夫[12][13][14][15][16]和David L. Phillips最早使用了这种方法。[17] 有限维情形由采用统计方法的Arthur E. Hoerl[18]和Manus Foster完成,后者将其解释为克里金法滤子。[19]自Hoerl之后,这种方法在统计学文献中被称为岭回归,[20]以沿单位矩阵对角线的形状命名。
吉洪诺夫正则化
假设对已知矩阵 和向量 ,我们希望找到向量 使[需要解释]
标准方法是普通最小二乘法线性回归。[需要解释]但若没有 满足方程或超过一个 满足(即解不唯一),则待研究问题为不适定问题,普通最小二乘估计会导致方程组过定或欠定。大多数现实世界的现象在前向问题中都具有低通滤性质[需要解释],其中 将 映射到 。因此在解决逆问题时,逆映射作为高通滤波器,具有放大噪声的不良趋势(特征值/奇异值在逆映射中最大,在正映射中最小)。此外,普通最小二乘隐式地消除了位于 的零空间的 的重建版本的每个元素,而非允许将模型用作 的先验。 普通最小二乘寻找最小化残差平方和,可以紧凑地写作
其中 是欧几里得范数。
为优先选择具有所需性质的特定解,可在最小化中包含正则化项:
其中吉洪诺夫矩阵 需要适当选取,许多时候选为单位矩阵的标量倍数( ),并优先考虑范数较小的解;这叫做L2正则化。[21]这之外,若认为基础向量几乎连续,则可使用高通运算(如递推关系式或加权离散傅里叶变换)以实现平滑。这种正则化改进了问题条件,从而实现了直接的数值求解。显式解表示为 ,是这样得到:
正则化的效果可能因矩阵 的尺度而异。若择 ,如(ATA)−1存在,则简化为非正则化最小二乘解。
除线性回归外,L2正则化还有许多应用场景,如逻辑斯谛回归或支持向量机分类,[22]以及矩阵分解。[23]
广义吉洪诺夫正则化
对于 和数据误差的多元正态分布,c可以应用变量的变换来简化上述情况。等价地,可以寻求最小化 :
其中 表示加权范数平方 (比较马哈拉诺比斯距离)。在贝叶斯解释中, 是 的逆协方差矩阵; 是 的期望; 是 的逆协方差矩阵。吉洪诺夫矩阵为矩阵 的分解(如科列斯基分解),可视作白化变换器。
这个推广问题有最优解 ,可以使用公式显式地写为
或等效地,当Q非空:
拉夫连季耶夫正则化
有时可以避免使用 ,这由米哈伊尔·拉夫连季耶夫指出。[24]例如,若 是对称正定矩阵,即 ,则其逆 可以用来在广义吉洪诺夫正则化中构造加权范数平方 ,则有最小化
或等价地由常数项,
- .
该最小化问题有最优解 ,可以紧凑地写作公式
- ,
是广义吉洪诺夫问题的解,其中 。
拉夫连季耶夫正则化对原吉洪诺夫正则化有利,因为拉夫连季耶夫矩阵 的条件数比吉洪诺夫矩阵 小。
希尔伯特空间中的正则化
典型的离散线性非适定问题由积分方程的离散化引起,可以在原始的无穷维背景中实现吉洪诺夫正则化。上面,我们可以将 解释为希尔伯特空间上的紧算子, 、 为 的域与范围上的元素。 是自伴随有界可逆运算。
与奇异值分解和维纳滤波器的关系
有 这个最小二乘解可用奇异值分解以特殊的方式分析。给定奇异值分解
,奇异值 ,则吉洪诺夫正则解可表为
其中 的对角值为
其余地方都是0。这表明吉洪诺夫参数对正则化问题条件数的影响。对于广义情况,可以使用广义奇异值分解推导出类似的表示。[25]
最后,其与维纳滤波有关:
其中维纳权为 ; 是 的秩。
确定吉洪诺夫因子
最佳正则化参数 一般未知,在实践中常常临时确定。一种可能的方法依赖于下面描述的贝叶斯解释。其他方法包括偏差原理、交叉验证、L曲线法、[26]约束最大似然法和无偏预测风险估计。Grace Wahba证明,这种最优参数用留一交叉验证最小[27][28]
用前面的SVD分解,可以简化上述表达式:
;
与概率表述的关系
逆问题的概率公式引入了(当所有不确定量都为正态量时)表示模型参数先验不确定性的协方差矩阵 ,以及表示观测参数不确定性的协方差矩阵 。[29]当它们都是对角各向同性矩阵( ),且 ,则逆理论方程简化为上述方程,且 。
贝叶斯解释
虽然选择这个正则化问题的解可能看起来是人为的,而且矩阵 似乎相当武断,但从贝叶斯的角度来看,这个过程是合理的。[30]注意,不适定问题必须引入额外假设才能得到唯一解。在统计学中, 的先验分布有时被认为是多元正态分布。为简单起见,此处做出以下假设:均值为零;组分独立;组分标准差均为 。数据也受误差影响,并且假设 中的误差独立,均值为零,标准差为 。在这些假设下,根据贝叶斯定理,吉洪诺夫正则化解是给定数据和 的先验分布的最可能的解。[31]
若正态性假设被同方差和无关误差假设代替,且若假设均值仍是零,则高斯-马尔可夫定理意味着解是最小 无偏线性估计量。[32]
另见
注释
参考文献
- ^ 1.0 1.1 Hilt, Donald E.; Seegrist, Donald W. Ridge, a computer program for calculating ridge regression estimates. 1977 [2023-09-24]. doi:10.5962/bhl.title.68934. (原始内容存档于2023-02-10).[页码请求]
- ^ 2.0 2.1 Gruber, Marvin. Improving Efficiency by Shrinkage: The James--Stein and Ridge Regression Estimators. CRC Press. 1998: 2 [2023-09-24]. ISBN 978-0-8247-0156-7. (原始内容存档于2022-05-10).
- ^ Kennedy, Peter. A Guide to Econometrics Fifth. Cambridge: The MIT Press. 2003: 205–206. ISBN 0-262-61183-X.
- ^ Gruber, Marvin. Improving Efficiency by Shrinkage: The James–Stein and Ridge Regression Estimators. Boca Raton: CRC Press. 1998: 7–15. ISBN 0-8247-0156-9.
- ^ Hoerl, Arthur E.; Kennard, Robert W. Ridge Regression: Biased Estimation for Nonorthogonal Problems. Technometrics. 1970, 12 (1): 55–67. JSTOR 1267351. doi:10.2307/1267351.
- ^ Hoerl, Arthur E.; Kennard, Robert W. Ridge Regression: Applications to Nonorthogonal Problems. Technometrics. 1970, 12 (1): 69–82. JSTOR 1267352. doi:10.2307/1267352.
- ^ Beck, James Vere; Arnold, Kenneth J. Parameter Estimation in Engineering and Science. James Beck. 1977: 287 [2023-09-24]. ISBN 978-0-471-06118-2. (原始内容存档于2022-04-26).
- ^ Jolliffe, I. T. Principal Component Analysis. Springer Science & Business Media. 2006: 178 [2023-09-24]. ISBN 978-0-387-22440-4. (原始内容存档于2022-04-18).
- ^ Tikhonov A.N. Solution of Incorrectly Formulated Problems and the Regularization Method. Soviet Mathematics Doklady. 1963, 4: 1035–1038.
- ^ 关于实践中 的选择,参Khalaf, Ghadban; Shukur, Ghazi. Choosing Ridge Parameter for Regression Problems. Communications in Statistics – Theory and Methods. 2005, 34 (5): 1177–1182. S2CID 122983724. doi:10.1081/STA-200056836.
- ^ van Wieringen, Wessel. Lecture notes on ridge regression. 2021-05-31. arXiv:1509.09169 [stat.ME].
- ^ Tikhonov, Andrey Nikolayevich. Об устойчивости обратных задач [On the stability of inverse problems]. Doklady Akademii Nauk SSSR. 1943, 39 (5): 195–198. (原始内容存档于2005-02-27).
- ^ Tikhonov, A. N. О решении некорректно поставленных задач и методе регуляризации. Doklady Akademii Nauk SSSR. 1963, 151: 501–504.. Translated in Solution of incorrectly formulated problems and the regularization method. Soviet Mathematics: 1035–1038.
- ^ Tikhonov, A. N.; V. Y. Arsenin. Solution of Ill-posed Problems. Washington: Winston & Sons. 1977. ISBN 0-470-99124-0.
- ^ Tikhonov, Andrey Nikolayevich; Goncharsky, A.; Stepanov, V. V.; Yagola, Anatolij Grigorevic. Numerical Methods for the Solution of Ill-Posed Problems. Netherlands: Springer Netherlands. 30 June 1995 [9 August 2018]. ISBN 079233583X. (原始内容存档于2021-06-20).
- ^ Tikhonov, Andrey Nikolaevich; Leonov, Aleksandr S.; Yagola, Anatolij Grigorevic. Nonlinear ill-posed problems. London: Chapman & Hall. 1998 [9 August 2018]. ISBN 0412786605. (原始内容存档于2021-06-15).
- ^ Phillips, D. L. A Technique for the Numerical Solution of Certain Integral Equations of the First Kind. Journal of the ACM. 1962, 9: 84–97. S2CID 35368397. doi:10.1145/321105.321114.
- ^ Hoerl, Arthur E. Application of Ridge Analysis to Regression Problems. Chemical Engineering Progress. 1962, 58 (3): 54–59.
- ^ Foster, M. An Application of the Wiener-Kolmogorov Smoothing Theory to Matrix Inversion. Journal of the Society for Industrial and Applied Mathematics. 1961, 9 (3): 387–392. doi:10.1137/0109031.
- ^ Hoerl, A. E.; R. W. Kennard. Ridge regression: Biased estimation for nonorthogonal problems. Technometrics. 1970, 12 (1): 55–67. doi:10.1080/00401706.1970.10488634.
- ^ Ng, Andrew Y. Feature selection, L1 vs. L2 regularization, and rotational invariance (PDF). Proc. ICML. 2004 [2023-09-24]. (原始内容存档 (PDF)于2023-03-15).
- ^ R.-E. Fan; K.-W. Chang; C.-J. Hsieh; X.-R. Wang; C.-J. Lin. LIBLINEAR: A library for large linear classification. Journal of Machine Learning Research. 2008, 9: 1871–1874.
- ^ Guan, Naiyang; Tao, Dacheng; Luo, Zhigang; Yuan, Bo. Online nonnegative matrix factorization with robust stochastic approximation. IEEE Transactions on Neural Networks and Learning Systems. 2012, 23 (7): 1087–1099. PMID 24807135. S2CID 8755408. doi:10.1109/TNNLS.2012.2197827.
- ^ Lavrentiev, M. M. Some Improperly Posed Problems of Mathematical Physics. New York: Springer. 1967.
- ^ Hansen, Per Christian. Rank-Deficient and Discrete Ill-Posed Problems: Numerical Aspects of Linear Inversion 1st. Philadelphia, USA: SIAM. Jan 1, 1998. ISBN 9780898714036.
- ^ P. C. Hansen, "The L-curve and its use in the numerical treatment of inverse problems", [1] (页面存档备份,存于互联网档案馆)
- ^ Wahba, G. Spline Models for Observational Data. CBMS-NSF Regional Conference Series in Applied Mathematics (Society for Industrial and Applied Mathematics). 1990. Bibcode:1990smod.conf.....W.
- ^ Golub, G.; Heath, M.; Wahba, G. Generalized cross-validation as a method for choosing a good ridge parameter (PDF). Technometrics. 1979, 21 (2): 215–223 [2023-09-24]. doi:10.1080/00401706.1979.10489751. (原始内容存档 (PDF)于2017-12-15).
- ^ Tarantola, Albert. Inverse Problem Theory and Methods for Model Parameter Estimation 1st. Philadelphia: Society for Industrial and Applied Mathematics (SIAM). 2005 [2018-08-09]. ISBN 0898717922. (原始内容存档于2021-02-25).
- ^ Greenberg, Edward; Webster, Charles E., Jr. Advanced Econometrics : A Bridge to the Literature. New York: John Wiley & Sons. 1983: 207–213. ISBN 0-471-09077-8.
- ^ Vogel, Curtis R. Computational methods for inverse problems. Philadelphia: Society for Industrial and Applied Mathematics. 2002. ISBN 0-89871-550-4.
- ^ Amemiya, Takeshi. Advanced Econometrics . Harvard University Press. 1985: 60–61. ISBN 0-674-00560-0.
阅读更多
- Gruber, Marvin. Improving Efficiency by Shrinkage: The James–Stein and Ridge Regression Estimators. Boca Raton: CRC Press. 1998 [2023-09-24]. ISBN 0-8247-0156-9. (原始内容存档于2022-10-17).
- Kress, Rainer. Tikhonov Regularization. Numerical Analysis. New York: Springer. 1998: 86–90 [2023-09-24]. ISBN 0-387-98408-9. (原始内容存档于2022-10-17).
- Press, W. H.; Teukolsky, S. A.; Vetterling, W. T.; Flannery, B. P. Section 19.5. Linear Regularization Methods. Numerical Recipes: The Art of Scientific Computing 3rd. New York: Cambridge University Press. 2007 [2023-09-24]. ISBN 978-0-521-88068-8. (原始内容存档于2011-08-11).
- Saleh, A. K. Md. Ehsanes; Arashi, Mohammad; Kibria, B. M. Golam. Theory of Ridge Regression Estimation with Applications. New York: John Wiley & Sons. 2019 [2023-09-24]. ISBN 978-1-118-64461-4. (原始内容存档于2022-10-21).
- Taddy, Matt. Regularization. Business Data Science: Combining Machine Learning and Economics to Optimize, Automate, and Accelerate Business Decisions. New York: McGraw-Hill. 2019: 69–104 [2023-09-24]. ISBN 978-1-260-45277-8. (原始内容存档于2022-10-17).