分段回归
分段回归是一种回归分析方法,将自变量划为若干区间,并分别拟合出单独的线段。通过对各种自变量分区,也可以对多元数据进行分区回归分析。自变量聚类为不同组别时,这些区域的变量之间会表现出不同的关系,这时分段回归就非常有用。分段之间的界限就是间断点。
分段线性回归就是分段回归,通过线性回归得到区间内的关系。
2段线性回归
分2段线性回归的段间有1个间断点,可用来量化影响因素(x)变化的响应函数(Yr)的突然变化。间断点可解释为临界值、安全值或阈值,过该值会产生(非)预期效果。间断点对决策非常重要。[1]
这些图表说明了可获得的一些结果和回归类型。
分段回归分析基于一组( y, x )数据,其中y是因变量,x是自变量。
最小二乘法分别适用于每个分段,通过这种方法,两条回归线可以分别拟合数据集,同时使因变量观测值(y)与计算值(Yr)之间的差值平方和(SSD)最小化:
- Yr = A1.x + K1 其中x < BP(间断点)
- Yr = A2.x + K2 其中x > BP(间断点)
其中
- Yr是一定值x下y的期望(预测)值;
- A1、A2是回归系数(表示线段斜率);
- K1、K2是回归常数(表示y轴截距)。
数据可能显示多种类型或趋势,[2]见图。
该方法还能得到2个相关系数(R):
- 其中x < BP(间断点)
及
- 其中x > BP(间断点)
其中
- 是每段的最小化SSD
,而
- Ya1、Ya2是各自区间y的均值。
在确定最合适的趋势时,必须进行统计检验,以确保趋势可靠(显著)。
如果无法检测到明显的断点,则必须采用无断点回归。
例子
右边的蓝色图给出了芥菜产量(Yr = Ym, t/ha)和土壤盐化(x = Ss,用土壤溶液导电率EC表示,单位为dS/m)之间的关系:[3]
BP = 4.93, A1 = 0, K1 = 1.74, A2 = −0.129, K2 = 2.38, R12 = 0.0035(不显著), R22 = 0.395(显著),以及:
- Ym = 1.74 t/ha 对于Ss < 4.93(断点)
- Ym = −0.129 Ss + 2.38 t/ha 对于Ss > 4.93(断点)
表明土壤盐度< 4.93 dS/m是安全的,而土壤盐度> 4.93 dS/m则会使土壤盐度每增加一个单位减产0.129 t/ha。
下图还显示了置信区间和不确定性。
测试程序
以下统计检验用于确定趋势类型:
- 将BP表示为回归系数A1、A2与y数据均值Y1、Y2,以及x数据均值X1、X2(BP的左右),利用加法和乘法的误差传播规律计算BP的标准差(SE),并应用T检验,从而确定断点(BP)的显著性
- 应用T分布和A1、A2的标准差SE,检验A1、A2的显著性
- 利用A1、A2差的SE,采用T分布检验差的显著性
- 利用Y1、Y2差的SE,运用T分布检验差的显著性
- 检验是否有断点的一种更正式的统计方法是伪分数检验,无需估计分段线。[4]
此外,还使用了所有数据的相关系数(Ra)、决定系数或解释系数、回归函数的信赖区间及ANOVA分析。[5] 在显著性检验设定的条件下,所有数据的决定系数(Cd)应达到最大值,其计算公式为
其中Yr是根据前回归方程得出的y的预期(预测)值,Ya是所有y值的均值。
Cd系数介于0(完全没有解释)和1(完全解释,完全匹配)之间。
在纯粹的非分段线性回归中,Cd=Ra2。在分段回归中,Cd要明显大于Ra2才能证明分段的合理性。
无效应范围
分段回归常用于检测解释变量(X)对因变量(Y)无效应的范围。 无效应范围可能在X域的前部,也可能在后部。对于“无效应”分析,应用最小二乘法进行分段回归分析[6]可能不是最合适的技术,因为其目的是找到Y-X关系可被视为零斜率的最长延伸段,在之外,斜率与零有显著差异,但有关该斜率最佳值的知识并不重要。找到无效应范围的方法是对该范围进行渐进式部分回归[7],小步扩展范围,直到回归系数与零有显著差异。
在下图中,X=7.9时找到了断点,而对于相同的数据(芥菜产量见上图蓝色部分),最小二乘法仅在X=4.9时得到断点。后者的值较低,但对间断点以外数据的拟合效果更好。因此,采用哪种方法取决于分析的目的。
另见
参考文献
- ^ Frequency and Regression Analysis. Chapter 6 in: H.P.Ritzema (ed., 1994), Drainage Principles and Applications, Publ. 16, pp. 175-224, International Institute for Land Reclamation and Improvement (ILRI), Wageningen, The Netherlands. ISBN 90-70754-33-9 . Free download from the webpage [1] (页面存档备份,存于互联网档案馆) , under nr. 20, or directly as PDF : [2] (页面存档备份,存于互联网档案馆)
- ^ Drainage research in farmers' fields: analysis of data. Part of project "Liquid Gold" of the International Institute for Land Reclamation and Improvement (ILRI), Wageningen, The Netherlands. Download as PDF : [3] (页面存档备份,存于互联网档案馆)
- ^ R.J.Oosterbaan, D.P.Sharma, K.N.Singh and K.V.G.K.Rao, 1990, Crop production and soil salinity: evaluation of field data from India by segmented linear regression. In: Proceedings of the Symposium on Land Drainage for Salinity Control in Arid and Semi-Arid Regions, February 25th to March 2nd, 1990, Cairo, Egypt, Vol. 3, Session V, p. 373 - 383.
- ^ Muggeo, VMR. Testing with a nuisance parameter present only under the alternative: a score-based approach with application to segmented modelling (PDF). Journal of Statistical Computation and Simulation. 2016, 86 (15): 3059–3067. S2CID 124914264. doi:10.1080/00949655.2016.1149855.
- ^ Statistical significance of segmented linear regression with break-point using variance analysis and F-tests. Download from [4] (页面存档备份,存于互联网档案馆) under nr. 13, or directly as PDF : [5] (页面存档备份,存于互联网档案馆)
- ^ Segmented regression analysis, International Institute for Land Reclamation and Improvement (ILRI), Wageningen, The Netherlands. Free download from the webpage [6] (页面存档备份,存于互联网档案馆)
- ^ Partial Regression Analysis, International Institute for Land Reclamation and Improvement (ILRI), Wageningen, The Netherlands. Free download from the webpage [7] (页面存档备份,存于互联网档案馆)