分段回归

分段回归是一种回归分析方法,将自变量划为若干区间,并分别拟合出单独的线段。通过对各种自变量分区,也可以对多元数据进行分区回归分析。自变量聚类为不同组别时,这些区域的变量之间会表现出不同的关系,这时分段回归就非常有用。分段之间的界限就是间断点。

分段线性回归就是分段回归,通过线性回归得到区间内的关系。

2段线性回归

 
第一段水平
 
第一段上升
 
第一段下降

分2段线性回归的段间有1个间断点,可用来量化影响因素(x)变化的响应函数(Yr)的突然变化。间断点可解释为临界值、安全值或阈值,过该值会产生(非)预期效果。间断点对决策非常重要。[1]

这些图表说明了可获得的一些结果和回归类型。

分段回归分析基于一组( y, x )数据,其中y是因变量,x是自变量。

最小二乘法分别适用于每个分段,通过这种方法,两条回归线可以分别拟合数据集,同时使因变量观测值(y)与计算值(Yr)之间的差值平方和(SSD)最小化:

  • Yr = A1.x + K1     其中x < BP(间断点)
  • Yr = A2.x + K2     其中x > BP(间断点)

其中

Yr是一定值x下y的期望(预测)值;
A1、A2回归系数(表示线段斜率);
K1、K2是回归常数(表示y轴截距)。

数据可能显示多种类型或趋势,[2]见图。

该方法还能得到2个相关系数(R):

  •       其中x < BP(间断点)

  •       其中x > BP(间断点)

其中

 是每段的最小化SSD

,而

Ya1Ya2是各自区间y的均值。

在确定最合适的趋势时,必须进行统计检验,以确保趋势可靠(显著)。

如果无法检测到明显的断点,则必须采用无断点回归。

例子

 
分段线性回归,3b型

右边的蓝色图给出了芥菜产量(Yr = Ym, t/ha)和土壤盐化x = Ss,用土壤溶液导电率EC表示,单位为dS/m)之间的关系:[3]

BP = 4.93, A1 = 0, K1 = 1.74, A2 = −0.129, K2 = 2.38, R12 = 0.0035(不显著), R22 = 0.395(显著),以及:

  • Ym = 1.74 t/ha                        对于Ss < 4.93(断点)
  • Ym = −0.129 Ss + 2.38 t/ha     对于Ss > 4.93(断点)

表明土壤盐度< 4.93 dS/m是安全的,而土壤盐度> 4.93 dS/m则会使土壤盐度每增加一个单位减产0.129 t/ha。

下图还显示了置信区间和不确定性。

测试程序

 
时间序列实例,5型
 
ANOVA表示例:本例中引入断点非常重要。

以下统计检验用于确定趋势类型:

  1. 将BP表示为回归系数A1、A2与y数据均值Y1、Y2,以及x数据均值X1、X2(BP的左右),利用加法和乘法的误差传播规律计算BP的标准差(SE),并应用T检验,从而确定断点(BP)的显著性
  2. 应用T分布和A1、A2的标准差SE,检验A1、A2的显著性
  3. 利用A1、A2差的SE,采用T分布检验差的显著性
  4. 利用Y1、Y2差的SE,运用T分布检验差的显著性
  5. 检验是否有断点的一种更正式的统计方法是伪分数检验,无需估计分段线。[4]

此外,还使用了所有数据的相关系数(Ra)、决定系数或解释系数、回归函数的信赖区间ANOVA分析。[5] 在显著性检验设定的条件下,所有数据的决定系数(Cd)应达到最大值,其计算公式为

  •  

其中Yr是根据前回归方程得出的y的预期(预测)值,Ya是所有y值的均值。

Cd系数介于0(完全没有解释)和1(完全解释,完全匹配)之间。
在纯粹的非分段线性回归中,Cd=Ra2。在分段回归中,Cd要明显大于Ra2才能证明分段的合理性。

可找到断点的最优值,使Cd系数得极大值

无效应范围

 
X=0到X=7.85之间没有影响的范围

分段回归常用于检测解释变量(X)对因变量(Y)无效应的范围。 无效应范围可能在X域的前部,也可能在后部。对于“无效应”分析,应用最小二乘法进行分段回归分析[6]可能不是最合适的技术,因为其目的是找到Y-X关系可被视为零斜率的最长延伸段,在之外,斜率与零有显著差异,但有关该斜率最佳值的知识并不重要。找到无效应范围的方法是对该范围进行渐进式部分回归[7],小步扩展范围,直到回归系数与零有显著差异。

在下图中,X=7.9时找到了断点,而对于相同的数据(芥菜产量见上图蓝色部分),最小二乘法仅在X=4.9时得到断点。后者的值较低,但对间断点以外数据的拟合效果更好。因此,采用哪种方法取决于分析的目的。

另见

参考文献

  1. ^ Frequency and Regression Analysis. Chapter 6 in: H.P.Ritzema (ed., 1994), Drainage Principles and Applications, Publ. 16, pp. 175-224, International Institute for Land Reclamation and Improvement (ILRI), Wageningen, The Netherlands. ISBN 90-70754-33-9 . Free download from the webpage [1]页面存档备份,存于互联网档案馆) , under nr. 20, or directly as PDF : [2]页面存档备份,存于互联网档案馆
  2. ^ Drainage research in farmers' fields: analysis of data. Part of project "Liquid Gold" of the International Institute for Land Reclamation and Improvement (ILRI), Wageningen, The Netherlands. Download as PDF : [3]页面存档备份,存于互联网档案馆
  3. ^ R.J.Oosterbaan, D.P.Sharma, K.N.Singh and K.V.G.K.Rao, 1990, Crop production and soil salinity: evaluation of field data from India by segmented linear regression. In: Proceedings of the Symposium on Land Drainage for Salinity Control in Arid and Semi-Arid Regions, February 25th to March 2nd, 1990, Cairo, Egypt, Vol. 3, Session V, p. 373 - 383.
  4. ^ Muggeo, VMR. Testing with a nuisance parameter present only under the alternative: a score-based approach with application to segmented modelling (PDF). Journal of Statistical Computation and Simulation. 2016, 86 (15): 3059–3067. S2CID 124914264. doi:10.1080/00949655.2016.1149855. 
  5. ^ Statistical significance of segmented linear regression with break-point using variance analysis and F-tests. Download from [4]页面存档备份,存于互联网档案馆) under nr. 13, or directly as PDF : [5]页面存档备份,存于互联网档案馆
  6. ^ Segmented regression analysis, International Institute for Land Reclamation and Improvement (ILRI), Wageningen, The Netherlands. Free download from the webpage [6]页面存档备份,存于互联网档案馆
  7. ^ Partial Regression Analysis, International Institute for Land Reclamation and Improvement (ILRI), Wageningen, The Netherlands. Free download from the webpage [7]页面存档备份,存于互联网档案馆