分段回歸

分段回歸是一種回歸分析方法,將自變量劃為若干區間,並分別擬合出單獨的線段。通過對各種自變量分區,也可以對多元數據進行分區回歸分析。自變量聚類為不同組別時,這些區域的變量之間會表現出不同的關係,這時分段回歸就非常有用。分段之間的界限就是間斷點。

分段線性回歸就是分段回歸,通過線性回歸得到區間內的關係。

2段線性回歸

 
第一段水平
 
第一段上升
 
第一段下降

分2段線性回歸的段間有1個間斷點,可用來量化影響因素(x)變化的響應函數(Yr)的突然變化。間斷點可解釋為臨界值、安全值或閾值,過該值會產生(非)預期效果。間斷點對決策非常重要。[1]

這些圖表說明了可獲得的一些結果和回歸類型。

分段回歸分析基於一組( y, x )數據,其中y是因變量,x是自變量。

最小二乘法分別適用於每個分段,通過這種方法,兩條回歸線可以分別擬合數據集,同時使因變量觀測值(y)與計算值(Yr)之間的差值平方和(SSD)最小化:

  • Yr = A1.x + K1     其中x < BP(間斷點)
  • Yr = A2.x + K2     其中x > BP(間斷點)

其中

Yr是一定值x下y的期望(預測)值;
A1、A2回歸係數(表示線段斜率);
K1、K2是回歸常數(表示y軸截距)。

數據可能顯示多種類型或趨勢,[2]見圖。

該方法還能得到2個相關係數(R):

  •       其中x < BP(間斷點)

  •       其中x > BP(間斷點)

其中

 是每段的最小化SSD

,而

Ya1Ya2是各自區間y的均值。

在確定最合適的趨勢時,必須進行統計檢驗,以確保趨勢可靠(顯著)。

如果無法檢測到明顯的斷點,則必須採用無斷點回歸。

例子

 
分段線性回歸,3b型

右邊的藍色圖給出了芥菜產量(Yr = Ym, t/ha)和土壤鹽化x = Ss,用土壤溶液導電率EC表示,單位為dS/m)之間的關係:[3]

BP = 4.93, A1 = 0, K1 = 1.74, A2 = −0.129, K2 = 2.38, R12 = 0.0035(不顯著), R22 = 0.395(顯著),以及:

  • Ym = 1.74 t/ha                        對於Ss < 4.93(斷點)
  • Ym = −0.129 Ss + 2.38 t/ha     對於Ss > 4.93(斷點)

表明土壤鹽度< 4.93 dS/m是安全的,而土壤鹽度> 4.93 dS/m則會使土壤鹽度每增加一個單位減產0.129 t/ha。

下圖還顯示了置信區間和不確定性。

測試程序

 
時間序列實例,5型
 
ANOVA表示例:本例中引入斷點非常重要。

以下統計檢驗用於確定趨勢類型:

  1. 將BP表示為回歸係數A1、A2與y數據均值Y1、Y2,以及x數據均值X1、X2(BP的左右),利用加法和乘法的誤差傳播規律計算BP的標準差(SE),並應用T檢驗,從而確定斷點(BP)的顯著性
  2. 應用T分佈和A1、A2的標準差SE,檢驗A1、A2的顯著性
  3. 利用A1、A2差的SE,採用T分佈檢驗差的顯著性
  4. 利用Y1、Y2差的SE,運用T分佈檢驗差的顯著性
  5. 檢驗是否有斷點的一種更正式的統計方法是偽分數檢驗,無需估計分段線。[4]

此外,還使用了所有數據的相關係數(Ra)、決定係數或解釋係數、回歸函數的信賴區間ANOVA分析。[5] 在顯著性檢驗設定的條件下,所有數據的決定係數(Cd)應達到最大值,其計算公式為

  •  

其中Yr是根據前回歸方程得出的y的預期(預測)值,Ya是所有y值的均值。

Cd係數介於0(完全沒有解釋)和1(完全解釋,完全匹配)之間。
在純粹的非分段線性回歸中,Cd=Ra2。在分段回歸中,Cd要明顯大於Ra2才能證明分段的合理性。

可找到斷點的最優值,使Cd係數得極大值

無效應範圍

 
X=0到X=7.85之間沒有影響的範圍

分段回歸常用於檢測解釋變量(X)對因變量(Y)無效應的範圍。 無效應範圍可能在X域的前部,也可能在後部。對於「無效應」分析,應用最小二乘法進行分段回歸分析[6]可能不是最合適的技術,因為其目的是找到Y-X關係可被視為零斜率的最長延伸段,在之外,斜率與零有顯著差異,但有關該斜率最佳值的知識並不重要。找到無效應範圍的方法是對該範圍進行漸進式部分回歸[7],小步擴展範圍,直到回歸係數與零有顯著差異。

在下圖中,X=7.9時找到了斷點,而對於相同的數據(芥菜產量見上圖藍色部分),最小二乘法僅在X=4.9時得到斷點。後者的值較低,但對間斷點以外數據的擬合效果更好。因此,採用哪種方法取決於分析的目的。

另見

參考文獻

  1. ^ Frequency and Regression Analysis. Chapter 6 in: H.P.Ritzema (ed., 1994), Drainage Principles and Applications, Publ. 16, pp. 175-224, International Institute for Land Reclamation and Improvement (ILRI), Wageningen, The Netherlands. ISBN 90-70754-33-9 . Free download from the webpage [1]頁面存檔備份,存於互聯網檔案館) , under nr. 20, or directly as PDF : [2]頁面存檔備份,存於互聯網檔案館
  2. ^ Drainage research in farmers' fields: analysis of data. Part of project "Liquid Gold" of the International Institute for Land Reclamation and Improvement (ILRI), Wageningen, The Netherlands. Download as PDF : [3]頁面存檔備份,存於互聯網檔案館
  3. ^ R.J.Oosterbaan, D.P.Sharma, K.N.Singh and K.V.G.K.Rao, 1990, Crop production and soil salinity: evaluation of field data from India by segmented linear regression. In: Proceedings of the Symposium on Land Drainage for Salinity Control in Arid and Semi-Arid Regions, February 25th to March 2nd, 1990, Cairo, Egypt, Vol. 3, Session V, p. 373 - 383.
  4. ^ Muggeo, VMR. Testing with a nuisance parameter present only under the alternative: a score-based approach with application to segmented modelling (PDF). Journal of Statistical Computation and Simulation. 2016, 86 (15): 3059–3067. S2CID 124914264. doi:10.1080/00949655.2016.1149855. 
  5. ^ Statistical significance of segmented linear regression with break-point using variance analysis and F-tests. Download from [4]頁面存檔備份,存於互聯網檔案館) under nr. 13, or directly as PDF : [5]頁面存檔備份,存於互聯網檔案館
  6. ^ Segmented regression analysis, International Institute for Land Reclamation and Improvement (ILRI), Wageningen, The Netherlands. Free download from the webpage [6]頁面存檔備份,存於互聯網檔案館
  7. ^ Partial Regression Analysis, International Institute for Land Reclamation and Improvement (ILRI), Wageningen, The Netherlands. Free download from the webpage [7]頁面存檔備份,存於互聯網檔案館