分段回歸
分段回歸是一種回歸分析方法,將自變量劃為若干區間,並分別擬合出單獨的線段。通過對各種自變量分區,也可以對多元數據進行分區回歸分析。自變量聚類為不同組別時,這些區域的變量之間會表現出不同的關係,這時分段回歸就非常有用。分段之間的界限就是間斷點。
分段線性回歸就是分段回歸,通過線性回歸得到區間內的關係。
2段線性回歸
分2段線性回歸的段間有1個間斷點,可用來量化影響因素(x)變化的響應函數(Yr)的突然變化。間斷點可解釋為臨界值、安全值或閾值,過該值會產生(非)預期效果。間斷點對決策非常重要。[1]
這些圖表說明了可獲得的一些結果和回歸類型。
分段回歸分析基於一組( y, x )數據,其中y是因變量,x是自變量。
最小二乘法分別適用於每個分段,通過這種方法,兩條回歸線可以分別擬合數據集,同時使因變量觀測值(y)與計算值(Yr)之間的差值平方和(SSD)最小化:
- Yr = A1.x + K1 其中x < BP(間斷點)
- Yr = A2.x + K2 其中x > BP(間斷點)
其中
- Yr是一定值x下y的期望(預測)值;
- A1、A2是回歸係數(表示線段斜率);
- K1、K2是回歸常數(表示y軸截距)。
數據可能顯示多種類型或趨勢,[2]見圖。
該方法還能得到2個相關係數(R):
- 其中x < BP(間斷點)
及
- 其中x > BP(間斷點)
其中
- 是每段的最小化SSD
,而
- Ya1、Ya2是各自區間y的均值。
在確定最合適的趨勢時,必須進行統計檢驗,以確保趨勢可靠(顯著)。
如果無法檢測到明顯的斷點,則必須採用無斷點回歸。
例子
右邊的藍色圖給出了芥菜產量(Yr = Ym, t/ha)和土壤鹽化(x = Ss,用土壤溶液導電率EC表示,單位為dS/m)之間的關係:[3]
BP = 4.93, A1 = 0, K1 = 1.74, A2 = −0.129, K2 = 2.38, R12 = 0.0035(不顯著), R22 = 0.395(顯著),以及:
- Ym = 1.74 t/ha 對於Ss < 4.93(斷點)
- Ym = −0.129 Ss + 2.38 t/ha 對於Ss > 4.93(斷點)
表明土壤鹽度< 4.93 dS/m是安全的,而土壤鹽度> 4.93 dS/m則會使土壤鹽度每增加一個單位減產0.129 t/ha。
下圖還顯示了置信區間和不確定性。
測試程序
以下統計檢驗用於確定趨勢類型:
- 將BP表示為回歸係數A1、A2與y數據均值Y1、Y2,以及x數據均值X1、X2(BP的左右),利用加法和乘法的誤差傳播規律計算BP的標準差(SE),並應用T檢驗,從而確定斷點(BP)的顯著性
- 應用T分布和A1、A2的標準差SE,檢驗A1、A2的顯著性
- 利用A1、A2差的SE,採用T分布檢驗差的顯著性
- 利用Y1、Y2差的SE,運用T分布檢驗差的顯著性
- 檢驗是否有斷點的一種更正式的統計方法是偽分數檢驗,無需估計分段線。[4]
此外,還使用了所有數據的相關係數(Ra)、決定係數或解釋係數、回歸函數的信賴區間及ANOVA分析。[5] 在顯著性檢驗設定的條件下,所有數據的決定係數(Cd)應達到最大值,其計算公式為
其中Yr是根據前回歸方程得出的y的預期(預測)值,Ya是所有y值的均值。
Cd係數介於0(完全沒有解釋)和1(完全解釋,完全匹配)之間。
在純粹的非分段線性回歸中,Cd=Ra2。在分段回歸中,Cd要明顯大於Ra2才能證明分段的合理性。
無效應範圍
分段回歸常用於檢測解釋變量(X)對因變量(Y)無效應的範圍。 無效應範圍可能在X域的前部,也可能在後部。對於「無效應」分析,應用最小二乘法進行分段回歸分析[6]可能不是最合適的技術,因為其目的是找到Y-X關係可被視為零斜率的最長延伸段,在之外,斜率與零有顯著差異,但有關該斜率最佳值的知識並不重要。找到無效應範圍的方法是對該範圍進行漸進式部分回歸[7],小步擴展範圍,直到回歸係數與零有顯著差異。
在下圖中,X=7.9時找到了斷點,而對於相同的數據(芥菜產量見上圖藍色部分),最小二乘法僅在X=4.9時得到斷點。後者的值較低,但對間斷點以外數據的擬合效果更好。因此,採用哪種方法取決於分析的目的。
另見
參考文獻
- ^ Frequency and Regression Analysis. Chapter 6 in: H.P.Ritzema (ed., 1994), Drainage Principles and Applications, Publ. 16, pp. 175-224, International Institute for Land Reclamation and Improvement (ILRI), Wageningen, The Netherlands. ISBN 90-70754-33-9 . Free download from the webpage [1] (頁面存檔備份,存於網際網路檔案館) , under nr. 20, or directly as PDF : [2] (頁面存檔備份,存於網際網路檔案館)
- ^ Drainage research in farmers' fields: analysis of data. Part of project "Liquid Gold" of the International Institute for Land Reclamation and Improvement (ILRI), Wageningen, The Netherlands. Download as PDF : [3] (頁面存檔備份,存於網際網路檔案館)
- ^ R.J.Oosterbaan, D.P.Sharma, K.N.Singh and K.V.G.K.Rao, 1990, Crop production and soil salinity: evaluation of field data from India by segmented linear regression. In: Proceedings of the Symposium on Land Drainage for Salinity Control in Arid and Semi-Arid Regions, February 25th to March 2nd, 1990, Cairo, Egypt, Vol. 3, Session V, p. 373 - 383.
- ^ Muggeo, VMR. Testing with a nuisance parameter present only under the alternative: a score-based approach with application to segmented modelling (PDF). Journal of Statistical Computation and Simulation. 2016, 86 (15): 3059–3067. S2CID 124914264. doi:10.1080/00949655.2016.1149855.
- ^ Statistical significance of segmented linear regression with break-point using variance analysis and F-tests. Download from [4] (頁面存檔備份,存於網際網路檔案館) under nr. 13, or directly as PDF : [5] (頁面存檔備份,存於網際網路檔案館)
- ^ Segmented regression analysis, International Institute for Land Reclamation and Improvement (ILRI), Wageningen, The Netherlands. Free download from the webpage [6] (頁面存檔備份,存於網際網路檔案館)
- ^ Partial Regression Analysis, International Institute for Land Reclamation and Improvement (ILRI), Wageningen, The Netherlands. Free download from the webpage [7] (頁面存檔備份,存於網際網路檔案館)