回歸分析

統計學上一種分析數據的方法
(重定向自Regression

迴歸分析(英語:Regression Analysis)是一種統計學上分析數據的方法,目的在於了解兩個或多個變數間是否相關、相關方向與強度,並建立數學模型以便觀察特定變數來預測研究者感興趣的變數。更具体的来说,回归分析可以帮助人们了解在只有一个自变量变化时因变量的变化量。一般来说,通过回归分析我们可以由给出的自变量估计因变量的条件期望。

簡單線性迴歸分析的例子

迴歸分析是建立被解釋變數(或稱應變數、依變數、反應變數)與解釋變數(或稱自變數、獨立變數)之間關係的模型。簡單線性回歸使用一個自變量複迴歸使用超過一個自變量()。

起源

回归的最早形式是最小二乘法,由1805年的勒让德(Legendre)[1],和1809年的高斯(Gauss)出版[2]。勒让德和高斯都将该方法应用于从天文观测中确定关于太阳的物体的轨道(主要是彗星,但后来是新发现的小行星)的问题。 高斯在1821年发表了最小二乘理论的进一步发展[3],包括高斯-马尔可夫定理的一个版本。

「迴歸」一詞最早由法蘭西斯·高爾頓(Francis Galton)所使用[4][5]。他曾對親子間的身高做研究,發現父母的身高雖然會遺傳給子女,但子女的身高卻有逐漸「回歸到中等(即人的平均值)」的現象。不過當時的迴歸和現在的迴歸在意義上已不盡相同。

在1950年代和60年代,经济学家使用机械电子桌面计算器来计算回归。在1970年之前,这种计算方法有时需要长达24小时才能得出结果[6]

迴歸分析原理

  • 目的在於找出一條最能夠代表所有觀測資料的函數曲线(迴歸估計式)。
  • 用此函數代表因變數和自變數之間的關係。

母數估計

回归模型

回归模型主要包括以下变量:

  • 未知参数,记为 ,可以代表一个标量或一个向量
  • 自变量 
  • 因变量 

回归模型将 和一个关于  的函数关联起来。

在不同的应用领域有各自不同的术语代替这里的“自变量”和“因变量”。

 

这个估计值通常写作: 

在进行回归分析时,函数 的形式必须预先指定。有时函数 的形式是在对  关系的已有知识上建立的,而不是在数据的基础之上。如果没有这种已有知识,那么就要选择一个灵活和便于回归的 的形式。

假设现在未知向量 的维数为k。为了进行回归分析,必须要先有关于 的信息:

  • 如果以 的形式给出了 个数据点,当 时,大多数传统的回归分析方法都不能进行,因为数据量不够导致回归模型的系统方程不能完全确定 
  • 如果恰好有 个数据点,并且函数 的形式是线性的,那么方程 能精确求解。这相当于解一个有 个未知量和 个方程的方程组。在 线性无关的情况下,这个方程组有唯一解。但如果 是非线性形式的,解可能有多个或不存在。
  • 实际中 的情况占大多数。这种情况下,有足够的信息用于估计一个与数据最接近的 值,这时当回归分析应用于这些数据时,可以看作是解一个关于 超定方程

在最后一种情况下,回归分析提供了一种完成以下任务的工具: ⒈找出一个未知量 的解使因变量 的预测值和实际值差别最小(又称最小二乘法)。

⒉在特定统计假设下,回归分析使用数据中的多余信息给出关于因变量 和未知量 之间的关系。

迴歸分析的種類

簡單線性回歸

簡單線性迴歸(英語:simple linear regression

  • 應用時機
  1. 以單一變數預測
  2. 判斷兩變數之間相關的方向和程度

複迴歸(或多變量迴歸)

複回歸分析(英語:multiple regression analysis)是簡單線性迴歸的一種延伸應用,用以瞭解一個依變項與兩組以上自變項的函數關係。

對數線性迴歸

對數線性迴歸英语Log-linear model(英語:Log-linear model),是將解釋變項(實驗設計中的自變項)和反應變項(實驗設計中的依變項)都取對數值之後再進行線性迴歸,所以依據解釋變項的數量,可能是對數簡單線性迴歸,也可能是對數複迴歸。

非線性迴歸

对数几率回归

对数几率回归(英語:Logistic Regression

偏迴歸

偏迴歸英语Partial Regression(英語:Partial Regression

用於研究單個自變數對因變數的影響,同時控制其他自變數的影響。它通常應用在多元迴歸模型中,以解決自變數之間存在共線性時的問題,或者用於探索自變數之間的相互作用。

自迴歸

自迴歸滑動平均模型

差分自迴歸滑動平均模型

向量自迴歸模型

參閱

参考资料

  1. ^ A.M. Legendre. Nouvelles méthodes pour la détermination des orbites des comètes页面存档备份,存于互联网档案馆), Firmin Didot, Paris, 1805. “Sur la Méthode des moindres quarrés” appears as an appendix.
  2. ^ C.F. Gauss. Theoria Motus Corporum Coelestium in Sectionibus Conicis Solem Ambientum. (1809)
  3. ^ C.F. Gauss. Theoria combinationis observationum erroribus minimis obnoxiae页面存档备份,存于互联网档案馆). (1821/1823)
  4. ^ Mogull, Robert G. Second-Semester Applied Statistics. Kendall/Hunt Publishing Company. 2004: 59. ISBN 0-7575-1181-3. 
  5. ^ Galton, Francis. Kinship and Correlation (reprinted 1989). Statistical Science (Institute of Mathematical Statistics). 1989, 4 (2): 80–86. JSTOR 2245330. doi:10.1214/ss/1177012581. 
  6. ^ Rodney Ramcharan. Regressions: Why Are Economists Obessessed with Them?页面存档备份,存于互联网档案馆) March 2006. Accessed 2011-12-03.

外部連結

  1. 解讀迴歸分析的原理及結構