斯皮尔曼等级相关系数

統計學名詞

斯皮尔曼等级相关系数(简称等级相关系数,或称秩相关系数,英语:Spearman's rank correlation coefficientSpearman's ρ),在统计学中,常以希腊字母(rho)或以表示,这一相关系数以查尔斯·斯皮尔曼英语Charles Spearman之名命名。它是衡量两个变量相关性非参数指标。它利用单调函数评价两个统计变量的相关性。若数据中没有重复值,且当两变量完全单调相关时,斯皮尔曼相关系数为+1或−1。

斯皮尔曼等级相关系数为1表明两个被比较的变量是单调相关的,即使它们之间的相关关系可能并非线性的。相较而言,其皮尔逊相关关系并不完美。
当数据大致呈椭圆分布且没有明显的离群点时,皮尔逊相关系数的值和斯皮尔曼相关系数的值接近。
对样本中的显著离群点,斯皮尔曼相关系数比皮尔逊相关系数不敏感。

定义和计算

斯皮尔曼相关系数的定义为等级变量之间的皮尔逊相关系数[1]

对于样本容量为n的样本,将n原始数据 转换成等级数据 ,则相关系数 

 

其中

 皮尔逊积矩相关系数,但使用等级变量来计算,
 为等级变量的协方差
  为等级变量的标准差

通常,对于数据中相同的值,其等级数等于它们按值升序排列的所处位置的平均值。[2]如下表所示:

变量  升序位置
(仅示意,不使用)
升序位置的平均等级数
(使用)
18 1 1
2.3 2 2
1.2 3  
1.2 4  
0.8 5 5

当所有的等级数值都为整数时,可以通过以下简单的步骤计算等级相关系数:[1][3]

 

其中

 为每组观测中两个变量的等级差值,
n为观测数。
证明

考虑一个双变量样本 ,其相应的位次为 。则 的斯皮尔曼等级相关系数为:

 

其中:     

若假定样本中两变量均没有重复数值,则 可只用 来给出。

在此假定下, 可视为随机变量,其分布类似于均匀分布随机变量, ,其自变量取值为 

因此   , 其中   , 故有  。 (这些求和可以用三角形数四角锥数的公式来计算,也可以用离散数学的基本求和结果来计算。)

既然

 

则综上可得

 

当数据中存在相等的数值时,使用该简化公式会得到错误结果:只有在两组变量中所有数值不重复时,才有 (根据有偏方差计算)。第一个方程(通过标准差进行归一化)即使在排名标准化为[0, 1](“相对排名”)的情况下仍可使用,因为它对平移和线性缩放都不敏感。

对于截取的数据也不应使用简化公式。即,当希望计算前X条记录的等级相关系数时,应当使用前述的皮尔逊积矩相关系数公式。[4]

相关度量

度量一对观测数据的统计相关性还有其他的几种度量指标。其中最常用的是皮尔逊积矩相关系数

斯皮尔曼相关也可称为“级别相关”(grade correlation);[5] 也就是说, 被观测数据的“等级”被替换成 “级别”。在连续的分布中, 被观测数据的级别,通常总是小于等级的一半。然而,在这个案例中,级别和等级相关系数是一致的。更一般的, 被观测数据的“级别” 与估计的总体样本的比值小于给定的值,即被观测值的一半。也就是说,它是相应的等级系数的一种可能的解决方案。虽然不常用,“级别相关”还是仍然有被使用。[6]

解释

斯皮尔曼相关系数的正负性的解读
正的斯皮尔曼相关系数反映两个变量XY之间单调递增的趋势。
负的斯皮尔曼相关系数反映两个变量XY之间单调递减的趋势。

斯皮尔曼相关系数表明X(自变量)和Y(因变量)的相关方向。如果当X增加时,Y趋向于增加,则斯皮尔曼相关系数为正。如果当X增加时,Y趋向于减少,则斯皮尔曼相关系数为负。斯皮尔曼相关系数为0表明当X增加时Y没有任何趋向性。当XY越来越接近完全的单调相关时,斯皮尔曼相关系数会在绝对值上增加。当XY完全单调相关时,斯皮尔曼相关系数的绝对值为1。完全的单调递增关系意味着对任意两对数据XiYiXjYj,有Xi − XjYi − Yj总是同号。完全的单调递减关系意味着对任意两对数据XiYiXjYj,有Xi − XjYi − Yj总是异号。

斯皮尔曼相关系数经常被称作“非参数”的,其中有两层含义。首先,当XY的关系由任意单调函数描述时,则它们是完全皮尔逊相关的。与此相应的,皮尔逊相关系数只能给出由线性方程描述的XY的相关性。其次,斯皮尔曼不需要先验知识(也就是说,知道其参数)便可以准确获取XY的采样概率分布

示例

在此例中,我们要使用下表所给出的原始数据计算一个人的智商和其每周看电视的小时数的相关性(数据为虚构)。

智商,   每周看电视小时数,  
106 7
86 0
100 27
101 50
99 28
103 29
97 20
113 12
112 6
110 17

首先,我们必须根据以下步骤计算出 ,如下表所示。

  1. 排列第一列数据( )。创建新列   并赋以等级值1、2、3……n
  2. 然后,排列第二列数据( )。创建第四列   并相似地赋以等级值1、2、3……n
  3. 创建第五列 ,填入两个等级列(  )的差值。
  4. 创建最后一列 填入 的平方。
智商,   每周看电视小时数,    的排名  的排名    
86 0 1 1 0 0
97 20 2 6 −4 16
99 28 3 8 −5 25
100 27 4 7 −3 9
101 50 5 10 −5 25
103 29 6 9 −3 9
106 7 7 3 4 16
110 17 8 5 3 9
112 6 9 2 7 49
113 12 10 4 6 36
 
数据相应的图表。可以看出,两者之间似乎存在负相关关系,但这种关系难以直接确定。

根据 计算 。样本容量n为10。将这些值带入方程

 

ρ = −0.175757575...,p-value = 0.627188(使用t分布

该数值接近0,表明尽管看电视时间和智商似乎呈负相关,但两个变量之间的关系很弱。在原始数据中存在相同数值的情况下,不应使用此公式,而应当用排名计算皮尔逊相关系数(如上文所述)。

显著性的确定

一种确定被观测数据的ρ值是否显著不为零(r总是有1 ≥ r ≥ −1)的方法是计算它是否大于r的概率,作为零假设,并使用排列检验。这种方法的优势在于它考虑了样本中的重复出现的数据个数,以及在计算等级相关性时处理它们的方式。

另一种方法是使用皮尔逊积矩中使用到的费雪变换。也就是,ρ置信区间假设检验可以通过费雪变换获得

 

如果F(r)r的费雪变换,则

 

rz-值,其中,r统计独立性ρ = 0[7][8]零假设下近似服从标准常态分布

显著性为

 

其在零假设下近似服从自由度为n − 2t分布[9] A justification for this result relies on a permutation argument.[10]

一般地,斯皮尔曼相关系数在有三个或更多条件的情况下是有用的。并且,它预测观测数据有一个特定的顺序。例如,在同一任务中,一系列的个体会被尝试多次,并预测在多次尝试过程中,性能会得到提升。在这种情况下,对条件间趋势的显著性检验由E. B. Page[11]发展了,并通常称为给定序列下的Page趋势检验

基于斯皮尔曼相关系数的一致性分析

经典的一致性分析英语Correspondence analysis是一种统计方法,它给两个标称变量赋给一个分数。通过这种方法,两个变量间的皮尔逊相关系数被最大化了。

有一种被称为级别相关分析的等价方法,它能够最大化斯皮尔曼相关系数或肯德尔等级相关系数英语Kendall rank correlation coefficient[12]

参见

参考文献

  1. ^ 1.0 1.1 Myers, Jerome L.; Well, Arnold D., Research Design and Statistical Analysis 2nd, Lawrence Erlbaum: 508, 2003, ISBN 0-8058-4037-0 
  2. ^ Dodge, Yadolah. The Concise Encyclopedia of Statistics . Springer-Verlag New York. 2010: 502. ISBN 978-0-387-31742-7. 
  3. ^ Maritz. J.S. (1981) Distribution-Free Statistical Methods, Chapman & Hall. ISBN 0-412-15940-6. (page 217)
  4. ^ Al Jaber, Ahmed Odeh; Elayyan, Haifaa Omar. Toward Quality Assurance and Excellence in Higher Education. River Publishers. 2018: 284. ISBN 978-87-93609-54-9. 
  5. ^ Yule, G.U and Kendall, M.G. (1950), "An Introduction to the Theory of Statistics", 14th Edition (5th Impression 1968). Charles Griffin & Co. page 268
  6. ^ Piantadosi, J.; Howlett, P.; Boland, J. (2007) "Matching the grade correlation coefficient using a copula with maximum disorder", Journal of Industrial and Management Optimization, 3 (2), 305–312
  7. ^ Choi, S.C. (1977) Test of equality of dependent correlations. Biometrika, 64 (3), pp. 645–647
  8. ^ Fieller, E.C.; Hartley, H.O.; Pearson, E.S. (1957) Tests for rank correlation coefficients. I. Biometrika 44, pp. 470–481
  9. ^ Press, Vettering, Teukolsky, and Flannery (1992) Numerical Recipes in C: The Art of Scientific Computing, 2nd Edition, page 640
  10. ^ Kendall, M.G., Stuart, A. (1973)The Advanced Theory of Statistics, Volume 2: Inference and Relationship, Griffin. ISBN 0-85264-215-6 (Sections 31.19, 31.21)
  11. ^ Page, E. B. Ordered hypotheses for multiple treatments: A significance test for linear ranks. Journal of the American Statistical Association. 1963, 58 (301): 216–230. doi:10.2307/2282965. 
  12. ^ Kowalczyk, T.; Pleszczyńska E. , Ruland F. (eds.). Grade Models and Methods for Data Analysis with Applications for the Analysis of Data Populations. Studies in Fuzziness and Soft Computing vol. 151. Berlin Heidelberg New York: Springer Verlag. 2004. ISBN 978-3-540-21120-4. 
  • G.W. Corder, D.I. Foreman, "Nonparametric Statistics for Non-Statisticians: A Step-by-Step Approach", Wiley (2009)
  • C. Spearman, "The proof and measurement of association between two things" Amer. J. Psychol., 15 (1904) pp. 72–101
  • M.G. Kendall, "Rank correlation methods", Griffin (1962)
  • M. Hollander, D.A. Wolfe, "Nonparametric statistical methods", Wiley (1973)
  • J. C. Caruso, N. Cliff, "Empirical Size, Coverage, and Power of Confidence Intervals for Spearman's Rho", Ed. and Psy. Meas., 57 (1997) pp. 637–654

外部链接