9 秩和比法
秩和比法(Rank-sum ratio,RSR)由田凤调教授于 1988 年提出,集古典参数统计与近代非参数统计各自优点于一体的统计分析方法。RSR 法现在广泛地应用于医疗卫生、科技、经济等邻域的多指标综合评价、统计预测预报、鉴别分类、统计质量控制等方面。
RSR 一般过程是将正向指标从小到大排序进行排名、负向指标从大到小排序进行排名,再计算秩和比,最后统计回归、分档排序。通过秩转换,获得无量纲统计量 RSR;在此基础上,运用参数统计分析的概念与方法,研究 RSR 的分布;以 RSR 值对评价对象的优劣直接排序或分档排序,从而对评价对象做出综合评价。
优点:以非参数法为基础,对指标的选择无特殊要求,适用于各种评价对象,由于计算时使用的数值是秩次,可以消除异常值的干扰
缺点:排序的主要依据是利用原始数据的秩次,最终算得的 RSR 值反映的是综合秩次的差距,而与原始数据的顺位间的差距程度大小无关,这样在指标转化为秩次是会失去一些原始数据的信息,如原始数据的大小差别等。当 RSR 值实际上不满足正态分布时,分档归类的结果与实际情况会有偏差,且只能回答分级程度是否有差别,不能进一步回答具体的差别情况。
RSR 法本质
RSR 只使用了数据的相对大小关系,而不真正运用数值本身,也能用于处理“好”、“较好”、“一般”这类模糊指标问题。只要选择恰当的权重,RSR 法也能转化为模糊综合评价。
实际上,只要确定了权重,编好了秩,原始样本的排序就结束了,但是 RSR 综合评价法再进行了统计回归、分档排序,这一步实际上是通过将样本的秩次分布映射到正态分布曲线上,运用正态分布 \(3 \sigma\) 原则或其它连续变量离散化方法进行分档。
9.1 算法步骤
设有 \(n\) 个评价对象,\(m\) 个评价指标,形成原始指标数据矩阵 \(X\),其中 \(x_{ij}\) 表示第 \(i\) 个评价对象第 \(j\) 个指标的值。
9.1.1 编秩
整数秩
编出每个指标各评价对象的秩,其中正向指标从小到大编秩,负向指标从大到小编秩,同一指标数据相同者编平均秩。例如,某指标下第 3、4、5 名的值相同(原始应占秩次 3, 4, 5),则它们的秩次均为 \((3+4+5) / 3 = 4\)。下一个不同的值则编为秩次 6。
非整数秩
用类似于线性插值的方式对指标值进行编秩,以改进 RSR 法编秩方法的不足,所编秩次与原指标值之间存在定量的线性对应关系,从而克服了 RSR 法秩次化时易损失原指标值定量信息的缺点。
对于正向指标: \[ R_{ij}=1+(n-1)\dfrac{x_{ij}-\min\limits_i x_{ij}}{\max\limits_i x_{ij}-\min\limits_i x_{ij}} \]
对于负向指标: \[ R_{ij}=1+(n-1)\dfrac{\max\limits_i x_{ij}-x_{ij}}{\max\limits_i x_{ij}-\min\limits_i x_{ij}} \]
非整数秩是将传统整数排名(如1, 2, 3, …)推广到连续区间的一种方法,其核心在于根据评价对象在数据中的相对位置,赋予其介于 \(1\) 与 \(n\) 之间的实数值,而非简单的整数秩次,从而更精细地刻画排名信息。该方法本质上是对原始数据进行线性归一化到 \([1,n]\) (即线性插值处理),使排名由跳跃式的离散值转变为反映个体间细微差异的连续变量,提升综合评价的灵敏度与准确性。
该步得到秩矩阵,记为 \(R=(R_{ij})_{m\times n}\)。
9.1.2 计算秩和比并排序
秩和比 \(RSR_i\) 定义为第 \(i\) 个评价对象在所有 \(n\) 个指标下的秩和相对于最大可能秩次(为 \(n\) )的比例: \[ RSR_i=\frac{1}{n}\sum^m_{j=1}w_jR_{ij} \] 其中,\(w_j\) 为第 \(j\) 个指标的权重,满足 \(\sum_j=1^m w_j=1\)。
当指标权重相同时,\(w_j\equiv\frac1m\),此时秩和比可以表示为: \[ RSR_i=\frac{1}{mn}\sum^m_{j=1}R_{ij} \]
9.1.3 确定 RSR 的分布(转化为概率单位)
RSR 的分布是指用概率单位 Probit 表达的值特定的累计频率。 Probit 模型是一种广义的线性模型,服从正态分布。其转换方法为:
- 编制 RSR 频数分布表,列出各组频数 \(f_i\),计算各组累计频数 \(cf_i\);
- 确定各组 RSR 的秩次范围及平均秩次;
- 计算累计频率 \(p_i=cf_i/n\times100\%\),最后一项记为 \(1-\frac1{4n}\) 进行修正。(使用离散分布作为正态分布的近似计算中,作些修正可以提高精度。这里若不做修正,得到的 \(Probit\to\infty\),不能用于计算)
- 将累计频率换算为概率单位 \(\mathrm{Probit}_i\),为累计频率对应的标准正态分布的 \(p_i\) 分位数加 \(5\)。|
9.1.4 拟合线性回归模型,计算模型估计值
以累积频率所对应的概率单位 Probit 为自变量,以 RSR 值为因变量,计算直线回归方程,即: \[ RSR = a+b * Probit \]
回归方程需要做常规的回归诊断保证模型可用(略)。
计算线性回归模型的预测值: \[ RSRfit_i = a + b * \text{Probit}_i \]
9.1.5 进行分档排序
根据 \(RSRfit_i\) 值对评价对象进行分档排序,分档数由研究者根据实际情况决定。
分档排序,实际上就是连续数值离散化,有很多种方法,只要合理就行。
9.2 案例:孕产妇保健评价
加载包:
9.2.1 准备数据
对某省 \(10\) 个地区孕产妇保健工作就 \(3\) 个指标(产前检查率(\(\%\))、 孕妇死亡率(\(1/10\)万)、围产儿死亡率(\(\%\))),进行秩和比综合评价。
df = tibble(
ID = LETTERS[1:10],
x1 = c(99.54,96.52,99.36,92.83,91.71,95.35,96.09,99.27,94.76,84.80),
x2 = c(60.27,59.67,43.91,58.99,35.40,44.71,49.81,31.69,22.91,81.49),
x3 = c(16.15,20.10,15.60,17.04,15.01,13.93,17.43,13.89,19.87,23.63))
df# A tibble: 10 × 4
ID x1 x2 x3
<chr> <dbl> <dbl> <dbl>
1 A 99.5 60.3 16.2
2 B 96.5 59.7 20.1
3 C 99.4 43.9 15.6
4 D 92.8 59.0 17.0
5 E 91.7 35.4 15.0
6 F 95.4 44.7 13.9
7 G 96.1 49.8 17.4
8 H 99.3 31.7 13.9
9 I 94.8 22.9 19.9
10 J 84.8 81.5 23.6
数据预处理,x2 和 x3 是负向指标,取倒数即可(不影响编秩):
# A tibble: 10 × 4
ID x1 x2 x3
<chr> <dbl> <dbl> <dbl>
1 A 99.5 0.0166 0.0619
2 B 96.5 0.0168 0.0498
3 C 99.4 0.0228 0.0641
4 D 92.8 0.0170 0.0587
5 E 91.7 0.0282 0.0666
6 F 95.4 0.0224 0.0718
7 G 96.1 0.0201 0.0574
8 H 99.3 0.0316 0.0720
9 I 94.8 0.0436 0.0503
10 J 84.8 0.0123 0.0423
9.2.2 秩和比法评价
mathmodels 包提供了 rank_sum_ratio() 函数实现用秩和比法综合评价,基本语法:
-
data为原始指标数据,首列为评价对象 ID; -
w为指标权重,可以通过各种赋权法得到,默认是等权重; -
method设置编整数秩("int")还是非整数秩("non-int") 。
9.2.3 重现经典案例结果
采用等指标权重、编整数秩:
- 查看结果表(包含中间结果):
# A tibble: 10 × 8
ID RSR barR f sumf barRn Probit RSRfit
<chr> <dbl> <dbl> <int> <int> <dbl> <dbl> <dbl>
1 J 0.1 1 1 1 0.1 3.72 0.216
2 B 0.4 2.5 2 3 0.25 4.33 0.350
3 D 0.4 2.5 2 3 0.25 4.33 0.350
4 G 0.5 4 1 4 0.4 4.75 0.444
5 I 0.567 5 1 5 0.5 5 0.500
6 A 0.6 6.5 2 7 0.65 5.39 0.585
7 E 0.6 6.5 2 7 0.65 5.39 0.585
8 F 0.667 8 1 8 0.8 5.84 0.686
9 C 0.767 9 1 9 0.9 6.28 0.784
10 H 0.9 10 1 10 0.975 6.96 0.934
- 查看编秩结果:
# A tibble: 10 × 4
ID x1 x2 x3
<chr> <dbl> <dbl> <dbl>
1 A 10 2 6
2 B 7 3 2
3 C 9 7 7
4 D 3 4 5
5 E 2 8 8
6 F 5 6 9
7 G 6 5 4
8 H 8 9 10
9 I 4 10 3
10 J 1 1 1
- 查看线性回归模型结果:
Call:
lm(formula = RSR ~ Probit, data = rltTable)
Residuals:
Min 1Q Median 3Q Max
-0.115792 -0.023458 -0.001329 0.051288 0.066768
Coefficients:
Estimate Std. Error t value Pr(>|t|)
(Intercept) -0.60855 0.12516 -4.862 0.00282 **
Probit 0.22169 0.02329 9.520 7.66e-05 ***
---
Signif. codes: 0 '***' 0.001 '**' 0.01 '*' 0.05 '.' 0.1 ' ' 1
Residual standard error: 0.0653 on 6 degrees of freedom
Multiple R-squared: 0.9379, Adjusted R-squared: 0.9276
F-statistic: 90.63 on 1 and 6 DF, p-value: 7.662e-05
可以进一步提取回归模型的各种结果(略)。
9.2.4 更一般做法
- 指标权重采用熵权法,注意应该根据原始数据计算:
- 采用非整数秩,注意,此时负向指标正向化处理更适合采用”最大值减”而不是”取倒数”:
# A tibble: 10 × 4
ID x1 x2 x3
<chr> <dbl> <dbl> <dbl>
1 A 99.5 21.2 7.48
2 B 96.5 21.8 3.53
3 C 99.4 37.6 8.03
4 D 92.8 22.5 6.59
5 E 91.7 46.1 8.62
6 F 95.4 36.8 9.7
7 G 96.1 31.7 6.2
8 H 99.3 49.8 9.74
9 I 94.8 58.6 3.76
10 J 84.8 0 0
- 查看结果表:
# A tibble: 10 × 8
ID RSR barR f sumf barRn Probit RSRfit
<chr> <dbl> <dbl> <int> <int> <dbl> <dbl> <dbl>
1 J 0.1 1 1 1 0.1 3.72 0.366
2 B 0.544 2 1 2 0.2 4.16 0.456
3 D 0.578 3 1 3 0.3 4.48 0.521
4 G 0.676 4 1 4 0.4 4.75 0.576
5 A 0.720 5 1 5 0.5 5 0.627
6 I 0.725 6 1 6 0.6 5.25 0.679
7 E 0.754 7 1 7 0.7 5.52 0.734
8 F 0.802 8 1 8 0.8 5.84 0.798
9 C 0.826 9 1 9 0.9 6.28 0.888
10 H 0.946 10 1 10 0.975 6.96 1.03
其它结果略。