kappa系数是统计学中度量一致性的指标, 值在[-1,1]. 对于评分系统, 一致性就是不同打分人平均的一致性; 对于分类问题,一致性就是模型预测结果和实际分类结果是否一致. kappa系数的计算是基于混淆矩阵, 取值为-1到1之间, 通常大于0.
kappa值含义:
简单kappa
下面的表格是真实类别和预测类别的混淆矩阵, 其中 a i j a_{ij} aij表示真实为 i i i预测为 j j j的样本数量. N N N为样本总量. a i + = ∑ j a i j , a + j = ∑ i a i j . a_{i+}=\sum_{j} a_{ij}, \, a_{+j}=\sum_{i} a_{ij}. ai+=∑jaij,a+j=∑iaij.
| 类别1 | 类别2 | 类别3 | 总计 | |
|---|---|---|---|---|
| 类别1 | a 11 a_{11} a11 | a 12 a_{12} a12 | a 13 a_{13} a13 | a 1 + a_{1+} a1+ |
| 类别2 | a 21 a_{21} a21 | a 22 a_{22} a22 | a 23 a_{23} a23 | a 2 + a_{2+} a2+ |
| 类别3 | a 31 a_{31} a31 | a 32 a_{32} a32 | a 33 a_{33} a33 | a 3 + a_{3+} a3+ |
| 总计 | a + 1 a_{+1} a+1 | a + 2 a_{+2} a+2 | a + 3 a_{+3} a+3 | N N N |
其中, P o P_o Po为预测的准确率, 也可理解为预测的一致性, P o = ∑ i = 1 3 a i i N P_o=\frac{\sum_{i=1}^{3} a_{ii} } {N} Po=N∑i=13aii.
P e P_e Pe表示偶然一致性, P e = ∑ i = 1 3 a i + ∗ a + i N 2 P_e=\frac{\sum_{i=1}^{3} a_{i+}*a_{+i} } {N^2} Pe=N2∑i=13ai+∗a+i.
其实, 本人以为同用频(概)率来表示, 形式更加简洁.
记 p i j = a i j / N p_{ij}=a_{ij}/ N pij=aij/N, p i + = a i + / N p_{i+}=a_{i+}/ N pi+=ai+/N, p + j = a + j / N p_{+j}=a_{+j} / N p+j=a+j/N, 则kappa系数为
P o = ∑ i = 1 3 a i i N = ∑ i = 1 3 p i i , P_o=\frac{\sum_{i=1}^{3} a_{ii} } {N}=\sum_{i=1}^{3} p_{ii}, Po=N∑i=13aii=i=1∑3pii,
P e = ∑ i = 1 3 a i + ∗ a + i N 2 = ∑ i = 1 3 p i + ∗ p + i . P_e=\frac{\sum_{i=1}^{3} a_{i+}*a_{+i} } {N^2}=\sum_{i=1}^{3} p_{i+}*p_{+i}. Pe=N2∑i=13ai+∗a+i=i=1∑3pi+∗p+i.
加权Kappa
下面介绍几种常用的权重计算方法:
设得分有序为 c 0 < c 1 < ⋯ < c m − 1 c_0
c0<c1<⋯<cm−1
- 线性权重
w i j = 1 − ∣ i − j ∣ m − 1 , w_{ij}=1-\frac{|i-j|}{m-1}, wij=1−m−1∣i−j∣, - 二次权重
w i j = 1 − ( i − j m − 1 ) 2 . w_{ij}=1-(\frac{i-j}{m-1})^2. wij=1−(m−1i−j)2.
发布者:全栈程序员-站长,转载请注明出处:https://javaforall.net/203175.html原文链接:https://javaforall.net
