异常值检验演示

拉依达准则(3σ)、格鲁布斯检验(Grubbs)、狄克逊 Q 检验的直观区别 · 交互示例与习题

← 返回主页

三种检验的直观区别

对同一条件重复测量得到一组数据时,若某点明显偏离其余数据,可用以下三种方法之一判断是否将其视为异常值舍弃。三者判据不同、适用样本量不同,下面分别说明并给出交互示例与图示。

标准差 s 的计算公式

拉依达准则与格鲁布斯检验中使用的 s样本标准差(sample standard deviation),衡量数据相对平均值 x̄ 的离散程度。

样本平均值:

\[ \bar{x} = \frac{1}{n} \sum_{i=1}^{n} x_i = \frac{x_1 + x_2 + \cdots + x_n}{n} \]

样本标准差 s(贝塞尔校正,分母为 n−1):

\[ s = \sqrt{\frac{\sum_{i=1}^{n}(x_i - \bar{x})^2}{n-1}} = \sqrt{\frac{(x_1-\bar{x})^2 + \cdots + (x_n-\bar{x})^2}{n-1}} \]

其中 n 为样本量,xi 为第 i 个观测值。本页交互计算中的「标准差 s」即按上述公式计算。

贝塞尔校正(Bessel's correction)说明:

  • 分母为何用 n−1 而非 n? 若用 n 作分母,即 \( s_0 = \sqrt{\sum_{i=1}^{n}(x_i - \bar{x})^2 / n} \),则样本方差 \( s_0^2 \) 在统计上会系统性地偏小(低估总体方差 \( \sigma^2 \))。原因是 \( \bar{x} \) 是用同一组数据算出的,各观测值相对 \( \bar{x} \) 的离差平方和,比相对总体均值 \( \mu \) 的离差平方和要小。
  • 无偏估计:用 n−1 作分母后,样本方差 \( s^2 = \sum_{i=1}^{n}(x_i - \bar{x})^2 / (n-1) \) 的期望值等于总体方差 \( \sigma^2 \),即 \( E(s^2) = \sigma^2 \),称为总体方差的无偏估计。相应地,\( s \) 是总体标准差 \( \sigma \) 的估计(开根号后 \( s \) 本身略偏小,但在实际中常用 \( s \) 作为 \( \sigma \) 的估计)。
  • 自由度:\( n-1 \) 可理解为「自由度」—— \( n \) 个数据在已知 \( \bar{x} \) 后,只有 \( n-1 \) 个离差 \( (x_i - \bar{x}) \) 可自由变动(因为 \( \sum_{i=1}^{n}(x_i - \bar{x}) = 0 \) 构成一个约束)。

1. 拉依达准则(3σ 准则)

判据:若某数据与平均值 之差的绝对值 > 3ss 为样本标准差),则考虑舍弃该数据。

\[ |x - \bar{x}| > 3s \quad \Rightarrow \quad \text{可考虑舍弃 } x \]

特点:计算简单,无需查表;但要求样本量 n 较大(一般 n > 10 以上),否则 3s 的界限过宽,难以剔除异常值。不依赖显著性水平 α。

2. 格鲁布斯检验(Grubbs)

判据:对可疑值(通常为最大或最小)计算统计量 G = |可疑值 − x̄| / s,与给定显著性水平 α(如 0.05、0.01)下、样本量为 n 的临界值 Gα,n 比较;若 G ≥ Gα,n,则判为异常值。

\[ G = \frac{|x_{\text{可疑}} - \bar{x}|}{s}, \qquad G \geq G_{\alpha,n}\ \text{(查表)}\ \Rightarrow\ \text{判为异常值} \]

特点:适用于小样本,有严格的临界值表(与 n、α 有关)。一次只检验一个可疑值(最大或最小),若舍弃则用剩余数据重新算 x̄、s 再考虑是否继续检验。

临界值 G0.05,n 示例:

n3456789101520
G0.051.151.461.671.821.942.032.112.182.412.56

3. 狄克逊 Q 检验

判据:极差与「可疑值与其邻值之差」的比作为统计量 Q。例如检验最大值 xn 时:Q = (xn − xn−1) / (xn − x1);检验最小值 x1 时:Q = (x2 − x1) / (xn − x1)。数据需先从小到大排序。将 Q 与给定 α、n 的Q 临界值比较,若 Q ≥ Qα,n 则判为异常值。

\[ Q = \frac{\text{可疑值到邻值的差}}{\text{极差}}, \qquad Q \geq Q_{\alpha,n}\ \text{(查表)}\ \Rightarrow\ \text{判为异常值} \]

特点:只用到极差和邻值,计算简单;适合小样本(n 约 3~10)。同样一次只检验一个端点值。

Q0.05,n 临界值示例:

n345678910
Q0.050.970.830.710.620.570.520.490.47

交互示例与图示

三个检验随最后一个值变化的曲线

固定前 n−1 个数据,仅让最后一个值由滑动条变化。纵轴为各检验统计量与临界值之比(比值 > 1 表示舍弃)。拖动滑动条可观察当前最后一个值对应的三条曲线位置及舍弃/保留区域变化。

8
拉依达 3σ:|x−x̄|/(3s) 格鲁布斯:G/Gα,n 狄克逊 Q:Q/Qα,n y=1(临界线,上方为舍弃区)

为什么拉依达 3σ 曲线看上去无论最后一个值多大都不舍弃?

从上面的曲线图可以看到,拉依达 3σ 的曲线(蓝线)在「最后一个值」很大时也不会超过 y=1,即不会判为舍弃。下面用数学推导说明原因。

设定:前 n−1 个数据 \( x_1,\ldots,x_{n-1} \) 固定,最后一个值 \( x_n \) 可变。记 \( S = x_1+\cdots+x_{n-1} \),则 \( \bar{x} = (S + x_n)/n \),\( x_n - \bar{x} = x_n - (S+x_n)/n = (n-1)(x_n - S/(n-1))/n \)。当 \( x_n \to +\infty \) 时,\( \bar{x} \sim x_n/n \),故 \( x_n - \bar{x} \sim x_n(n-1)/n \)。

标准差 s 的量级:样本方差 \( s^2 = \frac{1}{n-1}\sum_{i=1}^{n}(x_i - \bar{x})^2 \)。当 \( x_n \to +\infty \) 时,\( \bar{x} \sim x_n/n \),前 n−1 项每项 \( (x_i - \bar{x})^2 \sim (x_n/n)^2 \),共 \( (n-1)(x_n/n)^2 \);第 n 项 \( (x_n - \bar{x})^2 \sim x_n^2(n-1)^2/n^2 \)。故 \( \sum_i (x_i-\bar{x})^2 \sim x_n^2(n-1)/n \),\( s^2 \sim x_n^2/n \),\( s \sim x_n/\sqrt{n} \)。

比值极限:拉依达判据为 \( |x_n - \bar{x}| > 3s \) 时舍弃,即比值 \( R = |x_n - \bar{x}|/(3s) > 1 \) 时舍弃。当 \( x_n \to +\infty \) 时, \[ R \sim \frac{x_n(n-1)/n}{3\cdot x_n/\sqrt{n}} = \frac{n-1}{3\sqrt{n}}. \] 因此 \( R \) 的上限为 \( \frac{n-1}{3\sqrt{n}} \)。要使该上限 \( \geq 1 \) 才可能舍弃,需 \( n-1 \geq 3\sqrt{n} \),解得 \( n \geq \frac{3\sqrt{13}+11}{2} \approx 10.9 \),即至少 n ≥ 11。对于 n=6(固定 5 个+1 个可变),\( \frac{n-1}{3\sqrt{n}} = \frac{5}{3\sqrt{6}} \approx 0.68 < 1 \),所以无论最后一个值多大,拉依达的比值都超不过约 0.68,永远不会判舍弃

结论:拉依达 3σ 在小样本(如 n≤10)下,当只有一个极端大(或极端小)的观测时,\( s \) 会随该观测一起变大,导致 \( |x_n-\bar{x}|/(3s) \) 存在严格小于 1 的上限,因而无法剔除该异常值。这也说明「拉依达适用于 n 较大」:n 大时 \( (n-1)/(3\sqrt{n}) \) 才可能 ≥1,极端值才有机会被 3σ 判为舍弃。

验证学习效果的习题

习题 1

数据:3.2, 3.4, 3.3, 3.5, 3.1, 3.6, 10.0(n=7)。若用格鲁布斯检验(α=0.05)检验最大值 10.0,已知 G0.05,7≈1.94,则统计量 G 与 1.94 的关系是?

习题 2

对 n=5 的小样本,要判断一个端点值是否为异常值,更适合用哪种方法?

习题 3

数据已排序:2.0, 2.2, 2.1, 2.3, 2.4, 5.0(n=6)。用狄克逊 Q 检验最大值 5.0 时,Q = (5.0−2.4)/(5.0−2.0) = 0.867。已知 Q0.05,6=0.62,则结论是?

历史由来、其他检验与选用建议

三种检验的历史由来

  • 拉依达准则(3σ 准则):源于正态分布下约 99.7% 数据落在 μ±3σ 内的经验。早期在误差分析、质量控制中用作“粗大误差”的简易判据,无明确文献归属,常与 Pafnuty Chebyshev 或俄国/苏联测量学传统相联系。因计算简单、不查表而流传甚广,但小样本下易失效。
  • 格鲁布斯检验(Grubbs' test):由 Frank E. Grubbs 于 1950 年在 Annals of Mathematical Statistics 中系统提出,基于正态总体下单点异常值的 Neyman-Pearson 最优检验思想,有严格的临界值表(与 n、α 有关),适用于小样本。
  • 狄克逊 Q 检验(Dixon's Q test):由 Wilfrid J. Dixon 于 1950 年代提出,用极差与“可疑值到邻值之差”的比作为统计量,只涉及排序与极差,无需计算均值和标准差,适合手工计算与小样本(n 约 3~10)。

还有哪些异常值检验?特点是什么?

  • Chauvenet 准则(Chauvenet's criterion):基于“若数据服从正态分布,某观测出现的概率若小于 1/(2n) 则舍弃”的准则,需查正态分位数表;与 3σ 类似,小样本时较保守。
  • Tietjen-Moore 检验:可同时检验多个异常值(k 个最大或最小),基于残差平方和;适用于事先不知道异常值个数的情形,计算较复杂。
  • 广义 ESD 检验(ESD = Extreme Studentized Deviate,广义 ESD 即 Generalized ESD):在假定异常值个数上界的前提下,迭代地检测多个异常值,适合高维或自动化流程。
  • 基于中位数绝对偏差(MAD)(MAD = Median Absolute Deviation):用中位数与 MAD 代替均值与标准差,对异常值不敏感(稳健),常用于稳健统计与离群点检测。
  • 箱线图(IQR)法则(IQR = Interquartile Range,四分位距):若观测值 < Q1−1.5×IQR 或 > Q3+1.5×IQR 则视为离群点;直观、易实现,不假定正态,但无固定显著性水平。

应该用哪个?

  • 小样本(n 约 3~10):优先用格鲁布斯狄克逊 Q,有临界值表、一次检验一个端点值;狄克逊计算更简单(无需 s)。
  • 大样本(n 较大,如 >20):可用拉依达 3σ 作快速筛查;若需严格推断,仍建议格鲁布斯或广义 ESD(Extreme Studentized Deviate)。
  • 可能多个异常值:考虑 Tietjen-Moore 或广义 ESD;或逐次用格鲁布斯/狄克逊,每次舍弃一个后重算再检验。
  • 分布不明或需稳健性:用 MAD(Median Absolute Deviation)或 IQR(Interquartile Range)法则;报告时注明方法。

拓展阅读链接

以下链接在部分地区可能无法访问,每项附简短说明供参考。