fdr统计学(fdr统计学意义)
## FDR 统计学:控制错误发现率### 简介在进行多重假设检验时,我们经常需要同时检验多个假设。例如,在基因表达分析中,我们可能需要同时检验数千个基因的表达水平是否在两组样本之间存在差异。如果我们使用传统的 Bonferroni 校正等方法来控制总体错误率(FWER),则可能会导致过低的统计功效,即拒绝了许多实际上为真的假设。为了解决这个问题, Benjamini 和 Hochberg 在 1995 年提出了错误发现率(FDR)的概念,并提出了一种控制 FDR 的方法,称为 BH 校正。### FDR 的定义错误发现率(False Discovery Rate, FDR)是拒绝假设中错误拒绝的比例的期望值。更具体地说,如果我们进行 m 次假设检验,其中 R 个假设被拒绝,而其中 V 个是被错误地拒绝的(即假阳性),则 FDR 定义为:$$ FDR = E\left[\frac{V}{R} | R > 0\right] \cdot P(R > 0) $$其中:
$E[\cdot]$ 表示期望值
$V$ 是假阳性数目
$R$ 是被拒绝假设的总数
$P(R > 0)$ 表示至少有一个假设被拒绝的概率当没有假设被拒绝时 ($R = 0$),FDR 定义为 0。### 控制 FDR 的方法:BH 校正Benjamini-Hochberg (BH) 校正是最常用的控制 FDR 的方法之一。该方法的步骤如下:1.
对所有 p 值进行排序
: 将 m 个假设检验得到的 p 值按从小到大排序,记为 $p_{(1)}, p_{(2)}, ..., p_{(m)}$。 2.
找到最大的 k
: 找到最大的 k,满足 $p_{(k)} \le \frac{k}{m} \alpha$,其中 α 是预先设定的 FDR 控制水平(通常为 0.05)。 3.
拒绝原假设
: 拒绝所有 p 值小于等于 $p_{(k)}$ 的原假设。### FDR 与 FWER 的比较
FWER
: 控制的是所有拒绝的假设中出现至少一个假阳性的概率。
FDR
: 控制的是所有拒绝的假设中假阳性的比例的期望值。相比于 FWER,FDR 允许一定程度的假阳性,从而提高了统计功效,更适合于需要进行多重比较的分析,例如基因组学和蛋白质组学研究。### FDR 的应用FDR 控制在各种需要进行多重比较的领域中都有广泛的应用,包括:
基因组学
: 识别差异表达基因、基因集合富集分析
蛋白质组学
: 鉴定差异表达蛋白、蛋白质相互作用网络分析
神经影像学
: 寻找与特定认知功能相关的脑区
临床试验
: 同时比较多种治疗方法的有效性### 总结FDR 是一种在多重假设检验中控制错误发现率的有效方法。与传统的 FWER 控制方法相比,FDR 控制可以提高统计功效,并在各种研究领域中得到广泛应用。
FDR 统计学:控制错误发现率
简介在进行多重假设检验时,我们经常需要同时检验多个假设。例如,在基因表达分析中,我们可能需要同时检验数千个基因的表达水平是否在两组样本之间存在差异。如果我们使用传统的 Bonferroni 校正等方法来控制总体错误率(FWER),则可能会导致过低的统计功效,即拒绝了许多实际上为真的假设。为了解决这个问题, Benjamini 和 Hochberg 在 1995 年提出了错误发现率(FDR)的概念,并提出了一种控制 FDR 的方法,称为 BH 校正。
FDR 的定义错误发现率(False Discovery Rate, FDR)是拒绝假设中错误拒绝的比例的期望值。更具体地说,如果我们进行 m 次假设检验,其中 R 个假设被拒绝,而其中 V 个是被错误地拒绝的(即假阳性),则 FDR 定义为:$$ FDR = E\left[\frac{V}{R} | R > 0\right] \cdot P(R > 0) $$其中: * $E[\cdot]$ 表示期望值 * $V$ 是假阳性数目 * $R$ 是被拒绝假设的总数 * $P(R > 0)$ 表示至少有一个假设被拒绝的概率当没有假设被拒绝时 ($R = 0$),FDR 定义为 0。
控制 FDR 的方法:BH 校正Benjamini-Hochberg (BH) 校正是最常用的控制 FDR 的方法之一。该方法的步骤如下:1. **对所有 p 值进行排序**: 将 m 个假设检验得到的 p 值按从小到大排序,记为 $p_{(1)}, p_{(2)}, ..., p_{(m)}$。 2. **找到最大的 k**: 找到最大的 k,满足 $p_{(k)} \le \frac{k}{m} \alpha$,其中 α 是预先设定的 FDR 控制水平(通常为 0.05)。 3. **拒绝原假设**: 拒绝所有 p 值小于等于 $p_{(k)}$ 的原假设。
FDR 与 FWER 的比较* **FWER**: 控制的是所有拒绝的假设中出现至少一个假阳性的概率。 * **FDR**: 控制的是所有拒绝的假设中假阳性的比例的期望值。相比于 FWER,FDR 允许一定程度的假阳性,从而提高了统计功效,更适合于需要进行多重比较的分析,例如基因组学和蛋白质组学研究。
FDR 的应用FDR 控制在各种需要进行多重比较的领域中都有广泛的应用,包括:* **基因组学**: 识别差异表达基因、基因集合富集分析 * **蛋白质组学**: 鉴定差异表达蛋白、蛋白质相互作用网络分析 * **神经影像学**: 寻找与特定认知功能相关的脑区 * **临床试验**: 同时比较多种治疗方法的有效性
总结FDR 是一种在多重假设检验中控制错误发现率的有效方法。与传统的 FWER 控制方法相比,FDR 控制可以提高统计功效,并在各种研究领域中得到广泛应用。