如何进行配对样本 T 检验

machine learningnumpyprogramming更新于 2025/5/6 3:07:17

简介

在机器学习和数据科学中,许多统计检验用于比较和发现变量或数据特征之间的差异。这些检验主要是假设检验,其中定义了条件,并根据进行的不同检验假设变量之间的关系。t 检验也是一种统计检验,用于比较不同类别变量的平均值。

在本文中,我们将讨论配对 t 检验,它是统计学中使用的 t 检验的扩展或类型,我们将讨论进行配对 t 检验的过程。本文将帮助您理解配对 t 检验背后的直觉,并能够在必要时进行配对 t 检验。

那么让我们从最基本的 t 检验开始。

什么是 T 检验?

t 检验是一种统计检验,用于比较不同类别变量组的平均值。它用于检查各组之间是否存在差异。有时它也用于特征选择,即定义假设,并根据基于 p 和 t 值的假设的接受和拒绝,选择和拒绝特征进行模型训练。

在 t 检验中,我们基本上取不同组或类别的分类变量的平均值,然后进行比较以检查差异。

这里还计算了 t 谷,然后将其与临界 t 值进行比较,如果计算出的 t 值大于临界 t 值,则拒绝零假设,并假设被比较的不同组的平均值之间存在差异。

现在,在正常 t 检验的情况下,计算不同组的个体均值,然后将其用于计算检验的 t 值,这有助于进行假设检验,并在此基础上拒绝和接受零假设和备择假设。

但在某些情况下,我们需要检查变量的变化率,或者我们有配对观察,其中数据是从同一类别收集的;在这种情况下,使用配对样本 t 检验。

让我们在下一节详细讨论这些内容。

什么是配对样本 T 检验?

配对样本 t 检验也是一种 t 检验,用于比较不同组的平均值,但这里计算的是平均值的差异,而不是计算组的单个平均值。

简而言之,它是在配对样本的情况下使用的检验,如果我们想研究来自同一变量的两个组之间的平均值变化率。它计算各组均值之间的差异,然后计算 t 值。

简而言之,当我们有成对或相关的分类变量组时,使用配对 t 检验,这些变量是某些动作、事件或数据干预的结果,并且通过某种方式相关。

而当我们有两个独立的分类变量组且彼此之间没有任何关联时,则使用正常 t 检验。

现在让我们讨论进行配对 t 检验的工作流程。

进行配对 t 检验的工作流程

让我们逐步讨论进行配对 t 检验所涉及的各个步骤。

定义假设

进行任何假设检验的第一步都是先定义假设。这里定义了零假设和备选假设,并根据我们在测试结束时获得的 t 值接受和拒绝它们。

收集配对数据

由于我们在本例中进行的是配对 t 检验,因此这里的数据将是配对数据,或者数据样本将配对并从同一事件类别中收集。数据可以从同一对象或同一主题在不同的时间间隔内收集。

计算差异

现在,对于每对观察值,我们将计算不同组值的差异。因此,在这里,对于两个组,我们将为观察值的某个指标获得某个值;这些值之间的差异是针对所有观察值计算的。

找到差异的平均值

现在,由于我们有了各组观察值之间的差异,我们将取这些差异的平均值。此外,标准差也将在此步骤中计算。

找到 T 值

在此步骤中,使用以下公式找到 t 值:

T - 平均差异 - 假设差异/平方根 (S^2/n)

找到临界 T 值

下一步是找到 t 的临界值。这里使用自由度和显著性水平来获得样本的临界 t 值。

解释结果

现在比较测试结果;这里计算正常计算 t 值和临界 t 值,如果计算 t 值大于临界 t 值,则拒绝零假设。

进行配对 t 检验的示例

现在让我们通过一个代码示例来更清楚地理解配对 t 检验。这里我们将使用一个包含 500 个观测值的虚拟数据集,并对该数据集进行正态和配对 t 检验。

import numpy as np
from scipy import stats
np.random.seed(42)

group_a = np.random.normal(loc=10, scale=2, size=500)
group_b = np.random.normal(loc=12, scale=2, size=500)

# 正态 t 检验
t_stat, p_value = stats.ttest_ind(group_a, group_b)

# 配对 t 检验
paired_diff = group_b - group_a
t_stat_paired, p_value_paired = stats.ttest_rel(group_b, group_a)

# 结果
print("Normal t-test:")
print("t-statistic:", t_stat)
print("p-value:", p_value)

print("
Paired t-test:") print("t-statistic:", t_stat_paired) print("p-value:", p_value_paired)

输出

Normal t-test:
t-statistic: -16.54353366592559
p-value: 1.638349016942478e-54

Paired t-test:
t-statistic: 15.951028260754956
p-value: 1.3798771823104818e-46

上述代码对样本数据进行配对和正态 t 检验,并打印结果,包括 t 值和 p 值。然后可以使用这些值进行假设检验。

结论

在本文中,我们讨论了 t 检验和配对 t 检验、do 检验的含义、使用情况以及主要应用,并讨论了其工作流程和代码示例。本文将帮助人们更清楚地理解配对 t 检验,并帮助人们进行配对 t 检验以比较变量的不同组。


相关文章