使用 Python 检测和处理回归中的多重共线性

pythonserver side programmingprogramming更新于 2024/1/16 8:08:00

当回归模型中的独立变量表现出高度的相互依赖性时,就会出现多重共线性。这可能会导致模型的系数不准确,从而难以判断不同的独立变量将如何影响因变量。在这种情况下,有必要识别和处理回归模型的多重共线性,以及不同的程序及其输出,我们还将逐步解释。

方法

  • 检测多重共线性

  • 处理多重共线性

算法

步骤 1 - 导入必要的库

步骤 2 - 将数据加载到 pandas Dataframes 中

步骤 3 - 使用预测变量创建相关矩阵

步骤 4 - 创建相关矩阵的热图以可视化相关性

步骤 5 - 计算每个预测变量的方差膨胀因子输出

步骤 6 - 确定预测变量

步骤 7 - 应删除预测变量

步骤 8 - 重新运行回归模型

步骤 9 - 再次检查。

方法 I:检测多重共线性

利用 pandas 包的 corr() 函数确定独立变量的相关矩阵。使用 seaborn 库生成热图以显示相关矩阵。利用 statsmodels 包中的 variance_inflation_factor() 函数确定每个独立变量的方差膨胀因子 (VIF)。高多重共线性由大于 5 或​​ 10 的 VIF 表示。

示例 1

在此代码中,将数据加载到 Pandas DataFrame 中后,预测变量 X 和因变量 y 就会分离。要计算每个预测变量的 VIF,我们使用 statsmodels 包中的 variance_inflation_factor() 函数。该过程的最后一步是在将 VIF 值以及预测变量的名称存储在新的 Pandas DataFrame 中后显示结果。使用此代码,将生成一个包含每个预测变量的变量名称和 VIF 值的表。当变量的 VIF 值较高(视情况而定,高于 5 或​​ 10)时,进一步分析该变量很重要。

import pandas as pd
from statsmodels.stats.outliers_influence import variance_inflation_factor

# 将数据加载到 pandas DataFrame 中
data = pd.read_csv("mydata.csv")

# 选择独立变量
X = data[['independent_var1', 'independent_var2', 'independent_var3']]

# 计算每个独立变量的 VIF
vif = pd.DataFrame()
vif["VIF Factor"] = [variance_inflation_factor(X.values, i) for i in range(X.shape[1])]
vif["features"] = X.columns

# 打印VIF 结果
print(vif)

输出

VIF  Factor      Features 
0    3.068988    Independent_var1
1    3.870567    Independent_var2
2    3.843753    Independent_var3

方法 II:处理多重共线性

取出模型中一个或多个强相关独立变量。主成分分析 (PCA) 可用于将高度相关的独立变量组合成单个变量。可以使用正则化方法(如 Ridge 或 Lasso 回归)来减少强相关独立变量对模型系数的影响。使用上述方法,以下示例代码可用于识别和解决多重共线性 −

import pandas as pd
import seaborn as sns
from statsmodels.stats.outliers_influence import variance_inflation_factor
from sklearn.decomposition import PCA
from sklearn.linear_model import Ridge

# 将数据加载到 pandas DataFrame
data = pd.read_csv('data.csv')

# 计算相关矩阵
corr_matrix = data.corr()

# 创建热图以可视化相关矩阵
sns.heatmap(corr_matrix, annot=True, cmap='coolwarm')

# 检查每个独立变量的 VIF
for i in range(data.shape[1]-1):
vif = variance_inflation_factor(data.values, i)
print('VIF for variable {}: {:.2f}'.format(i, vif))

# 删除高度相关的独立变量
data = data.drop(['var1', 'var2'], axis=1)

# 使用 PCA 组合高度相关的独立变量
pca = PCA(n_components=1)
data['pca'] = pca.fit_transform(data[['var1', 'var2']])

# 使用 Ridge 回归减少高度相关的独立变量的影响
X = data.drop('dependent_var', axis=1)
y = data['dependent_var']
ridge = Ridge(alpha=0.1)
ridge.fit(X, y)

除了输出每个独立变量的 VIF 值外,该函数不会生成任何其他输出。运行此代码只会输出每个独立变量的 VIF 值;不会打印任何图表或模型性能。

在此示例中,首先将数据加载到 pandas DataFrame 中,然后计算相关矩阵,最后创建热图以显示相关矩阵。然后,我们在测试每个独立变量的 VIF 后消除具有高相关性的独立因素。我们使用 Ridge 回归来减少高度相关的独立变量对模型系数的影响,并使用 PCA 将高度相关的独立变量合并为单个变量。

import pandas as pd

#创建数据框
df = pd.DataFrame({'rating': [90, 85, 82, 18, 14, 90, 16, 75, 87, 86],
         'points': [22, 10, 34, 46, 27, 20, 12, 15, 14, 19],
         'assists': [1, 3, 5, 6, 5, 7, 6, 9, 9, 5],
         'rebounds': [11, 8, 10, 6, 3, 4, 4, 10, 10, 7]})

#查看数据框
print(df)

输出

   rating  points  assists  rebounds
0      90      22        1        11
1      85      10        3         8
2      82      34        5        10
3      18      46        6         6
4      14      27        5         3
5      90      20        7         4
6      16      12        6         4
7      75      15        9        10
8      87      14        9        10
9      86      19        5         7

使用 Pandas 包,可以通过此 Python 程序生成称为 DataFrame 的数组数据结构。具体维度由四个不同的列组成:助攻、篮板、得分和评分。库本身在代码的开头行导入,此后称为"pd"以降低复杂性。最终通过在第二行代码中执行的 pd.DataFrame() 方法构建 DataFrame。

使用第三行代码中的 print() 方法将 DataFrame 打印到控制台。每列的值构成列表的定义,充当函数字典输入的键和值。每个球员的信息以表格形式显示,得分、得分、助攻和篮板的统计数据按列排列,每行代表一名球员。

结论

总之,当模型中的两个或多个预测变量彼​​此具有很强的相关性时,这被称为多重共线性。这种情况会使模型结果的解释变得困难。在这种情况下,确定每个唯一预测因子​​如何影响结果变量变得具有挑战性。


相关文章