数据科学中的 Pairplot 是什么?
数据的视觉呈现称为数据可视化。由于 Python 软件包生态系统专注于数据,因此它对于数据分析至关重要。以简单易懂的方式总结和呈现大量数据也有助于掌握数据(无论数据多么复杂)以及数据的价值。它还有助于有效和清晰地传递信息。
我们可以使用 Seaborn Pairplot 可视化数据集中变量之间的成对连接。将大量数据压缩为单个图形可以为数据提供令人愉悦的视觉表示,并有助于我们理解数据。这对于我们探索和熟悉数据集至关重要。
在执行探索性数据分析 (EDA) 时,pairplot 可视化非常有用。使用成对图显示提供的数据之间的联系,其中变量可能是连续的或分类的。
绘制数据集中的成对关系。
seaborn 库的 Pairplot 模块提供了一个高级界面,用于创建具有视觉吸引力和教育意义的统计视觉效果。
导入库和数据
导入我们将要使用的库是第一步。在本例中,我们的数据可视化框架将是 Seaborn,我们将使用 pandas 编程语言导入和保存数据。
import seaborn as sns import pandas as pd
Seaborn Pairplot 函数的语法
seaborn.pairplot( data, hue = None, hue_order = None, palette = None, vars = None, x_vars = None, y_vars = None, kind = 'scatter', diag_kind = 'auto', markers = None, height = 2.5, aspect = 1, corner = False, dropna = False, plot_kws = None, diag_kws = None, grid_kws = None, size = None )
Pairplot 函数的参数
data − 根据要显示的可视化效果,data 参数接受数据。DataFrame、数组或数组列表可以表示值。
hue_order, order − 绘图中使用的分类变量的顺序由色调顺序或顺序参数决定。字符串列表可用作此参数的值。
scale − 使用 scale 选项缩放绘图。此属性的有用值包括面积、数量和宽度。
scale_hue − 比例色调选项接受布尔值,以指定比例是否近似于图上的所有小提琴(FALSE)或主要分组变量的每个级别(TRUE)。
gridsize − gridsize 参数使用整数计算图的核密度。
inner − inner 选项允许用户指定小提琴图的内部点。此参数的选项包括框、点、四分位数、棒或无。
orient − 用户可以使用 orient 选项选择图的方向。垂直或水平方向分别用字母"v"和"h"表示。
linewidth − linewidth 参数通过取浮点整数作为其值来确定绘图中使用的灰线的宽度。
color − 用户可以使用 color 参数设置每个绘图数据项的颜色范围。此参数的值可以是 matplotlib color。
palette − palette 参数用于指定绘图每个级别要使用的各种颜色色调。
axe − axe 选项指定将在其上构建绘图的轴。此参数的值可能是 matplotlib Axes。
示例 1
# 导入所需的库 import seaborn as sbn import matplotlib.pyplot as plt # 使用 seaborn 库加载数据集 mydata = sbn.load_dataset('penguins') # 使用 hue = gender 参数进行 pairplot sbn.pairplot(mydata, hue = 'gender') # 显示图表 plt.show()
输出

代码说明
在上面的示例中,我们导入了必要的库并使用 Seaborn load dataset() 方法加载要使用的企鹅数据集。然后使用 pairplot() 方法显示绘图,并将 hue 参数设置为值"性别"。最后,我们使用 Matplotlib show() 方法向查看者展示了绘图。结果成功创建了配对图。
示例 2
# 导入所需的库 import seaborn as sbn import matplotlib.pyplot as plt # 使用 seaborn 库加载数据集 mydata = sbn.load_dataset('tips') # 带有 kind = kde 参数的配对图 sbn.pairplot(mydata, kind = 'kde') # 显示图 plt.show()
输出

代码说明
在上面的例子中,我们导入了必要的库并使用了Seaborn load dataset() 方法加载要使用的企鹅数据集。然后使用 pairplot() 方法显示该图,并将 hue 参数设置为值"性别"。最后,我们使用 Matplotlib show() 方法向查看者展示了该图。结果成功创建了配对图。
结论
Seaborn Pairplot 是一种出色的数据可视化工具,有助于我们熟悉数据。在一张图上,我们可以绘制大量数据,以便我们掌握它并获得新的想法。您的数据科学工具包中肯定有一张图。配对图是一种用于快速检查数据集中的分布和关系的强大工具。通过 Pair Grid 类,Seaborn 提供了一种简单的默认方法来创建可以修改和扩展的配对图。数据分析项目中的大量价值通常来自数据的简单显示,而不是华而不实的机器学习。配对图是进行数据分析时的绝佳起点,因为它可以让我们对数据有一个全面的初步了解。