数据科学中的 Pairplot 是什么?

pythonserver side programmingprogramming更新于 2024/2/24 8:07:00

数据的视觉呈现称为数据可视化。由于 Python 软件包生态系统专注于数据,因此它对于数据分析至关重要。以简单易懂的方式总结和呈现大量数据也有助于掌握数据(无论数据多么复杂)以及数据的价值。它还有助于有效和清晰地传递信息。

我们可以使用 Seaborn Pairplot 可视化数据集中变量之间的成对连接。将大量数据压缩为单个图形可以为数据提供令人愉悦的视觉表示,并有助于我们理解数据。这对于我们探索和熟悉数据集至关重要。

在执行探索性数据分析 (EDA) 时,pairplot 可视化非常有用。使用成对图显示提供的数据之间的联系,其中变量可能是连续的或分类的。

绘制数据集中的成对关系。

seaborn 库的 Pairplot 模块提供了一个高级界面,用于创建具有视觉吸引力和教育意义的统计视觉效果。

导入库和数据

导入我们将要使用的库是第一步。在本例中,我们的数据可视化框架将是 Seaborn,我们将使用 pandas 编程语言导入和保存数据。

import seaborn as sns
import pandas as pd

Seaborn Pairplot 函数的语法

seaborn.pairplot(
   data,
   hue = None,
   hue_order = None,
   palette = None,
   vars = None,
   x_vars = None,
   y_vars = None,
   kind = 'scatter',
   diag_kind = 'auto',
   markers = None,
   height = 2.5,
   aspect = 1,
   corner = False,
   dropna = False,
   plot_kws = None,
   diag_kws = None,
   grid_kws = None,
   size = None
)

Pairplot 函数的参数

  • data − 根据要显示的可视化效果,data 参数接受数据。DataFrame、数组或数组列表可以表示值。

  • hue_order, order − 绘图中使用的分类变量的顺序由色调顺序或顺序参数决定。字符串列表可用作此参数的值。

  • scale − 使用 scale 选项缩放绘图。此属性的有用值包括面积、数量和宽度。

  • scale_hue − 比例色调选项接受布尔值,以指定比例是否近似于图上的所有小提琴(FALSE)或主要分组变量的每个级别(TRUE)。

  • gridsize − gridsize 参数使用整数计算图的核密度。

  • inner − inner 选项允许用户指定小提琴图的内部点。此参数的选项包括框、点、四分位数、棒或无。

  • orient − 用户可以使用 orient 选项选择图的方向。垂直或水平方向分别用字母"v"和"h"表示。

  • linewidth − linewidth 参数通过取浮点整数作为其值来确定绘图中使用的灰线的宽度。

  • color − 用户可以使用 color 参数设置每个绘图数据项的颜色范围。此参数的值可以是 matplotlib color。

  • palette − palette 参数用于指定绘图每个级别要使用的各种颜色色调。

  • axe − axe 选项指定将在其上构建绘图的轴。此参数的值可能是 matplotlib Axes。

示例 1

# 导入所需的库
import seaborn as sbn
import matplotlib.pyplot as plt
# 使用 seaborn 库加载数据集
mydata = sbn.load_dataset('penguins')
# 使用 hue = gender 参数进行 pairplot
sbn.pairplot(mydata, hue = 'gender')
# 显示图表
plt.show()  

输出

代码说明

在上面的示例中,我们导入了必要的库并使用 Seaborn load dataset() 方法加载要使用的企鹅数据集。然后使用 pairplot() 方法显示绘图,并将 hue 参数设置为值"性别"。最后,我们使用 Matplotlib show() 方法向查看者展示了绘图。结果成功创建了配对图。

示例 2

# 导入所需的库
import seaborn as sbn
import matplotlib.pyplot as plt
# 使用 seaborn 库加载数据集
mydata = sbn.load_dataset('tips')
# 带有 kind = kde 参数的配对图
sbn.pairplot(mydata, kind = 'kde')
# 显示图
plt.show()

输出

代码说明

在上面的例子中,我们导入了必要的库并使用了Seaborn load dataset() 方法加载要使用的企鹅数据集。然后使用 pairplot() 方法显示该图,并将 hue 参数设置为值"性别"。最后,我们使用 Matplotlib show() 方法向查看者展示了该图。结果成功创建了配对图。

结论

Seaborn Pairplot 是一种出色的数据可视化工具,有助于我们熟悉数据。在一张图上,我们可以绘制大量数据,以便我们掌握它并获得新的想法。您的数据科学工具包中肯定有一张图。配对图是一种用于快速检查数据集中的分布和关系的强大工具。通过 Pair Grid 类,Seaborn 提供了一种简单的默认方法来创建可以修改和扩展的配对图。数据分析项目中的大量价值通常来自数据的简单显示,而不是华而不实的机器学习。配对图是进行数据分析时的绝佳起点,因为它可以让我们对数据有一个全面的初步了解。


相关文章