密度图或 KDE 图的用途是什么?

pythonserver side programmingprogramming更新于 2024/2/24 8:49:00

密度图

密度图,也称为核密度估计 (KDE) 图,是一种图形化的数据显示,显示数据的概率密度函数 (PDF)。它用于可视化数据的分布并识别数据中的模式和趋势。

密度图的目的是为您提供数据底层分布的视觉表示。它可以帮助您了解数据的形状和分布,并识别任何异常值或异常值。它还可用于比较多个变量或组的分布。

由于密度图不受箱数的影响,因此与直方图相比,密度图的优势在于它们更善于识别分布的形状。密度图包括正态分布曲线等。

应用与解释

应用与解释:假设我们有一个包含 1000 名信用卡用户年龄的数据集。我们感兴趣的是年龄分布情况。

我们可以看到下图中的峰值略高于 45。我们会在直方图中发现值的集中度在 45-50 范围内(如果桶宽为五年)。但是,此密度图为我们提供了更精确的位置。还提供了连续分布视图。

如何解释密度曲线

借助各种大小和形式的密度曲线,可以快速直观地了解特定数据集中值的分布。它们对于帮助我们进行可视化特别有用 -

峰值数量

我们可以使用密度曲线快速确定特定分布中的"峰值"数量。由于上述每个分布中只有一个峰值,因此我们将这些分布归类为单峰分布。

但是,某些分布(称为双峰分布)可能有两个峰值。此外,有时可能存在具有两个或更多峰值的多峰分布。我们可以通过为数据集绘制密度曲线来快速确定分布中的峰值数量。

偏度

偏度是用于定义分布对称性的术语。我们可以从密度曲线立即判断图形是左偏、右偏还是无偏。

均值和中位数的位置

我们可以根据密度曲线的偏度快速确定特定分布中均值或中位数是否更大。更具体地说

  • 当密度曲线左偏时,均值小于中位数。

  • 当密度曲线右偏时,均值大于中位数。

  • 当密度曲线无偏时,均值和中位数相同。

密度曲线的性质

密度曲线的性质如下 −

  • 每次,曲线下的面积加起来都是 100%。

  • 曲线永远不会偏离 x 轴。

  • 当您生成或评估各种分布的密度曲线时,请牢记这两个事实。

KDE 图

密度图,也称为核密度估计 (KDE) 图,是数据的图形显示,显示数据的概率密度函数 (PDF)。它用于可视化数据的分布并识别数据中的模式和趋势。

密度图的目的是为您提供数据底层分布的视觉表示。它可以帮助您了解数据的形状和分布,并识别任何异常值或异常值。它还可用于比较多个变量或组的分布。

无论选择的间隔长度如何,直方图(一堆矩形)总是看起来是波浪形的(再次想想砖块)。我们偶尔想计算更平滑的估计值,因为它可能更准确。我们可以稍微改变我们的策略来解决这个问题。

直方图技术将每个数据点转换为具有定义区域的矩形,然后将其放置在相应数据点的"附近"。如果我们可以在每个数据点上倒一堆"沙子",看看沙子是如何堆积的,而不是使用矩形,会怎么样?

结论

总之,密度图或 KDE 图是数据的图形显示,显示数据的概率密度函数。它用于可视化数据的分布并识别数据中的模式和趋势。密度图的目的是向您直观地展示数据的底层分布,并帮助您了解数据的形状和分布。它可用于比较多个变量或组的分布,并识别数据中的任何异常值或异常值。


相关文章