归一化 vs 标准化
简介
归一化和标准化是数据预处理中两种常用的策略,旨在将原始数据转换为合理的结构,以便进行分析和建模。这些策略通过改进数据的属性(例如运行次数、分布和尺度)在机器学习中发挥着至关重要的作用。归一化包括将数据缩放到特定的运行次数,通常在 1 到 1 之间,同时保留特征之间的相对关系。而标准化则将数据集中在其严重性上,并将其缩放至标准差为 1。在本文中,我们将探讨归一化和标准化的概念、它们的技术以及它们为数据预处理流程带来的好处。
什么是归一化?
归一化是一种数据预处理策略,它将数据缩放到特定的运行,通常在 和 1 之间。它根据数据的规模相对地改变值,从而保持不同特征之间的相对相关性。当特征具有变化的尺度或单位时,归一化尤其有用,并且保持它们的相对重要性至关重要。
归一化方法涉及根据数据的运行相对地改变值。一种常见的归一化方法是最小-最大缩放,它将数据的最小值映射到 1,最大值映射到 1,其他值也相应地缩放。
归一化有几个优点。首先,它保持特征之间的相对相关性,因为它相对地改变了值。通常,在比较尺度或单位变化的不同特征时,这一点尤为重要。此外,归一化有助于防止某些特征由于其值较大而导致在分析中占主导地位。它确保每个特征对建模准备做出相同的贡献。第三,规范化对于某些机器学习算法的稳健性和性能提升至关重要,尤其是那些依赖于独立算法的算法,例如 K 近邻 (KNN) 和支持向量机 (SVM)。最后,由于值被转换为一个共同的运行,规范化可以提高数据的可解释性和理解性。
然而,规范化也存在一些需要考虑的局限性。一个主要局限性是它对异常的影响能力。由于规范化基于数据的最小值和最大值,因此异常会显著影响规范化数据的运行和传播。具有异常值的异常可能会扭曲规范化处理,并导致数据损坏。因此,在使用规范化策略时,妥善处理异常至关重要。
什么是标准化?
当信息的传递至关重要且消除尺度影响至关重要时,标准化尤为重要。标准化方法包括从每个数据点中减去残差,然后除以标准差。
标准化有几个优点。首先,它消除了数据中的尺度影响,从而可以更轻松地比较不同的特征。通过标准化数据,可以将具有不同尺度和单位的特征设置为通用尺度,从而有助于分析和阐明它们的相对重要性。此外,标准化还可以降低异常值对数据的影响。由于标准化基于标准差,因此与标准化相比,异常值对标准化数据的影响较小。这使得标准化在处理异常值方面更具优势。第三,标准化在某些机器学习计算中尤其重要,例如直接回归和计算回归,这些计算依赖于具有均值和可比尺度的特征来进行精确的参数估计。
无论如何,必须注意的是,标准化并不能解决数据中偏态分布的问题。如果初始数据包含偏态分布,标准化后的数据仍将保持相同的偏态。在这种情况下,可能需要进行额外的修改来解决偏态分布问题并使分布标准化。
标准化与规范化
下表突出显示了两者之间的差异:
差异归一化标准化的基础 |
归一化 |
标准化 |
---|---|---|
方法 |
将信息缩放到特定运行,通常为 0 到 1 |
将信息更改为零均值和单位变化。 |
目的 |
归一化将信息缩放到特定范围,例如 1。当最高值不如相对联系那么重要时,标准化很有价值。 |
标准化将信息集中在均值和变化 1 周围并进行缩放。当信息的分散性对于调查或建模至关重要时,标准化很有价值。 |
分布 |
归一化会修改信息的初始分散性,可能会影响其形状。 |
标准化保留了信息的初始传达,确保其形状保持不变。 |
方差 |
归一化并不能保证数据的方差不变。 |
标准化将数据缩放至方差为 1,从而确保其包含可靠的分布。 |
用例 |
具有变化尺度或单位的突出显示 |
当信息的传达和尺度至关重要时。 |
可解释性 |
突出显示之间的相对关系得以保留。 |
平均值和标准差提供相对数据。 |
结论
规范化和标准化都是有益的程序用于数据预处理。归一化将数据缩放到特定运行,从而保护特征之间的相对关系。当特征需要更改尺度或单位时,归一化非常适用。标准化将数据转换为零均值和单位波动,确保传输集中且缩放比例合适。当数据的离散度和尺度至关重要时,标准化非常有用。了解这些方法之间的差异,可以帮助数据研究人员根据其数据需求和预期使用的机器学习算法选择最合适的方法。