协方差计算公式_协方差的三个基本公式是什么
亲爱的读者们,让我们一同探索方差的魅力,了解它与其相关概念——协方差和协方差矩阵之间的联系。
在数学的浩瀚星空中,方差、协方差及协方差矩阵都是极其重要的概念。
在机器学习的领域里,这些概念如PCA主成分分析、LDA线性判别分析、多元高斯分布等,都离不开它们的支持。
方差,它描述了一组随机变量如何分散或离散。要计算方差,我们首先需要找到每个样本值与整体样本平均值的差的平方和,然后除以样本数量。这个计算过程可以用数学公式来描述:如果有m个样本,每个样本的特征值为x,m个样本的平均值为μ,那么x的方差即为各样本特征值与其均值的差平方的累加和再除以m。
让我们以数字1到5为例。我们先计算这组数字的平均值3,然后将每个数字与平均值的差的平方进行累加,再除以5,就能得到这组数字的方差为2。
有时,为了方便后续的计算过程,我们会采用去中心化的方法处理样本数据。通过将所有样本按照平均值进行平移,我们可以得到一个新的数据集,其方差与原数据集相同。例如,将1到5的每个数字都减去3(相当于移动负方向3个单位),得到的新的数据集(如-2、-1、0、1、2)其方差还是与原数据集一样。
接下来我们谈谈协方差。协方差描述了不同特征之间的关联性。通过计算协方差,我们可以判断一组数据中的不同特征之间是否存在某种关联关系。
假设我们有两个特征a和b,在训练集中有m个样本。a和b之间的协方差记作cov(a, b)。协方差的计算方式是:将每个样本的特征a减去其均值μa,再与特征b减去其均值μb相乘,将乘积累加后除以m-1。
让我们以一个简单的例子来说明。假设我们有5个样本点在平面上分布,每个点都有a和b两个特征值。如果当a的值大于其平均值时,b的值也大于其平均值;或者当a的值小于其平均值时,b的值也小于其平均值,那么计算出的a和b的协方差就是正的,说明a和b是正相关的。
反之亦然。如果当a的值小于其平均值时,b的值却大于其平均值;而当a的值大于其平均值时,b的值却小于其平均值,那么计算出的a和b的协方差就是负的,这说明a和b是负相关的。
如果协方差的计算结果接近于0,那么就意味着a和b这两个特征之间没有明显的关联关系。
最后我们来看协方差矩阵。协方差矩阵是描述多个随机变量之间关系的数学工具。它包含了各个随机变量的方差以及任意两个随机变量之间的协方差。
在协方差矩阵中,对角线上的元素代表的是各个随机变量的方差;而非对角线上的元素则是两两随机变量之间的协方差。
值得注意的是,协方差矩阵是一个对称矩阵。
以三个特征的协方差矩阵为例,我们可以有C1、C2和C3等不同类型的矩阵。在计算协方差矩阵时,我们需要将m个样本的特征按照列向量的方式保存到矩阵中,然后计算这个矩阵与其转置的乘积,最终得到的就是协方差矩阵。
总结以上所述,我们学习了方差的定义及计算方法、协方差的含义及计算方式以及协方差矩阵的概念和计算方式。这些知识在数学和机器学习领域都有着广泛的应用。希望读者们通过这篇文章能对这三个概念有更深入的理解。
那么到这里,关于方差、协方差和协方差矩阵的内容就讲解完毕了。感谢大家的聆听,我们下节课再会。