关联分析的四种类型及特点分析
质量行业同仁在进行数据分析时,时常需要对各项指标进行深度探究。你知道几种用于解析数据间关联性的方法吗?
在数据分析过程中,理解并提炼观点至关重要,而相关性分析则是不可或缺的一环。不同类型的数据,其相关性分析的方法也各具特色。本文将根据不同数据类型,对相关性分析方法进行系统梳理。
相关性分析,即是对两个或多个变量间的关系进行探究,但需明确,这种关系并不等同于因果关系。
卡方检验是一种广泛运用于计数资料的假设检验方法。它属于非参数检验范畴,主要用于比较两个及两个以上样本率(构成比)以及两个分类变量的关联性。其核心思想在于比较理论频数与实际频数的契合程度。
卡方检验在分类资料统计推断中有着广泛的应用,包括两个率或两个构成比之间的卡方检验、多个率或多个构成比之间的卡方检验,以及分类资料的相关性分析等。
(1)我们假设多个变量间相互独立,不存在关联。
(2)基于假设,计算出每种情况的理论值。将理论值与实际值进行比较,进而得到卡方值和自由度。
自由度的计算方式为:df=(C-1)(R-1)。
(3)查阅卡方表,得出相应的p值。
卡方值越大,对应的P值越小,这意味着变量间存在更高关联的可能性。当P值小于或等于0.05时,我们应拒绝原假设,认为变量间存在相关性。
在介绍信息增益前,让我们先了解两个基础概念:信息熵与条件熵。
信息熵衡量了随机变量的不确定性程度。
而条件熵则描述了在特定条件下,随机变量的不确定性水平。
(1) 信息增益代表了在一个条件下,信息不确定性的减少程度。其计算方式为:
Gain(Y,X) = H(Y) - H(Y|X),其中H(Y)表示Y的熵,H(Y|X)表示在X的条件下Y的条件熵。
信息增益越大,说明引入条件X后,数据的纯度提升越明显。这也意味着X与Y之间的相关性更强。
(2) 信息增益率主要用于处理当某个变量拥有大量不同取值时的情况。这种情况下,引入该变量可能会导致信息增益异常大。为了解决这一问题,我们考虑了分支个数的影响,从而引入了信息增益率的计算方式:
Gain_ratio = (H(Y) - H(Y|X)) / H(Y|X)。
协方差是描述两个随机变量如何一起变化的一个指标。如果两个变量不相关,它们的协方差将为0。
协方差的计算公式为:Cov(X,Y) = E{[X-E(X)][Y-E(Y)]}。
当cov(X, Y) > 0时,表明X与Y正相关;当cov(X, Y)
当需要分析多组数据的相关性时,我们会使用协方差矩阵。
协方差通过数值来衡量变量间的关系强度和方向。正值表示正相关,负值表示负相关。它无法衡量相关性的紧密程度。为了比较不同变量间相关性的强弱,我们需要引入下一个概念:相关系数。
相关系数,也被称为Pearson相关系数,主要用于衡量两个变量之间线的强度和方向。