独立性检验的结论怎么写
设想一下,如果我们有一种方法,能够像衡量相关性一样精确地评估两个变量之间的关系,甚至可能达到更高的精确度。2020年的一篇名为《一个新的相关系数》的论文介绍了这种新的衡量方法。当且仅当两个变量独立时它等于零,当且仅当一个变量是另一个变量的函数时它等于一。它具备一些良好的理论性质,可以进行假设检验,同时在实际应用中无需对数据的分布做出任何假设。
在讨论之前,让我们简要回顾一下传统的相关性衡量方法是如何运作的。在统计学和商业领域,有许多工具(如皮尔逊相关系数)被用来理解数据关系。这些工具广泛应用于几乎每个统计学课程和数据科学应用中。它们之所以受到重视,是因为它们既易于使用又易于解释。不过需要注意的是,这些传统方法主要侧重于衡量线。
在现实世界中,我们很少看到完全的线。研究者们已经开发出了一些新的衡量标准,如斯皮尔曼相关系数ρ(rho)和肯德尔相关系数τ(tau)。这些新方法更擅长发现单调,从而使得它们在分析复杂数据时更为可靠。简单来说,单调是指变量间的关系始终上升或始终下降。
通常,我们使用相关性分析的目的不仅仅是为了找出两个变量之间的线性或单调联系,而是为了探究它们之间是否存在某种关联。如果变量间的关系既不是线性的也不是单调的,现有的相关性度量方法可能会失效。
观察下面的图表,它们展示了两个变量之间紧密的联系,但传统的相关性分析技术主要擅长识别单调。
尽管存在局限性,这些相关性度量仍然广泛应用于各类数据的分析和结论中。那么,我们是否能够识别出比前文所述更为复杂的关系呢?这里引入了一个新系数ξ(读作“克森爱”)。
在深入探讨之前,值得一提的是一篇名为《线性与单调性关联的误区》的论文。这篇论文讨论了在不同类型数据中,哪种相关性度量方法更为合适。传统的观点是皮尔逊相关系数适合用于线的度量,而斯皮尔曼和肯德尔相关系数更适合用于单调的分析。但这篇论文指出在某些情况下情况可能正好相反。
在正式介绍新公式之前,需要理解一些基本概念。相关性是衡量两个变量之间关系的一种方法。例如我们正在评估变量X和Y之间的相关性。如果存在线,那么这种关系在某种程度上是双向的——也就是说X与Y之间的相关度总是与Y与X之间的相关度相同。但是采用新方法后我们将不再仅仅衡量X和Y之间的线而是要衡量Y作为X的函数的相关程度理解这种传统相关性分析中的微妙差异将有助于我们更好地理解新公式因为它允许ξ(X,Y)并不等于ξ(Y,X)这与传统的相关性测量不同。
延续之前的思路假设我们想要继续评估Y相对于X的函数关系每个数据点是X和Y的有序对。首先我们需要将这些数据点按照X的值从小到大排序形成(X₁Y₁)(X₂Y₂)…(XₙYₙ)的序保X₁≤X₂≤…≤Xₙ换句话说我们需要根据X的值对数据进行排序排序完成后我们可以定义一系列变量r₁r₂…rₙ其中rᵢ代表Yᵢ在排序后列表中的排名一旦确定了这些排名我们就可以进行计算了。
根据您使用的数据类型使用两个公式进行计算如果数据不可能或不太可能存在联系时使用第一个公式如果允许使用第二个公式在这里(l_i)表示的是(Y_j)大于或等于(Y_i)的j的个数当数据中允许有并列情况时需要注意一个重要的细节除了应用第二个公式外为了尽可能得到更准确的估计我们需要以一种随机的方式对并列的数据点进行排序确保在排名时一个值高于或低于另一个值这样做是为了确保((r_{i+1}-r_i))的值不会为零简单来说(l_i)就是表示(Y_i)在所有观测值中实际大于或等于的数量。