变量间的相关关系_分析两个变量间的相关关系


  • 使用散点图比较两个定量变量的关系。
  • 利用小提琴图分析定量变量与定性变量之间的关系。
  • 通过簇状柱形图对比两个定性变量的分布。

若需探究两个定量变量间的联系,可绘制散点图。在此图中,x轴与y轴分别代表两个变量的值,从而直观地展示它们之间的关系。

皮尔逊相关系数是衡量两个变量关系紧密程度的指标,通常表示为r,其值域在-1至1之间。我们以燃油经济性数据集为例,绘制发动机排量与燃油效率的散点图,可见引擎大小与燃油效率呈负相关,且小排量间的效率变化幅度较大。

其他可视化技巧:

抽样技术可用于数据集中。透明度调整则能突出显示数据中的重要信息。为避免数据点过于集中,可利用抖动功能为各点添加随机噪声。

对于时间与效率的关系,从燃油效率随生产年份增长的数据中,我们可以看出效率的逐步提升。

热图是通过颜色深浅表示多个单元格内数据点数的统计图表。当两个变量均为离散型时,热图能更有效地呈现数据分布。

箱形图是展示数字变量与分类变量关系的另一种图表形式。相比小提琴图,箱形图更侧重于数据的描述性统计,可使用seaborn的boxplot函数创建。

当面对两个分类变量时,分面图是一种有效的可视化工具。它将数据按照分类变量的不同级别划分,并在每个子集上呈现相同的图类型,从而帮助我们理解多个变量间的关系。

折线图则以折线的方式展示两个定量变量的关系。与散点图不同,折线图仅对每个唯一x值或x值的bin绘制一个点,该点的y值代表bin中数据的摘要统计量。折线图特别适用于表示随时间变化的趋势。

散点图主要揭示两个定量变量间的联系;簇状柱形图则用于展示两个定性变量的分布情况。

小提琴图和箱形图常被用于描述定量变量与定性变量之间的关系,它们能够提供数据的分布以及中心、散布和形状等统计信息。

对于如何利用单变量图表展示双变量数据,我们可以将第二个变量的信息融入单个图表中,例如通过拆分多个小图或使用第二个变量的平均值等方式来实现。折线图是表示时间与数值变化关系的有效工具。