网站首页 > 技术文章 正文
从某种意义上说,世间万物存在千丝万缕的关系。在数据分析中,两变量间的关系包括确定性关系(即函数关系)和非确定性关系。
非确定性关系指两个变量宏观上存在关系,但不能用具体的函数关系来表示,这种既是必然的又是不确定的关系称为相关关系。相关关系进一步分为平行关系(两变量互相影响)和依存关系(一个影响另一个)。
两个连续随机变量之间的线性联系称为线性相关(linear correlation),亦称为简单相关,联系强度用相关系数来描述。Pearson相关性分析是分析两变量间线性相关最常的方法。
1.Pearson相关性分析,需要满足以下5个条件:
(1)两变量均为连续变量。
(2)两变量应当是配对的,即来源于同一个个体。
(3)两变量之间存在线性关系。
(4)两变量没有明显的异常值。
(5)两变量呈双变量正态分布或近似正态分布。
2.Pearson积矩相关系数
Pearson相关系数,又称积差相关系数。定义为两个变量之间的协方差和标准差之积的商(又称为归一化的协方差)。总体的相关系数用ρ表示,样本的相关系数用r表示。
从总体相关系数和样本相关系数的计算公式都可以看出:
(1)分母为两变量标准差的乘积,只可能为正数。
(2)分子为两变量的协方差,表示两个变量的观测值对均值的偏离构成的向量的内积。
a.当X的离均差和Y的离均差均为正数或者均为负数时,说明X和Y有同时增加或者同时减少的倾向,乘积为正,称 与 正相关;
b.当X的离均差和Y的离均差一正一负时,说明有X增加Y减少或者X减少Y增加的倾向,乘积为负数,称 与 负相关。
c.特别地,若X和Y部分取值同方向部分取值反方向,离均差乘积有正有负,加和就接近于0,即这时候X和Y呈无序变化,称 与 不相关,严格来说是无线性相关关系。
(3)根据柯西-施瓦尔兹不等式(Cauchy–Schwarz inequality):
可知-1≤ρ≤1,ρ越靠近-1或1,线性相关程度越强,越接近于0,越弱。
此外,因为分子协方差的量纲除以了分母、分子相同的量纲,所以Pearson相关系数是没有单位的,而且具有对称性、位移不变性和尺度不变性。
3.Pearson相关系数的假设检验
通常我们分析的数据是来自总体的样本,所得到的r只是ρ的一个估计值,也有抽样误差,因此还要进一步作总体相关系数ρ是否为0的假设检验。即:
H0:ρ=0,H1:ρ≠0,α=0.05
来自 =0 的总体的所有样本相关系数 是呈对称分布的,所以r的显著性检验可以用双侧t检验来进行。直接查t分布表即可获得P值。
需要注意的是,相关系数的显著性是与自由度 (-2) 有关,即与样本数量 有关。样本量小,r绝对值容易接近于 1 ,样本量大,r绝对值容易偏小,容易给人一种假象,但样本少,即使r很大,但会发现是没有显著性的,相反,样本量很大时,即使r=0.1,也是有显著性的。
4.Pearson相关系数的区间估计
在实际分析时,我们往往想得到总体相关系数以一定概率所在的大致范围,即ρ的置信区间。
由于-1≤ρ≤1,不服从正态分布,在估计置信区间前需要先进行转换,如对数转换:
此时-∞<z<+∞,z近似服从正态分布,则z的1-α置信区间为:
然后再作反变换即可得到总体相关系数ρ的置信区间:
关于相关性的强弱没有固定的界限,不同的参考书定义不同,但更应该关注样本量是否足够大。
在很多学位论文和期刊论文中,经常能看到Pearson相关分析的误用和滥用,即使不能满足必须的5个条件,也盲目应用Pearson相关分析,这是不可取的。
在结果阐述部分特别需要注意的是:
(1)r=0只能说明两变量无线性相关关系,并不表示两者无相关性,可通过散点图初步判断。
(2)Pearson相关分析只探讨两变量具有线性相关性,不能得出因果关系。
(3)Pearson相关分析与Spearman相关分析的区别。
(4)Pearson相关分析和线性回归分析的联系和区别。
猜你喜欢
- 2025-07-09 人教版高中数学选修课本目录(高中数学教材人教版选修)
- 2025-07-09 从傅里叶变换导出不确定性原理(海森堡不确定关系)
- 2025-07-09 2025新高考数学中“不等式”的考法是什么?让老罗告诉你...
- 2025-07-09 顶级数学家,都是这么学习的:四个步骤,真正学会数学,远超常人
- 2025-07-09 张益唐新成果首次公开直播,开场写下ac-bd=(a+b)c-(c+d)b
- 2025-07-09 切记!教学不能偏离了正常轨道(教学不能脱离教材)
- 2025-07-09 柯西-黎曼方程:解析性的奥秘与广泛应用
- 2025-07-09 高中数学的知识框架(高中数学知识框架图完整版8张全)
- 2025-07-09 数学不等式核心考点与制胜答题技巧
- 2025-07-09 大妈落水,他从家里冲出来跳进河里
- 1509℃桌面软件开发新体验!用 Blazor Hybrid 打造简洁高效的视频处理工具
- 534℃Dify工具使用全场景:dify-sandbox沙盒的原理(源码篇·第2期)
- 496℃MySQL service启动脚本浅析(r12笔记第59天)
- 475℃服务器异常重启,导致mysql启动失败,问题解决过程记录
- 473℃启用MySQL查询缓存(mysql8.0查询缓存)
- 453℃「赵强老师」MySQL的闪回(赵强iso是哪个大学毕业的)
- 432℃mysql服务怎么启动和关闭?(mysql服务怎么启动和关闭)
- 430℃MySQL server PID file could not be found!失败
- 最近发表
- 标签列表
-
- c++中::是什么意思 (83)
- 标签用于 (65)
- 主键只能有一个吗 (66)
- c#console.writeline不显示 (75)
- pythoncase语句 (81)
- es6includes (73)
- windowsscripthost (67)
- apt-getinstall-y (86)
- node_modules怎么生成 (76)
- chromepost (65)
- c++int转char (75)
- static函数和普通函数 (76)
- el-date-picker开始日期早于结束日期 (70)
- js判断是否是json字符串 (67)
- checkout-b (67)
- localstorage.removeitem (74)
- vector线程安全吗 (70)
- & (66)
- java (73)
- js数组插入 (83)
- linux删除一个文件夹 (65)
- mac安装java (72)
- eacces (67)
- 查看mysql是否启动 (70)
- 无效的列索引 (74)