The Beginning
1、线性相关系数也叫Pearson相关系数, 主要衡量两个变量线性相关的程度。r=cov(X,Y)/(D(X)D(Y))相关系数是用协方差除以两个随机变量的标准差。相关系数的大小在-1和1之间变化。再也不会出现因为计量单位变化,而数值暴涨的情况了。线性相关系数必须建立在因变量与自变量是线性的关系基础上,否则线性相关系数是无意义的。
2、连续与离散变量之间的相关性,连续变量离散化将连续变量离散化,然后,使用离散与离散变量相关性分析的方法来分析相关性。使用画箱形图的方法,看离散变量取不同值,连续变量的均值与方差及取值分布情况。
3、相关分析相当于先检验一下众多的自变量和因变量之间是否存在相关性,当然通过相关分析求得相关系数没有回归分析的准确。如果相关分析时各自变量跟因变量之间没有相关性 ,就没有必要再做回归分析;如果有一定的相关性了,然后再通过回归分析进一步验证他们之间的准确关系。同时 相关分析还有一个目的,可以查看一下 自变量之间的共线性程度如何,如果自变量间的相关性非常大,可能表示存在共线性。
THE END
TAG:如何进行相关性分析