欢迎访问文稿网!

双变量相关分析

范文之家 分享 时间: 加入收藏 我要投稿 点赞

双变量相关分析

双变量相关分析_现代社会调查方法

    二、双变量相关分析

    1.列联表的应用

    在本书第九章的统计表中已简单介绍过列联表的有关知识。列联表也叫交互分类表,它是指两个(及两个以上)定类或定序变量在统计表的主项和宾项两个方向上都进行分组的一种统计表。它是复合分组表的另一种也是更为有用的一种表达形式。它在描述两个定类(或定序)变量间关系的资料分布、显示其内在结构,进而计算两个变量间关系强度等方面具有重要的作用,因而被广泛应用。如表10-11、表10-12所示。

    

    表10-11 男女职工对提前退休政策的态度(人)

    img134

    

    表10-12 各年龄段职工对提前退休政策的态度(%)

    img135

    表10-11显示的是两个定类变量间关系的频数资料的分布情况,表10-12显示的是一个定类与一个定序变量间关系的频率资料的分布情况。

    列联表的设计除了应遵循统计表设计的一些基本要求之外,还应遵循如下几个要求:

    (1)表格中的线条要简洁,通常不用竖线。

    (2)通常应将自变量放在表的上方,因变量放在表的左侧。如考察不同社区的犯罪类型,应将社区变量放在表的上方,而将犯罪类型放在表的左侧。考察领导类型与生产率的关系,应将领导类型放在表的上方,而将生产率放在表的左侧。表中百分比的计算一般应以自变量方向(即纵栏方向)的累积数为基数进行计算。

    (3)表中的变量数及每个变量的变量值数不能太多。通常只用来描述2个变量间的关系。少数情况下也可以描述3个变量间的关系,如表10-12中,若再将各个年龄段的职工又分别按性别分组,就会形成2×3×2=12个数据。每个变量通常只取2—4个值。如果变量数及每个变量值数太多,不但工作量大大增加,而且反而不易看出变量间的相关关系。

    (4)在表内频数资料的右侧应保留一定的空间,以填写计算出的百分比。百分比通常保留一位小数,比如50.9%、33.5%等。

    运用列联表,可以对两个变量之间的关系作出初步的描述。

    例16 某项调查获得两个社区中犯罪者与非犯罪者的数量分布资料,如表10-13所示。问:(1)向哪个方向计算百分比更适宜?为什么?(2)计算百分比并简略总结资料。

    

    表10-13 两个社区中犯罪者与非犯罪者人数分布表(人,%)

    img136

    分析:在表10-13中,两个社区中犯罪者与非犯罪者数量的累计,既可以从横向累计,也可以从纵向累计;既可以横向累计数为基数计算比重(频率),也可以纵向累计数为基数计算比重(频率)。这两种计算方法哪个更为适宜?

    我们以两个社区的初犯者数量的累计和频率的计算为例来加以说明。表中两个社区的初犯者所占的比重(频率)是以自变量社区的方向(纵向)的累计数为基数计算出来的,分别是社区1的10%,社区2的5.3%。这两个相对数说明,社区1中的初犯者占的比重要比社区2的大,也即社区1的初犯人数相对比较多(尽管社区1的初犯者的绝对数要少于社区2)。但如果计算是以因变量方向的累计数为基数,则两个比重分别是社区1的46%,社区2的54%。这样就会得出社区2的初犯现象要比社区1严重的错误结论。之所以会导致错误,是因为这种计算方法忽略了两个社区的总人数不同这个至关重要的因素。

    因此,本题的解答是:(1)本题中,社区是自变量,犯罪类型是因变量,沿自变量(即纵向)方向计算百分比更为适宜。(2)通过计算百分比可以看到:两个社区的犯罪者和非犯罪者所占的比重比较接近,社区2中的惯犯所占的比重要高于社区1的比重,而社区1中的初犯所占的比重要明显高于社区2的比重,即社区1的初犯问题明显要比社区2严重。

    2.χ2检验

    双变量相关分析的主要任务之一是要检验两个变量间是否存在相关关系。作这种相关性分析通常用χ2(读作卡方)检验法。下面举例介绍χ2检验的方法。

    例17 某婚姻介绍所登记的655名女青年的职业与择友第一标准的分布情况如表10-14,问女青年的职业与择友第一标准之间是否存在相关关系?

    从表10-14可以看出,χ2检验要借助于交互分类表(列联表)进行计算,其计算公式为

    img137

    

    表10-14 女青年职业与择友第一标准人数分布表

    img138

    其中,f0为交互分类表中每一格的观察次数,

    fe为每一个观察次数所对应的理论次数或期望次数。

    为了计算χ2,必须先计算出每一格f 0所对应的fe,其计算方法是每一个观察次数f 0所在的行合计数乘以列合计数,再除以总数。本例中观察次数65所对应的理论次数img139,即工人中以学历为第一择友标准的理论人数是99人。

    同理:观察次数105所对应的理论次数img140

    观察次数95所对应的理论次数img141

    依次类推。

    然后将各个观察次数与理论次数代入公式:

    img142

    然后确定自由度和显著性水平。自由度d f=(r-1)(c-1)。r和c分别为交互分类表的行数与列数。本例的自由度d f=(3-1)(3-1)=4。显著性水平由研究者自己确定,这里假定为P=0.05。由书后的χ2分布表可查得,自由度为4,显著性水平为0.05,所对应的临界值为9.49。

    然后将计算出的χ2值与查得的临界值进行比较。若χ2值大于或等于临界值,则称差异显著,也即拒绝两变量不相关的假设;若χ2值小于临界值,则接受两变量不相关的假设。在本例中,由于χ2=44.47>9.49,故可以有95%的把握否定女青年的职业与择友第一标准之间不相关的假设,得出两者相关的结论。

    上述χ2检验法只能检验两变量之间是否相关,还不能显示两变量之间相关程度的强弱。若要显示两变量间相关程度的强弱,则要计算出相关统计量。

    3.关系强度的测量

    φ系数(φ读作fai)

    φ系数适用于两个二分变量的相关程度的测定。二分变量是指变量仅能取两个值,如男女性别是典型的二分变量。此外如好坏、有无、是否等都是二分变量。

    两个二分变量之间的关系可以通过列联表(交互分类表)表现出来。下面是一个列联表的示意表:

    img143

    φ系数的计算公式为

    img144

    注意这里的a、b、c、d是根据交互分类表确定的格频数。

    例18 我们要了解少年犯的性别与社区背景之间的关系,经过统计汇总,得出如下交互分类表:

    img145

    在上表中,性别与社区是两个二分变量,适合φ系数,代入公式得

    img146

    说明社区背景不同,少年犯男女性别比例也不同。它们之间相关密切程度为0.29,“-”号表示ad<bc,即a/b<c/d,说明该少管所城市女少年犯相对较多,农村女少年犯相对较少。

    列联系数(C系数)

    如果两个变量分类尺度不是二分的,而是分成了r类和s类,则这两个变量的关系可用r×s列联表显示,如表10-14。计算这两个变量的相关系数,就要用C系数。其计算公式为:

    img147

    可见,求C的关键是要求χ2(卡方)。(计算χ2的方法上面已作过介绍)。

    这里仍以例16为例,求得χ2=44.47,

    则        img148

    这一结果说明,女青年的职业与第一择友标准的相关程度较强(据测定,C>0.2即为关系程度较强)。

    4.其他类型变量的相关系数的测量

    等级相关(R)

    等级相关是常用的相关测定方法之一,它适用于测定两个等级变量(定序变量)之间的相关关系,说明它们之间的一致性程度。其运算公式为:

    img149

    式中n是两个等级变量的等级数目。Di=X i-Yi为每一对变量的等级差。

    例19 某市为了了解市民对市政府拟办的十件实事的态度,现请该市的部分市民和干部对十件实事作出评价,意见汇总后作出的评价等级如表。

    img150

    将表中数据代入公式得

    img151

    说明:(1)在等级相关中,R的取值范围为-1≤R≤1。

    (2)R>0,两列等级变量变化方向一致;

    R<0,两列等级变量变化方向相反。

    (3)R绝对值越大,表示两列变量等级一致性越强。

    上例中,R值为0.73,说明干部与市民对市政府要办的十件实事的态度具有较高的一致性。

    皮尔逊(pearsion)积差相关

    皮尔逊积差相关适用于两个定距、定比变量X与Y直线相关程度的测量。其系数只表示X与Y之间的直线相关密切程度。

    用积差法测定两个直线相关变量X与Y的相关系数公式为

    img152

    其中,X为X变量数列的算术平均数

    Y为Y变量数列的算术平均数

    σx为X变量数列标准差

    σy为Y变量数列标准差

    n为x与y总次数

    因为

    img153

    所以上式可转化为:

    img154

    注意:(1)-1≤r≤1

    (2)r>0表明x与y变量变化方向一致

    r<0表明x与y变量变化方向相反

    (3)r=0表明x与y变量完全无关

    如果变量x与y数据构成组距数列,则求r公式改为:

    img155

    其中X mid与Y mid为组距数列的各组组中值。

    例20 丈夫受教育年限(x)与夫妇争吵次数(y)很有相关性,调查资料汇总得表如下:

    img156

    

    注:X=10 Y=5

    代入公式得

    img157

    这一结果表示上述资料中,丈夫受教育年限与夫妇间争吵次数的相关程度为0.97,相关的方向相反,即受教育年限越多,争吵次数越少。

    在已知变量X、Y的情况下,运用上述公式计算积差系数是比较方便的。但如果预先不知道X、Y,要先求X、Y,就比较麻烦,可将公式变形为直接用原始资料数据计算r系数公式:

    img158

    例21 某次调查得到10名女青年受教育年限与理想子女数目的资料如表:

    img159

    将上述资料数据代入公式得

    img160

    这个结果说明,10名女青年的受教育年限与理想子女数之间的相关系数为-0.94,属于高度负相关,即受教育年限越多,理想子女数越少。

    从上例可以看到,当变量值较小时,用直接计算法较为简便。当变量值较大时,应用此公式涉及数据较大,因而比较麻烦,此时还是采用前面公式较好。

    上面我们介绍了几种常用的双变量相关分析及相关系数的计算方法。使用时要注意它们的适用范围。相关关系不是因果关系,相关系数仅说明变量间的相关程度。在建立相关关系时,还应当依据有关的科学理论,通过观察或实验,在对现象进行定性分析的基础上才能确定,并且还要通过理论上、实践上的检验,只有这样,才能得出有科学意义的结论。

221381
领取福利

微信扫码领取福利

微信扫码分享