2022-02-27 03:30来源:m.sf1369.com作者:宇宇
面对测量误差,我们该怎么办?在上一期,我简要介绍了测量误差的概念及其对统计分析的危害;在这一期,我将着重谈一谈针对测量误差的应对办法。不过在进入正文之前,我首先需要强调的一点是,就目前已掌握的知识来看,测量误差只能通过更好的研究设计和更严格的调查执行来降低,而到了数据分析阶段,我们并没有太多好的办法。看到这里,可能很多只用二手数据的小伙伴要感到失望了,毕竟不是所有人都有能力和精力去搜集一手数据,那么面对有测量误差的二手数据,我们该怎么办呢?1、挑选合适的变量我们常说,一个数据质量不好,其实这是一个非常笼统的说法。更准确的说法是,一个数据中有些变量质量不好,但有些变量还基本能用。众所周知,目前市面上能够见到的统计数据都是由很多变量组成的,我们所谓的测量误差也是针对具体的变量而言,而非针对整个数据。所以,对数据分析者来说,一个很基本的能力就是从很多变量中挑出那些测量误差比较小、可以进行统计分析的变量。但问题是怎么挑呢?我个人认为,在挑选变量时需要遵循两个原则。第一,客观的比主观的好,具体的比抽象的好,单一维度的比多维度的好。因为相比单一维度的、具体的客观概念,那些包含多个维度的、比较抽象的主观概念更难测量,所以对这些概念进行统计分析更可能受测量误差影响。从这个角度来说,性别、年龄、民族、婚姻状况等基本的人口学变量是相对安全的变量,在分析时应该多用;而满意度、幸福感、社会融合等变量很难测准,在分析时就应该少用。但少用并不意味着不能用,毕竟很多重要的社会学问题,如满意、幸福、公平等都是抽象的理论概念,那么对这类变量该怎么办呢?这就涉及到挑选变量的第二个原则。第二,如果研究必须使用抽象程度比较高的变量,那么最好将之作为因变量,而不要作为自变量。在上一期我们讲过,当因变量有测量误差时,最主要的危害是降低模型和统计检验的效率,但对回归系数的估计没有太大影响。而统计检验效率的降低可以通过增大样本容量来弥补,目前我们分析使用的数据样本量通常都比较大,所以综合来看,使用有测量误差的因变量不会导致毁灭性的结果。但是,当自变量有测量误差时,情况就不一样了,它会显著低估模型的回归系数,这对任何一个回归分析来说都是不能接受的。总而言之,当我们要研究满意、幸福、公平、信任等抽象问题时,比较合适的研究路径是将这些变量作为因变量,分析它们的影响因素;而不要将它们当作自变量,研究它们的社会后果。2、改进现有的测量如果一项研究不能巧妙地避开有测量误差的变量,那么就只能面对它。通常来说,变量的测量误差是很难纠正的,除非在研究设计时就考虑到了测量误差问题。举例来说,自评健康是健康研究领域常用的一个变量。测量自评健康的常规方法是使用5分Likert量表(非常健康、比较健康、一般、不太健康、非常不健康)让受访者对自己的健康状况打分。这种问法操作简单,但问题在于不同受访者对健康的评价标准往往是不一样的,有些人明明健康状况很糟糕,但依然会认为自己身体很好;而有些人即使身体很好也认为自己的健康状况不行。纠正这个问题的一个办法是锚定法(anchor vignette),即在询问自评健康的同时给受访者一些情境,让受访者评价出现在这些情境中的个体的健康状况,然后根据这些情境题确定受访者的健康评判标准(锚点),再以这个标准去纠正原有的自评健康测量。目前通过锚定法来纠正自评健康测量问题的研究设计已经得到了非常广泛的应用,比如在“中国健康养老追踪调查(CHARLS)”中就采取了这种设计。此外,一些调查在询问满意度、幸福感、自评阶层地位时也采用了这种设计。《社会》杂志今年最新的一期(2017年第6期)就刊登了一篇使用锚定法测量中国民众主观社会地位的论文,感兴趣的读者可以去查阅这篇文章。如果研究设计使用多个指标去测量一个变量,那么就可以使用结构方程模型(SEM)改善对该变量的测量。结构方程模型包括测量模型和结构模型两部分,其中结构模型与一般意义上的回归没有本质区别,唯一的不同点是参与回归的变量既可以是观测变量,也可以是潜变量(latent variable),而潜变量是通过测量模型得到。通俗来讲,潜变量就是我们想要测量的目标变量,但是因为测量误差,我们只能得到它的多个观测指标。单独来看,每个观测指标都是有缺陷的,但综合多个指标我们就能提取出它们共有的部分(即潜变量),然后以之为基础就可以分离出测量误差。目前,结构方程模型在心理学领域已经得到了非常广泛的应用,心理学在测量诸如幸福、满意、焦虑、抑郁等概念时通常会采用一个包含数个题目的量表,基于这个量表就可以藉由结构方程模型生成对应的潜变量,然后去探讨各潜变量之间的因果关系。相比之下,社会学在研究类似问题时大多还是使用单一测量指标,这样就不能有效分离出测量误差,这不得不说是一个遗憾。3、大数据通过前文的介绍,我们知道,如果能在调查时进行更加精巧的研究设计,就可以通过锚定法或结构方程模型缓解变量的测量误差问题。但直到目前为止,我们依然是在传统数据搜集的话语下讨论测量误差问题,实际上,随着信息技术特别是互联网技术的迅猛发展,社会科学采集数据的渠道已经发生了非常明显的变化。既然如此,数据采集技术的革新能否缓解传统的测量误差问题呢?更进一步,大数据有助于降低测量误差吗?
误差是测量测得的量值减去参考量值。测得的量值简称测得值,代表测量结果的量值。所谓参考量值,一般由量的真值或约定量值来表示。 对于测量而言,人们往往把一个量在被观测时,其本身所具有的真实大小认为是被测量的真值。实际上,它是一个理想的概念。因为只有“当某量被完善地确定并能排除所有测量上的缺陷时,通过测量所得到的量值”才是量的真值。从测量的角度来说,难以做到这一点。因此,一般说来,真值不可能确切获知。一个量的观测值或计算值与其真实值之差,特指统计误差,即一个量在测量、计算或观察过程中由于某些错误或通常由于某些不可控制的因素的影响而造成的变化偏离标准值或规定值的数量 。数学上称测定的数值或其他近似值与真值的差为误差。误差与错误不同,错误是可以避免的,而误差是不可能避免的。从实验的原理,实验所用的仪器及仪器的调整,到对物理量的每次测量,都不可避免地存在误差,并贯穿于整个实验始终。测量值与真值之差异称为误差。测量时,由于各种因素会造成少许的误差,这些因素必须去了解,并有效的解决,方可使整个测量过程中误差减至最少。测量时,造成误差的主要有系统误差和随机误差,而系统误差有下列情况:视差、刻度误差、磨耗误差、接触力误差、挠曲误差、余弦误差、阿贝(Abbe) 误差、热变形误差等。系统误差的大小在测量过程中是不变的,可以用计算或实验方法求得,即是可以预测,并且可以修正或调整使其减少。这些因素归纳成五大类,详细内容叙述如下。根据误差产生的原因及性质可分为系统误差与偶然误差两类。