ets criterionn validity是什么意思

一个理论“logical validity”与“empirical validity”各是什么含义?两者是不是可以互相解释_百度作业帮
一个理论“logical validity”与“empirical validity”各是什么含义?两者是不是可以互相解释
一个理论“logical validity”与“empirical validity”各是什么含义?两者是不是可以互相解释
查看这个提问的出处,是经济学领域.logical 是逻辑上的、逻辑方面的、validity 是有效性,会管用的empirical 是经验上的、经验方面的logical validity 是逻辑程度上的有效性,只要【前提】条件满足,结果必然发生.empirical validity 是经验程度上的有效性.如果【前提】条件满足,结果会发生,但不是必然的,偶然情况下也可能不会发生.两者是不是可以互相解释?不可以.由上面的【解释】,logical validity 在程度上更可靠,可以解释 empirical validity .但反过来不是必然的Results: Using the Torrance ? ? s health state ? ? s classification system as a standard, HRLQS has a good criterion validity.
结果: 以Torance健康状态分类系统(HCS) 为标准, HRLQS具有较好的准则效度.
The establishment of insurance contract should applyto the criterion of validity of acceptance.
保险合同的成立应当适用承诺生效的标准.
人力资源管理英语词汇|各类常用英语词汇 ... 小组面试 Panel interview 效标效度 Criterion validity 效度 Validity.
- 基于382个网页
valid criterion
有效的标准 the issue of conversion from a religion to another , which is held by the report and deemed as a criterion of moderation or extremism a Muslim , is not acceptable as a valid criterion either .在报告中提出的从信仰一个宗教转变为信仰另一个宗教的问题,被视为划分是中和的还是极端的穆斯林的标准,这一点作为一种有效的标准也不
- 基于2个网页
合法性的准则 administrationlaw principle weighs public security contract valid criterion ., 依法行政原则是衡量治安承包合法性的准则.
- 基于1个网页
criterion-related validity
效标关联效度 所谓效标关联效度(criterion-related validity),也称效标效度,反映的是测验分数与外在标准(效标)的相关程度,即测验分数对效 …
- 基于386个网页
validation criterion
验证标准 set the integrated land price no less than its validation criterion , i. e. the minimum costs of the actual social settlement of farmers whos④以不低于被征地农民的实际社会安置成本作为征地区片综合地价验证标准;
- 基于1个网页
validity criterion
效度标准 ...建立效度的标准者,称为标准。标准心理测验中,是指用来验证新编测验是否够得上是一个具有效度的标准测验。见效度标准(validity criterion)。在回归分析中,是指被一个或多个变项所预测的变项。例如:测验学者用自编的团体智力测验与魏氏智力量表(.
- 基于45个网页
效标 效度系数 validity coefficient效度标准,效标 validity criterion诳度研究 validity research
- 基于1个网页[转载]效度(validity)
术语的翻译
“Construct
Validity”常见的译法有“建构效度”、“结构效度”、“构想效度”、“构思效度”、“构念效度”等。哪一种最为贴切呢?
先来说说“construct”在这里的涵义。“construct”可作为动词或者名词,在这里应当是名词。按照
Merriam-Webster 在线词典,当“construct”作为名词时有两种:
1: something constructed by the mind: as
a: a theoretical entity constructs — D. J.
b: a working hypothesis or concept construct that came
from the daily effort to understand patients&
2: a product of ideology, history, or social circumstances
construct it is a condition of the body —
Sallie Tisdale&
这里应当取其中的第1种下的b,即“something constructed by the mind as a working
hypothesis or
concept”,翻译成中文大概是“头脑中构造出来的指导性的假设或概念”,可简称为“构念”。“构想”和“构思”与其含义比较接近,但是“构想”和“
构思”不明确地具备“concept”之意,因此并不完全妥帖。
如果翻译为“建构效度”,那就是在使用其中的第2种解释,但这是不正确的。心理测量和教育测量中涉及的概念的确也是社会建构的产物,但是这里在讨论其效度的时候,并没有这层含义。翻译为“建构效度”会导致严重的误解。
“结构效度”也是不恰当的翻译,这里的“construct”完全没有“结构”的意思。“结构”对应的英文单词应该是“structure”而不是
“construct”。另外,效度理论里面有个术语叫“Internal Structure
Validity”,即内部结构效度,把“Construct Validity”翻译为“结构效度”会导致概念的混淆。
综上所述,“构念效度”应当是最恰当的翻译。“构念”这个词隐含有“构造出来的概念”的意思,我认为这非常恰当地反映了“construct”在这里的本意。
内容效度、校标效度、构念效度
内容效度、校标效度、构念效度,这三个词对应的英文原文分别是:Content Validity, Criterion
Validity, Construct Validity。我最初学习的时候,我们使用的教材把 Construct Validity 和
Criterion Validity 都归类于“Evidence Based on Relations to Other
Variables”。这样的归类虽然有一定的道理,但是既然构念效度和校标效度都和其他变量有关,那么它们的区别到底何在?书中并没有把其中的道理讲清楚。为了把这个问题弄明白我查阅了不少资料,最终
APA(1954) 解决了我的疑问。
内容效度最容易理解,它关心的是测量的内容。比如历史知识的单元考试,内容效度就会考察试卷是不是把这个单元该考的知识都考全面了。
校标效度稍微复杂些,它关心的是测量结果和另外一个校标(criterion)的符合程度,它并不关心测量本身的内容。比如,据说微软公司招人的时候会考一些类似脑筋急转弯的问题,像”纽约有多少个水井盖”之类。考察者并不真的关心答题者是不是真的知道纽约有多少个水井盖,他关心的是答题者以后的工作业绩(相当于校标)。那么考题到底能在多大程度上预测工作业绩呢,或者说这些考题和工作业绩的相关程度到底如何呢,这就是校标效度。
构念效度最为复杂,它关心的是测量工具和构念的符合程度。这里的构念(construct)可以理解为理论化的概念(theoretical
concept),比如智力、学习动机、学习态度、学习兴趣等等,可以说绝大多数心理测量和教育测量都涉及到这种理论化的概念,也就是构念。在衡量构念效度的时候,也会使用其他的测量结果来作为参照。比如考察学生的逻辑推理能力,可以看看和数学成绩的相关性如何,这有点类似于校标了。但是它和校标效度是有本质区别的,因为考察者并不把数学成绩当作逻辑推理能力的校标,数学成绩只不过是一个参照而已。
下面我们就来讨论它们的区别到底何在。首先是调查者(investigator)的观察的取向(orientation)不同。使用内容效度的调查者,关心的是测量的得分。比如教师对学生进行历史知识测验,那么学生在这张试卷上的得分正是教师所关心的。使用校标效度的调查者,并不关心测量本身的得分,他关心的是校标的得分。比如上面举的招聘的例子,公司并不真正在乎你在招聘试题上的得分,他在乎的是你以后的工作业绩(相当于校标)。而使用构念效度的调查者,他既不关心测量本身的得分,也不关心其它参照量上的得分。比如测量被试者的逻辑推理能力时,被试者在那些特定的试题上的得分并不是测试者真正关心的,其他参照量上的得分(比如数学成绩等等)也不是测试者真正关心的。那么调查者真正关心的是什么呢?是被试者隐藏在这些得分底下的特征(trait)
或特质(quality)。
上面说的是三种效度在观察重心上的区别,另一个明显的区别就是推论(inference)的程度的不同。对使用内容效度的测量者的来说,基本上不存在推论。还以历史知识测验为例,考得好就说明这部分知识掌握得好,教师不需要进行什么推论,考试得分直接说明问题(如果要引申到学生的学习态度那就是在进行推论了)。在校标效度的例子里,推论是很明显的。招聘试题上的得分真的能预测将来的工作业绩吗,这时候推论的意味已经很强烈了,实际上校标效度就是用来衡量这种推论的可靠性的。在构念效度的例子里,测试者所进行的推论就更强了。一张考卷真的能可靠地反映出被试者的逻辑推理能力吗?这是极其复杂的问题,而且,是个无法被实证直接检验的问题。在校标效度的例子里,将来的工作业绩是一个具体而直接的判定依据(至于如何衡量工作业绩那是另外的问题了)。而构念效度所要追求的理论化概念本身是抽象的,就比如逻辑推理能力,它不是一个具体的量度,不可能被实证直接检验(更深入的讨论见后文)。
说到这里可以对三者的区别进行一个小结。测量者关心的是测量得分时用内容效度,测量者关心的是校标得分时用校标效度,测量者关心的是被试的某种特征或特质时用构念效度。这里要再次强调的是,测量得分和校标得分都是具体的,而构念是抽象的,是人为构造出来的理论化的概念。
也许还需要解释一下,三种效度并非只能用于不同的测量工具,而是取决于测量者如何使用测量工具。比如,同样是一张数学试卷,三种效度都可以用来考核它,这取决于施测者如何使用这份试卷。如果施测者只想从中知道学生对特定的数学知识的掌握情况,那么他应该关心这张试卷的内容效度如何;如果施测者想以此推断学生将来高考时的数学成绩,那么他应该关心这张试卷的校标效度如何;如果施测者想以此判断学生的逻辑推理能力,那么他就应该关心这张试卷的构念效度如何。
构念效度是把“大伞”
前文根据 APA (1954) 所述介绍了构念效度和内容效度、校标效度的区别。然而,现代对构念效度的理解已有所不同。在 APA
(1954) 中,这三种效度是并列关系。但是现在有的书中把构念效度作为一个大的概念,而把内容效度和校标效度归于其下。比如在
Domino & Domino (2006) 中就这么说:
“Construct validity is an umbrella term that encompasses many
information abo both content and criterion
validity can be subsumed under this broader term.” (p. 55)
在另外一本教材 Trochim & Donnelly (2006)
里,对这几个效度也进行了相似的归类(p. 66)。为什么会这样呢?
构念效度总的意思很简单,它其实就是问测量工具所测的到底是不是研究者想要测的。比如智力测量问卷,测出来的到底是不是智力。可以看出来,构念效度只是一个非常笼统的目标,并不涉及具体的操作或者说实现的方法。而内容效度和校标效度可以看作是实现构念效度的某种途径。这两种途径的区别是,内容效度是直接的检查,而校标效度是间接的检查。
但是内容效度和校标效度是怎么被归类到构念效度下去的呢?其实仔细想想就会发现并不奇怪。任何心理或教育测量都会牵涉到构念。比如,对学生进行历史单元知识的考察,那么“学生对历史单元知识的掌握”其实也是一个构念,只不过是比较容易被具体化/操作化的构念(相对于智力、动机这些心理特质来说)。而在上文校标效度的例子,公司招聘人员的时候,招聘考官其实也是有“构念”的,比如应聘者的工作能力、团队精神等等。使用校标效度只是表面上避开了构念,但是要把校标和测量联系起来,不通过构念是不可能的。可见构念在测量中真的是无处不在,把其它效度罩于构念效度这把大伞之下也的确不无道理。
另,关于这些效度的概念的具体变化请参看 Goodwin(2002)。
构念效度是把“巨伞”
上面说到构念效度是把“大伞”,把内容效度和校标效度都笼罩就去了。如果我们再深入的想一想,构念真的只在测量中存在吗?Trochim
& Donnelly (2006) 一书中把构念这一概念引申到了研究的每个环节。
首先,当我们在进行某种实验操作,或者说对试验对象施加某种影响的时候,也是由构念在指导着我们。比如,我们要试验某种教学方法的时候,那么这个教学方法就是我们头脑中的一个构念。在我们进行到试验的实际操作环节的时候,一个不可回避的问题就摆在了面前,我们所进行的教学操作真正贯彻了我们心中所想的那个教学方法吗?如果我们要开展儿童中心的探究式教学活动,我们能保证在实践中做到了这些吗?以及我们有什么证据能够证明它呢?这其实也是构念效度的问题。
另外,Trochim & Donnelly
还把构念效度引申到抽样中来,我们所采用的样本和我们心中所想的实验对象一致吗?这也是构念效度的问题。
总之,只要涉及从理论层面到操作层面的转化就有构念效度的问题。在研究的各个环节中我们应当不断地提醒和检验自己,我所做的真的符合我所想的吗?从抽样到测量到实验,每一处都不能疏漏。
单刀直入还是旁敲侧击
Trochim & Donnelly (2006, pp.69-71)
一书中指出对待构念效度有两种倾向,一种被作者称为定义主义者(definitionalist),另一种被称为关系主义者
(relationalist)。前者是从所测量的构念本身的定义入手,看测量是不是实现了或符合了对构念的操作化定义,这是一种单刀直入的方法。后者是从所测量的构念和其他构念的关系入手,看是不是符合和其他构念应有的联系或者是应有的区别,这是一种旁敲侧击的方法。
单刀直入法首先要面对的问题就是,很多构念目前还没有操作化定义或者说很难对其操作化,造成单刀直入法根本无用武之地。这是很明显的事,我就不细说了。我下面要着重解释的是,即便是在比较容易实现对构念的操作化定义的场景下,单刀直入法也并不可靠。
比如我们要考察一份数学单元知识检测试卷的构念效度。单刀直入的方法就是,列出这部分数学单元知识应该有哪些,然后在试卷上逐一检查,是不是都有了。但是这种方法是不全面的,因为测量工具不但要测量该测量的,还要回避不该测量的。如果你要保证这份数学单元知识检测试卷只反映学生对这部分单元知识的掌握情况,你就必须还要保证:没有考察其它不相关的数学知识、没有考察学生的数学能力、没有考察学生的阅读能力、等等。具体来说,如果是解析几何的考试,假设其中某题的解答必须用到一种代数方程求解的知识——当然不是说不能用到这个知识——但是出题者应当知晓至少绝大多数(最好是全部)学生已经掌握了那种方程的解法,否则你就无法从测试结果中知道学生不能解答该题是因为解析几何的知识没有掌握还是代数方程求解的知识没有掌握,那么这个考卷的效度就可疑了。再往深里说,你怎么保证这份试卷不考察学生的数学能力呢?这就需要把数学知识和数学能力区分清楚。解题方法的应用可能是在考核数学知识(因为解题方法也是一种知识),也可能是在考核数学能力(对解题方法在不同场景中灵活应用)。这取决于:1)学生对这种解题方法是不是充分训练过,2)解题方法的应用的情景是不是训练中类似的情景。如果这两个问题的答案都是肯定的,那么就是考核数学知识,如果有一个否定的,就是考核数学能力。实践中我们还会遇到一种情况,学生考完过来抱怨说某条应用题完全看不懂,因而无法解答。“看不懂”其实有不同层面的含义,可能是字面上看不懂,那就是阅读能力的缺陷;也可能是字面上看懂了,但是无法理解它的数学内涵,或者说就是不能把日常语言转化为数学语言,这就是数学能力的缺陷。
那么如何解决上述的诸多问题呢?要保证这份数学单元知识检测试卷没有考察不相关的数学知识,最好的办法就是再用其他不相关的数学知识考一下,得到的考试结果和原试卷的考试结果的相关程度应该足够的低。要保证这份数学单元知识检测试卷没有考察学生的数学能力,最好的办法就是再用数学能力检测试卷考一下,得到的考试结果和原试卷的考试结果的相关程度应该足够的低。要保证这份数学单元知识检测试卷没有考察学生的阅读能力,最好的办法就是再用语文阅读能力检测试卷考一下,得到的考试结果和原试卷的考试结果的相关程度也应该足够的低。我当然知道这些是非常理想化的建议,实践中不可能完全做到。这里讨论的目的是要表明单刀直入的方法是有严重局限的,要建立理想的构念效度必须要从全局来考虑,也就是关系主义者的方法。
虽然在 APA (1954) 中已经提出了构念效度,但是并没有给出具体的实现方法。在其后的一篇文章中 Cronbach
& Meehl (1955) 提出了 “nomological
network”。其中“nomological”的意思是“法理的/法则的”,因此 nomological network
可以译为“法理网络”或“法则网络”。我偏向于采用后者,因为前一种容易让人误解为法律词汇。
法则网络其实也不是一种具体的方法,而是一种方法论。其中心思想就是把构念和测量工具放到由各种法则建立的理论框架(theoretical
framework)和经验框架(empirical
framework)的网络中去评价其效度。为什么要这样呢?这是不是在把简单的事情搞复杂呢?前面的讨论已经说明了单刀直入法是不充分的,旁敲侧击是必要的。但是我们要在这里说明的是,单刀直入法不仅仅是不充分,而是根本不可能的。因为任何概念的定义从来都不会是孤立的,而是通过和其他概念的联系建立起来的。任何概念的定义必然会用到其他概念,如果意识到这一点,就会知道通过法则网络来评价构念效度其实是不可避免的。
除此以外,在这篇经典文献中 Cronbach & Meehl
非常明智地指出,由于我们所知的那些法则是不完善的,因此我们对构念的理解也必然是模糊的(p.294)。随着研究的逐步深入,我们对构念的理解才更为清晰。在深入理解的基础上,可能我们需要向整个网络中加入新的构念,也可能把已有的某个构念一拆为二,也可能把已有的某些构念合而为一。也就是说整个网络也是不断更新的。故而构念效度是不可能一步达成的,而是需要不断去完善的。这些论述颇有科学哲学的意味,不错,
Cronbach & Meehl
在其文献中明确地引用了多位科学哲学家(Hempel、Kaplan等)的著作。
这个思想是如此的重要,我这里必须进一步加以阐述。有一种流行的观念,认为在研究中必须先把概念定义清楚,然后才能继续探讨。也就是说把明晰的概念当作研究的前提,这甚至被当作学术研究的起码要求。这种观念很可能来自于自然科学的影响。我在这里并不是要强调社会科学和自然科学的区别,我要指出的是,即便社会科学和自然科学从共通的科学属性(假使有的话)上来说没有根本的区别,我们也必须注意到两者处于不同的历史发展时期,因而不能对学术规范进行强行移植。事实上,社会科学的很多学科都是刚刚起步,大多数作为正式学科的登台只有将近一百年的时间,有的甚至是近五十年的事情。而自然科学的发展显然要成熟得多,物理学从伽利略算起也已有四百多年的历史。把成熟学科的规范向新生学科进行生搬硬套是不合理的。如果我们现在回头看自然科学的发展历史,也存在着概念混淆不清的时期。比如物理学上一些极重要的基本概念,力、能量、质量等等(更不用说时间、空间这样的概念了),在很长的历史时期里都没有清晰的定义。在牛顿时代这些概念都是相当混淆的,物理概念的循环定义也不罕见(比如牛顿的密度和质量的循环定义、力和加速度的循环定义),但这并不妨碍物理学整体的进步。事实上,正是在整个物理学进步的过程中,当联系物理概念的物理规律被逐步挖掘出来的时候,这些概念才被认识得越来越清晰、越来越深刻。先把概念定义好再开始进行科学研究,这种想当然的理想化的看法是不符合科学发展的历史事实的。可以说现代自然科学的法则网络已相当成熟而处于比较稳定的时期(但不是不在变动),但是社会科学的的法则网络还非常稚嫩,按照自然科学的现状来要求社会科学就如同按照成人来要求儿童,这显然是不合理的。
举个具体的例子。我们对逻辑推理能力这个构念的理解本身就不精确,因此要对逻辑推理能力的测量工具建立完美的构念效度其实是不可能的。而这一现状是可以容忍的,为什么呢?因为我们对和逻辑推理能力相关的规律了解得很少,因此逻辑推理能力这个构念对我们来说必然是模糊的。我们不清楚它到底是怎么回事,我们如何能定义它?有的人会说,“逻辑推理能力”这个概念也许根本就是没有根据的捏造,或者说很可能就是个没意义的伪概念,那我们的所有研究岂不是都在浪费时间?非也。首先逻辑推理能力这个概念是基于日常观察而提出的,绝不是无中生有。也许有一天,我们通过研究发现对类似的现象可以有更好的解释,从而导致
“逻辑推理能力”这个概念要被抛弃掉。这种情况完全有可能发生,但是这并不意味着以前的研究都是白费力气。如果没有之前研究的积累,我们怎么可能发现对类似的现象的更好的解释呢?你当然可以说我们在研究这个问题时走了弯路,但是这种后见之明毫无意义。其实在自然科学的发展史上旧概念被淘汰的例子也屡见不鲜,比如
“活力”被“能量”替代,最著名的可能要属“以太”的概念被淘汰。如果一定要先给出概念的明确定义,然后才允许开展与之相关的研究,那么相关的研究就永远不会起步,大家都只能从早到晚坐在办公桌前琢磨定义了。如果我们要跳出闭门造车的尴尬局面,我们就必须接受已有的还不太可靠的法则网络(包括其中模糊的概念),在其基础上开展研究,并通过研究逐步完善它。
前文讨论了评估构念效度的方法论,下面说说评估构念效度的具体方法。
Face Validity
即表面效度,通俗点说就是看面相,看起来像不像那么回事。这个“看”当然最好不是自己看,而是找到特定领域的专家来看。很显然表面效度是很主观的判断,或许有人会怀疑这也能用在研究中吗。那要看研究的目的了。如果你要建立一份标准化的测量工具,光靠表面效度肯定不行。但如果是一位数学教师想大致了解学生的数学能力,他很可能需要编制一份自己的测试卷,因为其它的测试卷未必适合他的学生的实际情况。在这种情况下,找个研究数学能力的专家来帮这位教师看看这份测试卷提提意见,也许是实现构念效度的最佳选择。其它的方法既耗力又费时,也没有太大的必要,而表面效度却可以帮助部分研究者比较便捷地得到有意义的结果,何乐而不为呢?
Content Validity
即内容效度,看测量工具的内容是否能完全地反映相应的领域应当涉及的内容。检查内容效度最好的办法就是使用清单(checklist)。把相应的领域应当涉及的内容列成一个清单,然后对着测量工具里的题目一个个检查过去。如果某个题目能够对应到清单中某个项目,就在那个项目前面打个勾。如果所有的题目都检查完后所有的项目都打了勾,那么内容效度就合格了。
在这个检查的过程中有两个问题值得注意。一个问题是清单怎么来?有两种方法,一是根据标准文献,比如教学大纲等等;还有一个是专家意见。如果使用专家意见的话,最好是同时请教多个专家的看法。当然不同的人意见会不一样,研究者可以根据自己的研究目标权衡一下,至于比较严格的定量方法可以参看
Lawshe (1975)
。还有一个问题就是谁来检查?把测试题对应到清单中的项目也是个主观判断,最好不要让研究者本人来做,因为本人的主观意愿很可能会影响检查结果(过于严格或者过于宽松都是有可能的)。最好是让其他同行来检查,而且是多个人各自独立地检查。如果这两个问题都处理好了,那么内容效度就比较可靠了。
Internal Structure Validity
即内部结构效度,它检查的是测量工具的内在一致性,也就是说测量工具内的各个题目应该是测量的同一个构念。最简单的方法是检查各测试题上的得分和总得分的相关系数,如果样本在某个题目上的得分和(去除该题以外的)总得分的相关系数过低,那么该测试题应当被删除。内部结构效度还有一个层面是针对各分量表的,各分量表上的得分和总得分的相关系数也应当足够的高。另外,理论上来说各分量表相互之间的相关系数不应当太低也不应当太高,应当低于和总得分的相关系数。如果某两个分量表之间的相关系数太高,说明分量表的划分不够清晰。如果分量表之间的相关系数太低,那么说明各分量表不能归于同一个构念之下。
Concurrent Validity & Predictive
Concurrent Validity 一般译为同时效度,Predictive Validity
一般译为预测效度。通常把这两种归类于 Criterion
Validity,即前文所述的校标效度。它们都是把要检验的测量工具的测量结果和一个作为校标的测量工具的测量结果来比照,看相关系数是否足够高。它们的区别是时间上的不同,同时效度的校标和原测量工具是同时施测的,而预测效度的校标是在原测量工具之后施测的。
前文已经说到,校标效度的使用者真正关心的是校标上的结果,因而待检验的测量工具其实是作为校标的替代物出现的。为什么要使用替代物呢?其理由在预测效度这里很明显,校标是作用于将来的,我现在要知道结果就必须使用替代物。比如要知道员工将来的工作业绩,那么企业在招聘时应该使用有较高的预测性的考题;又或者比如要知道学生在将来正式高考时的可能成绩,那么我们需要使用有较高的预测效度的模拟试卷。这两个例子里的招聘考题和模拟试卷都是为了实现预测的目的而必须使用的替代性的测量工具。
那么同时效度为什么也需要那个替代物呢?直接用校标不就行了吗?这里可能有多种原因。可能是因为校标不适宜被广泛使用。我们知道同一种测量工具如果被反复使用就会导致被测者对测量工具的熟悉,这不是我们希望的,因此我们需要一些替代性的测量工具,但是它们必须具有很高的校标效度才行。也可能是施测对象发生了变化。比如一份作为校标的测量工具可能是为成年人制作的,而我们希望对儿童施测,尽管所涉及的构念和年龄基本无关,但是文字表述需要进行调整,我们也要制作替代性的测量工具。也可能是测量方法的原因导致校标在某些场合不适用。比如一份作为校标的测量工具可能是开放式问卷,而在某次研究中我们需要里克特量表式的问卷,这可能是为了节省答题的时间(比如在汽车站向乘客收集数据),也可能为了数据处理的方便(样本很大),总之我们就需要制作替代性的测量工具。需要替代物的可能原因很多,关键在于使用了替代性的测量工具后,我们要证明它和校标有很高的一致性,也就是具有很好的校标效度。
Convergent Validity & Discriminate
Convergent Validity
的译法比较多,有会聚效度、汇聚效度、聚敛效度、聚合效度,意思都差不多,我这里就用会聚效度好了。会聚效度的意思很简单,就是理论上应该相关的构念对同一批对象施测的结果的相关系数应该很高。比如学习态度和学习兴趣、学习动机应该有很高的相关性,那么如果我们要检验一份学习态度测试卷的构念效度可以通过和学习兴趣、学习动机的测试卷的测量结果进行比照,看相关系数是不是很高。
在学习中会产生一个疑问,这里的会聚效度和上面所说的校标效度,特别是其中的同时效度,有什么区别呢?虽然它们都是检查原测量工具和其他测量工具的一致性,但是在会聚效度这里各测量工具的地位是平等的,不存在谁向谁看齐的问题;而校标效度那里是有个校标存在的,原测量工具必须向校标看齐。另外,会聚效度中涉及的测量工具一般都是测量不同的构念,而校标效度中就不一定了。
Discriminate Validity
的译法有区分效度和判别效度,前者比较容易和“区分度”相混淆,我这里采用后一种。判别效度的意思和会聚效度类似,就是理论上应该不相关的构念对同一批对象施测的结果的相关系数应该很低。比如从理论上来说学习态度和学习能力不应该具有太高的相关性,如果一份学习态度测试卷和学习能力测试卷的测量结果的相关系数太高的话,那么其构念效度就有问题了。这里要特别注意“不相关”不是“负相关”。
会聚效度和判别效度存在一个缺陷,就是不知道相关系数太高或太低的判断标准到底在哪里。学习态度和学习兴趣的测量结果的相关系数要多少才是足够高呢?0.5还是0.6还是0.7?学习态度和学习能力的测量结果的相关系数要多少才是足够低呢?0.5还是0.4还是0.3?这些都没有可靠的定量标准。但是,如果我们把两者结合到一起,我们就容易判断了。我不知道学习态度和学习兴趣的测量结果的相关系数要多少才是足够高,也不知道学习态度和学习能力的测量结果的相关系数要多少才是足够低,但是我知道学习态度和学习兴趣的测量结果的相关系数应该高于学习态度和学习能力的测量结果的相关系数,这就是一个相当可靠的评判依据了。因此会聚效度和判别效度时通常应该结合使用,下面的MMTM就是对两者结合使用的一个扩充。
Multitrait-Multimethod Matrix
Campbell & Fiske (1959)
在法则网络的基础上提出了一种具体的构念效度的实现方法:Multitrait-Multimethod
Matrix,简写为MMTM。其大意就是把一个构念,抑或称为特质(trait),和应该相关或应该不相关的其他特质放到一起,比如数学知识、数学能力、语文阅读能力,这叫Multitrait;然后各分别用至少三种方法加以测量,比如问卷、访谈、观察,这叫Multimethod;最后计算所有的结果的相关系数,排成矩阵。如果是3个变量各3个测量方法的话,那就是9套测量结果,得到共36个相关系数组成的矩阵。显然理论上来说,每个特质自己的3种测量方法得到的相关系数应该最高,然后相关的特质的测量结果之间的相关系数要比较高,而不相关的特质的测量结果之间的相关系数应比较低。
MMTM得到的不是一个定量结果而是一个矩阵,这个矩阵的解读也比较复杂,这导致它不容易被研究者接受。更重要的是,这个MMTM其实是很理想化的东西,要得到9套测量结果所需的工作量不是一般的研究能够承受的。因此实际上很少有研究真正使用完整版的MMTM。于是有人搞出了MMTM的精简版,就是去掉了
Multimethod,只搞Multitrait。但是这样一来就不是MMTM了,就成了普通的会聚效度和判别效度了。
Pattern Matching
Trochim () 提出了一种新的方法:Pattern
Matching,可译为模式匹配。我感觉这个想法很不错,但是估计实践中也不太容易普及。写不动了。感兴趣的话可以看看,Trochim
& Donnelly (2006, pp.86-88) 中有简介。
直接证据和间接证据
上文罗列了构念效度的七种检验办法。我把它们划分为两类,其中前三种是直接证据,后四种是间接证据。所谓直接证据就是对构念的操作化的直接检查,也就是前文说的单刀直入;所谓间接证据就是通过和其它测量工具的比照来检查,也就是前文说的旁敲侧击。
间接证据和直接证据最大的区别就是,间接证据并不能自动证明测量工具所测的就是我们所想要测的构念。以会聚效度为例,一份测试卷和学习兴趣、学习动机的测试卷的测量结果高度相关,这并不能证明那份试卷就是学习态度的测试卷。即便研究者再加上其它应该相关的构念的测量结果进行检验并得到阳性结果,比如学习成绩等,仍然无法证明原来的那份试卷就是学习态度的测试卷。那么间接证据有什么用呢?首先,如果得到了阴性结果,可以直接得到对于构念效度的否定判断。一份学习态度的测试卷如果和学习兴趣、学习动机的测试卷的测量结果相关度很低,那么这份测试卷肯定是有问题的。另外,如果得到了阳性结果,虽然不能直接得到对于构念效度的肯定判断,但是可以用于支持对于构念效度的肯定判断。这是什么意思?一份测试卷和学习兴趣、学习动机的测试卷的测量结果高度相关,这并不能证明那份试卷就是学习态度的测试卷,但是这在一定程度上增加了那份试卷是学习态度测试卷这一结论的说服力。如果又得到和学习成绩的测量结果的高度相关,那么说服力又增加了。如果又得到和学习习惯的高度相关,那么说服力再次增加了。可见,虽然间接证据不能直接得到结论,但是我们可以通过积累间接证据不断地加强我们结论的说服力。
在实践中间接证据的使用并不容易,它需要研究者投入更多的时间和精力,这通常很难达成。因为绝大多数研究者并不是专门从事测量工具的开发,测量工具的编制往往只是整个研究项目的一部分,而且不是最重要的一部分,因此很难要求普通的研究者在测量工具上投入太多的时间和精力。但是从理论上来说,间接证据的使用却又是必须的,因为构念的确立必须放在法则网络里来实现,这一点前文已经解释过了。
实践中的原则应该是,首先尽可能把直接证据处理好,然后如果有可能的话再来收集间接证据。能做到什么程度,那就要看研究本身的需要、以及能够提供的资源(时间、财物、人力)了。如果某个研究者只能做到表面效度,那也没有办法,如果他已经尽力了的话。但是作为研究者来说,必须知道构念效度的重要性。总而言之,要在基于对构念效度的充分理解及其重要性的充分认识的基础上尽力而为。
上面说了先尽可能把直接证据处理好再来收集间接证据,并不是说一定要直接证据处理好了才能去收集间接证据。事实上,有的时候直接证据的收集会比间接证据要困难,这时候就需要灵活机动了。最明显的就是内容效度的使用是有相当局限的。它有个前提,那就是相应领域的具体内容要有比较详细的描述,只有这样才能产生那个内容清单。比如数学单元知识检测,一般来说这种内容清单是很容易得到的。可是对于某些构念来说,比如逻辑推理能力、学习兴趣、自信程度等等,就不容易得到详细的内容清单。在没有清单的情况下就不能进行内容效度的检查。这种时候我们就不能把自己卡在那个位置,而是要绕道而走,去收集间接证据了。
打个岔,说个好玩的。构念效度本身也是一个构念,是吧?因此构念效度的检查也存在一个构念效度的问题,对不?也就是说,我们怎么保证检查出了测量工具的构念效度呢?如果“构念效度的检查”本身不具备充分的构念效度,它怎么能检查出测量工具的构念效度呢?问题是,即便我们建立了“构念效度的检查”的构念效度,我们是不是还得面对“检查‘构念效度的检查’的构念效度”的构念效度呢?……
参考文献:
APA. (1954). Technical recommendations for psychological tests
and diagnostic techniques. Psychological Bulletin Supplement, 51,
2, Part 2, 1-38. ※
Campbell, D. T., & Fiske, D. W. (1959).
Convergent and discriminant validation by the
multitrait-multimethod matrix. Psychological Bulletin, 56(2),
81-105. ※
Cronbach, L. J., & Meehl, P. E. (1955).
Construct validity in psychological tests. Psychological Bulletin,
52(4), 281-302. ※
Domino, G., & Domino, M. L. (2006).
Psychological Testing: An Introduction. Cambridge University
Goodwin, L. D. (2002). Changing Conceptions of Measurement
Validity: An Update on the New Standards. Journal of Nursing
Education, 41(3). ※
Lawshe., C. H. (1975). A quantitative approach to content
validity. Personnel Psychology, 28(4), 563-575. ※
Trochim, W. M. K. (1985). Pattern Matching, Validity, and
Conceptualization in Program Evaluation. Evaluation Review, 9(5),
575-604. ※
Trochim, W. M. K. (1989). Outcome pattern matching and program
theory. Evaluation and Program Planning, 12(4), 355-366. ※
Trochim, W. M. K., & Donnelly, J. P. (2006).
Research methods knowledge base. Cincinnati, OH: Atomic Dog
Publishing. ※
[说明:本文非博主所写,而是转载,但现在回头,找不到出处了。另外,文章的内容有些说法可能并不一定正确,希望阅读者自行鉴别。]
已投稿到:
以上网友发言只代表其个人观点,不代表新浪网的观点或立场。}

我要回帖

更多关于 rayleigh criterion 的文章

更多推荐

版权声明:文章内容来源于网络,版权归原作者所有,如有侵权请点击这里与我们联系,我们将及时删除。

点击添加站长微信