| 小学 | 中考 | 高考 | 自考 | 成教 | 考研 | 外语考试 | 资格考试 | 英语教学 | 学生习作 | 论文写作 | 信息服务 | 下载中心 | 知心港湾
| 英语 | 语文 | 英语 | 动态 | 成考 | 英语 | 职称外语 | 教师资格 | 大学英语 | 写作指南 | 本科论文 | 招聘就业 | 听力 MP3 | 网络精品
 当前位置:网站首页 > 论文写作 > 论文资源 > 浏览正文
【外语教学】Rasch模型下自我评估量表的效度探析
www.hrexam.com   更新时间:2017-06-20 点击: 【字体: 】 加入收藏 关闭本页
原创  当代外语研究
摘要:本研究采用Rasch测量理论中的评分量表模型探析一项自我评估量表的效度。根据解释性效度论据理论,本研究提出量表效度的四个关键性理据,并采用Rasch分析检查这四个效度理据的准确性与合理性。本研究中,我们采用一系列Rasch分析方法,包括信度分析、描述语与模型的拟合度分析、因子分析与试题差异分析等。同时,我们还研究了Rasch模型下被试的自评能力测量值与他们的客观水平测试成绩之间的相关性。研究结果表明,量表的信度良好,基本为单一的能力维度结构,量表的类别设置也比较合理。被试的自评能力值与客观水平测试成绩之间显著相关。本研究的分析结果为四个效度理据提供了重要支撑,本研究所采用的效度研究方法也为量表的效度研究提供了重要参考。
 
  1. 引言
 
  近些年,随着以学习者为中心的教学理论在语言教学领域得到广泛接受,二语学习者对于语言能力的自我评估得到越来越广泛的应用。Oscarson 认为,从学习者的角度而言,二语能力的评估可分为两种基本类型,一是以自我报告或自我评估方式进行的测试,这种测试以学习者为中心,是内在的活动;二是以考试方式进行的测试,这种测试以教师或考官为中心,是外在的活动。从哲学基础上来说,自我评估属于“另类评估范式”(alternative paradigm)。在该评估范式中,教师与学习者共同分享评估的所有权,而且评估的目的也往往是为了促进学生的学习。与考试等外部评估方式相比,自我评估有许多显而易见的优势,如促进学生学习、提高学生的自我意识程度、促使学生明确学习目的、扩大测试范围、减轻教师负担以及有利于学生课后的自主学习等。
  尽管自我评估的益处很多,但是其在测量的信度和构念效度方面存在一定的不确定性。目前已有的研究表明,如果自我评估量表设计合理,而且经过严格的效度检验,那么其在二语教学与测试中仍具有广阔的应用空间。本研究的主要目的是应用Rasch测量理论探讨一项自我评估量表的效度。基于目前很少有研究将Rasch测量理论应用到自评量表的效度研究中,因此本研究可以为将来类似的研究提供参考。
 
  2. 文献回顾
 
  2.1自我评估的效度研究
  目前,大部分针对自我评估的效度研究均围绕自评与外部语言能力评估(如教师评估)之间的关系展开。Ross 采用元分析的方法研究了学生在听、说、读、写四项技能上自我评估与外部评估之间的相关性,结果表明自我评估与外部评估之间相关性显著,从而为自评的有效性提供了重要支撑。但是,该研究也同时表明,自我评估有其独特的测量误差。这些测量误差主要源于评分量表中的描述语特征、被试的个人特征与描述语所涉及的语言技能等。例如,研究发现相对于否定形式的描述语,被试更容易接受“能做”形式的描述语(“我能够用英语撰写电子邮件”);而且相对于产出性的语言技能(写作与口语),被试对于接受性的语言技能(听力与阅读)的自我评估与外部评估之间的相关性更高。
  有些研究人员还探讨了被试的个人特征对于自评结果的影响。如刘建达研究了不同水平组的学生在评估自己英语写作能力方面的差异。研究结果表明,低水平组学生往往过高地估计自己或同学的写作能力,而高水平组学生的自我评估和教师评估比较接近,能够比较准确地评估自己的写作水平。孙鑫和李秋菊也研究了不同水平组的学生对自己英语写作能力的评估。研究结果与刘建达基本相似。除了探讨语言水平对于自我评估的影响之外,Butler 和Lee在研究中还发现,如果被试经历过量表中所描述的语言任务,那么被试自评的准确性会显著提高。该研究结果印证了Pierce等人的发现,认为自我评估量表设计得越详细,被试的自评结果就越准确。Ross  基于其对多项自我评估研究进行元分析后认为,“只要自评估量表满足内容效度方面的要求,那么显而易见自我评估对于相关语言技能的预测是比较准确的”。Powers和Powers 也赞同这一观点,认为尽管我们不能无条件地接受自我评估的结果,但是只要自评量表的设计科学合理,那么自评结果可以作为客观水平考试效度研究中较为合理的能力参照。
目前大部分自评量表的效度研究均围绕自评与外部评估之间的相关性展开,但是很多研究人员指出相关性分析结果很难解释,而且仅基于相关分析的效度证据比较单薄。从研究方法上来说,目前自评量表的效度研究基本均采用真分理论进行数据分析(刘建达 2002;楼荷英 2005;孙鑫、李秋菊 2015),而少有研究采用隐性特质理论(latent trait theory)如Rasch模型分析相关的研究数据。因此,本研究的主要目的是采用Rasch测量理论探讨自我评估量表的效度问题。
 
  2.2Rasch模型与量表效度研究
  Rasch模型是项目反应模型的一种。它认为被试在试题上正确作答的成功概率取决于被试的能力与试题的难度。Rasch模型可以将被试的能力与试题的难度参数化,从而计算出被试的能力值与试题的难度值,并将其放置在同一个等距量表即洛基量尺(logit scale)上进行比较。被试答对试题的概率取决于被试能力值与试题难度值之间的差异。Rasch的基本模型仅包括被试能力和试题难度两个参数。基于Rasch的基本模型,研究人员对其进行进一步拓展,在基本模型中添加参数,从而形成Rasch评分量表模型、Rasch部分得分模型和多层面Rasch模型等,从而极大拓宽了Rasch模型的应用范围。在本研究中,我们采用Rasch评分量表模型探讨自评量表的效度问题。
  在自评量表效度研究方面,Rasch模型具有以下独特优势:(1)Rasch模型可以计算出被试在潜在构念上的能力值与试题的难度值。研究人员可以根据Rasch模型的计算结果与量表设计时的理论假设进行对比。同时,由于Rasch模型将被试能力和试题难度放置于同一个洛基量尺上进行比较,因此研究人员也可以观察被试与试题之间的对应情况。(2) Rasch模型可以通过拟合度分析检验被试对于试题的作答情况与模型的预期是否相符。在Rasch分析中,评估数据和模型的拟合程度通常采用两个指标,即加权的均方拟合统计量(information-weighted mean square fit statistic,简称为Infit MnSq)和未加权的均方拟合统计量(unweighted mean square fit statistic,或简称为Outfit MnSq),理想值均为1。Infit和Outfit MnSq值越接近1,说明数据与Rasch模型的拟合越理想。在本研究中,我们采用Linacre (2013)的标准,认为如果Infit和Outfit MnSq值在0.5~1.5之间说明数据和模型拟合较好。(3)Rasch模型还可以分析数据的残差中是否存在可解释的维度。如果残差中存在可解释的维度,那么说明量表并非测量单一的能力构念,从而说明量表的构念效度存在问题。(4)基于Rasch模型的分析结果,研究人员还可以进行试题差异分析(Differential Item Functioning,简称DIF)。DIF分析的主要目的是探讨能力相同的被试组别(如男女生)在每一道试题上答对的概率是否相同。如果研究发现试题存在DIF效应,那么量表的效度也存在问题。正是由于Rasch模型在测量方面的独特优势,因此我们将其应用到自评量表的效度研究中。
 
  3. 本研究
 
  本研究的主要目的是采用Rasch评分量表模型探讨一项自评量表的效度。该自评量表的开发基于某研究型大学本科英语教学大纲中的教学目标与要求,其主要目的是为学生评估自己的英语水平和学习情况时提供参考。与标准化的语言考试相比,采用学生自评的方法显然极大简化了评估的过程。同时,采用自评量表也可以加强学生自主学习能力的培养,并为学生的学习提供诊断性的信息,从而促进学生的英语学习。自评量表的开发主要遵循以下原则:(1)量表中的描述语全部采用“能做”的形式;(2)量表分为听、说、读、写四个部分,主要体现被试的综合语言使用能力;(3)量表中的描述语尽可能采用被试有可能接触到的语言活动;(4)量表中的描述语所包含的语言活动难度有所差异(Ross 1998)。同时,量表的开发也参考了欧洲语言能力共同框架和DIALANG的自评量表。量表采用了五点李克特量表的形式(1-非常不同意;2-比较不同意;3-既不同意也不反对;4-比较同意;5-非常同意)。量表设计完成以后,我们组织了相关教师和专家对量表中描述语反复讨论,最终确定采用32条描述语。同时,我们也邀请学生对描述语内容进行评价,并在此基础上对量表进行再次修订。
  本研究采用基于解释性的效度理论框架。这一效度研究模式建立在哲学家Toulmin所提出的实用论证模型的基础之上。其基本思想是测试的效度论证过程需建立一系列的推断链条,如从对学生语言使用的观测推断其观测分数(observed score),从观测分数推断其期望分数(expected score),再从期望分数推断其目标分数(target score)等。在建立每一个推断链条时,研究人员需仔细检查所收集到的证据与该推断链条之间的相关性与准确性以确保该推断的可信度与合理性。解释性效度论据中的推断主要靠理据(warrant)支撑,指的是“可用来证明推断合理性的一些通用原则或规律”;同时,解释性的效度论据中也包括反驳(rebuttal),即“一些证据或者例证可以削弱或拒绝理据所支持的推断”。根据这一效度理论观点,本研究中共提出四个关键性理据。理据一:自评量表所测量的能力为被试的语言能力而不包含其他能力构念;理据二:自评量表能够有效地将不同语言能力水平的被试区别开来;理据三:被试对自评量表中各类别的使用比较合理;理据四:被试的自评结果与外部评估结果显著相关。基于以上四个理据,相关的反驳为:(1)自评量表除了测量语言能力之外还测量了其他构念,导致与构念无关的差异;(2)自评量表无法有效地区分被试的能力水平;(3)自评量表中的类别设置不合理;(4)自评结果与外部评估之间没有相关性或相关性很弱。这些反驳会在不同程度上削弱自评量表的效度。
 
  4. 研究设计
 
  4.1被试
  本研究的被试为249名来自某研究型大学的本科生,其中包括89名男生(35.7%)和160名女生(64.3%)。被试的年龄从17-24岁(M=20;SD=1.17)。在249名被试中,70人(28.1%)来自于人文或社科背景,92人(36.9%)来自于理工科背景,33人(13.3%)来自于商科背景,其他54人(21.7%)来自于医科背景。 
  4.2数据收集
  由于客观条件的限制,本研究没有采用严格的分层采样方法,而是采用了随机方便采样方法(Creswell 2013)。我们主要通过邀请英语教师在课堂上发放自评量表。学生填写完成后由教师回收。本研究中,我们共发放量表280份,确定有效的回收量表249份,有效应答率为88.9%。所有被试在完成量表后的一周参加了一项英语水平测试。该水平测试已连续实施五年,历经多次效度验证。相关研究结果表明,考试的信度、效度均比较理想(范劲松等 2014;范劲松、季佩英 2015)。考试评分完成后,我们将被试的考试成绩作为研究变量输入自评的数据库。
  4.3数据分析
  本研究采用Rasch测量理论中的评分量表模型分析相关数据。该模型的数学原理如下:
  log (Pnij/Pni(j-1)) = Bn - Di - Fj
  其中,Pnij 和Pni(j-1)分别表示第n个能力为Bn的被试在回答难度为Di的第i道题上选择j类别和j-1类别的概率。Fj表示阈值的校正值。在评分量表中,该阈值在所有的试题上保持相同。
  为了探析自评量表的效度,我们首先分析了量表中各描述语与Rasch模型的拟合情况;其次,我们分析了量表中各类别的有效性;再次,我们采用Rasch因子分析和DIF分析进一步探讨量表的单维性问题;最后,我们研究了被试的Rasch自评能力估计值与其水平测试成绩之间的相关性。本研究的数据分析采用Winsteps 3.91.0 和IBM SPSS 21.0 软件。
 
  5. 结果与讨论
 
  5.1变量图
  Rasch分析的变量图请见图1。在该图中,“M”代表被试能力与试题难度的均值,“S”代表距离均值一个标准差,“T”代表距离均值两个标准差。变量图左侧显示的是按照被试对于描述语的作答情况进行排列的结果,每个“#”代表两名被试,每个“.”代表一名被试。被试在图中的位置越靠上代表被试对于描述语的同意程度越高,即代表着被试自评的语言能力越强。反之,越靠近图的下方,被试对于描述语的同意程度越低,被试的语言能力越弱。变量图的右侧代表量表中的描述语。描述语越靠近图的上方,表明该描述语的难度越大;反之,越靠近图的下方,说明该描述语难度越小。从图1可以看出,难度最高的描述语分别为S5、S6和W3。这三条描述语均属于产出性的语言能力,而且均与学术英语能力有关,如S6为“我能够使用英语就自己专业领域内的话题与他人展开讨论”、W3为“我能够用英语撰写与自己领域相关的研究论文或报告”;难度最低的描述语为L1和W1。其中L1为“我能够听懂简短的日常英语对话”,W1为“我能够用英语撰写简短的电子邮件”,这两条描述语涉及的语言能力较低。整体而言,Rasch的分析结果基本符合我们的预期。
  图1同时显示,被试与描述语之间的对应情况总体较好,但是被试的能力估计均值在描述语的难度均值略下方,这说明相对于被试能力而言描述语的难度稍微偏低。而且,从被试与描述语在图中的分布情况看,处于图上方的被试缺少对应的描述语,而位于难度估计值均值部分的描述语太多,这说明量表在将来的修订过程中需增加一些难度偏高的描述语,同时减少一些中等难度的描述语,以进一步提高量表的效度。
 
  5.2信度与分隔系数
 
  在Rasch分析中,试题的信度高说明试卷中试题的分布由易到难,既有难度较高的试题,也有难度偏低的试题;被试的信度高说明被试能力的分布由低到高,既有能力高的被试,也有能力低的被试。一般而言,试题与被试的信度系数应该>0.8,表明试卷质量良好。除了信度系数以外,Rasch分析还提供试题与被试的分隔系数,表示试题与被试的测量值在潜在构念上分布的精确性。一般而言,分隔系数应该>2,表明量表质量良好(Linacre 2013)。本研究中描述语与被试的信度与分隔系数统计值请参见表1。表1中的数据表明,描述语与被试信度估计值分别为0.99和0.96,超过0.8的标准;分隔系数分别为10.5和5.2,这表明量表中的描述语大概可分为十个不同的难度等级,而被试的能力大概可以分为五个能力等级。由于本研究中采用了五点李克特量表,而被试的能力可分为五个等级,因此分析结果在一定程度上说明了五点量表比较合理。以上分析结果表明,自评量表的信度比较理想,描述语包括不同的难度级别,可以有效地将不同水平的被试区别开来。
 
  5.3描述语分析
 
  量表中各描述语的Rasch分析结果请参见表2,包括描述语的难度估计值、加权均方拟合统计量(Infit MnSq)、未加权均方拟合统计量(Outfit MnSq)、标准化的Z值以及点值相关系数。根据Linacre (2013)的建议,我们首先检查点值相关系数。如果该系数为负值,那么说明该描述语所测量的能力与量表所测量的潜在构念表现趋势相反,因此需将其修改或剔除。在本研究中,点值相关系数为0.58-0.78(见表2),这说明量表中的所有描述语在所测量的潜在构念上的变化趋势相同,该发现也为量表的单一维度性提供了重要证据。
  其次,我们检查了各描述语的Infit和Outfit MnSq值。表2的数据表明,只有一条描述语(R3)的Infit和Outfit MnSq值不在参考值的区间内。该描述语为“我能够阅读专业书籍或研究论文”。由于本研究的被试均为本科生,可能缺乏用英语阅读专业书籍与论文的经验,因此也难以准确评估自己的能力。总体而言,量表中的各描述语基本符合Rasch模型的预期。Bond和Fox认为,如果量表中的项目与模型拟合比较理想,那么也从侧面说明了量表的单维性特征。
 
  5.4量表类别分析
 
  量表类别分析的主要目的是检查被试是否合理地使用了量表的各个类别以及量表的类别设计是否给测量带来噪音(Linacre 2013)。在本研究中,我们采用了Linacre (2002)的标准。该标准认为在检查量表类别时,若满足以下五个特征,说明量表的类别设置较好:(1)被试选择每个类别的频率应>10%;(2)各类别的测量值应从低阶到高阶呈单向递增的状态;(3)Outfit MnSq值应<2;(4)相邻类别之间的距离应在1.4~5 logits之间;(5)各类别的概率曲线图应呈现独立的尖顶。
  本研究的类别分析数据请参见表3。表3的数据表明,被试选择各类别的频数均>10%;各类别的测量值由低到高呈单向递增的状态,说明低类别代表低能力,高类别代表高能力;Outfit MnSq均<2,接近理想值1,说明类别没有给测量带来噪音;相邻类别之间的距离在1.4~5 logits之间,说明每个类别在潜在构念上都很清晰。各类别的概率分布图请参见图2。该图表明,各类别均有明显的尖顶。以上分析结果说明采用五点李克特量表比较合适,量表的类别设置没有影响到测量的效度。
 
  5.5Rasch因子分析
 
  Rasch因子分析和普通的因子分析步骤相似,其基本原理是对Rasch模型分析过的数据残差进行主成分分析,检查其中是否存在另一个维度。如果发现数据残差中存在有意义的其他维度,那么说明量表并非单一维度结构,从而影响到量表的构念效度(Bond & Fox 2015)。Linacre (2013)建议如果Rasch测量的维度对数据差异的解释≥50%,那么说明该量表是单维的;反之,如果残差中发现的因子有意义,而且解释了数据很大的差异,那么有可能该量表为多维度。Linacre进一步指出,如果残差中发现的第一个因子特征值<3,而且解释的差异<5%,那么说明量表是单维的。在本研究中,Rasch维度解释了数据48%的差异,接近Linacre(2013)所提出的50%标准;残差中第一个因子的特征值为3.8,解释了数据差异的4.8%,也基本符合Linacre的标准。Rasch因子分析的结果请参见图3。该图显示,A、B和C(分别对应量表中的W6、W7和R5)表现出最大的因子负荷(>0.5)。但是我们在仔细检查了这三条描述语的内容后发现,它们并不能组合形成一个有解释意义的因子维度。鉴于Rasch维度解释了高达48%的差异,我们认为量表基本为单一维度。
 
  5.6DIF分析
 
  测量不变性(measurement invariance)是测量中需遵守的重要原则,不仅关系到测量的稳定性,也是量表效度的重要证据之一(Engelhard 2013)。这一原则要求试题的难度对于不同的被试群体应保持一致。研究量表的不变性主要通过DIF分析。在本研究中,我们按照性别将被试分为男、女两个群体,并分别计算量表中各描述语在这两个被试群体上的难度值,计算结果请参见图4。该图显示,有些描述语的难度测量值在这两个被试群体上有所差异。但是DIF是否存在应取决于DIF差异值(DIF contrast)。Linacre (2013)认为,如果差异值>0.5 logits,那么说明DIF可能比较明显。此外,t检验也能够帮助研究人员确定试题是否存在DIF。如果t检验的结果表明差异显著,那么可能存在DIF。在本研究中,仅有一条描述语(R3)在男女生群体上的DIF差异>0.5 logits (DIF contrast = 0.82),而且t检验的结果表明差异显著(t = 4.52, df = 204, p < 0.05)。图4显示,该描述语对于女生的难度显著高于男生。值得一提的是,该描述语与模型的拟合也不理想。如前文所述,原因可能跟该描述语的内容及被试缺乏该语言活动的经验相关。除了R3以外,其他所有的描述语在男女两个被试群体上均没有出现明显的DIF。以上的分析结果为量表的测量不变性提供了重要证据,也进一步证实了量表的效度。
 
  5.7相关分析
 
  为了进一步探析自评量表的效度,我们将经Rasch分析后得出的被试自评能力测量值与他们在英语水平测试中的成绩进行相关分析,计算Pearson相关系数。相关分析结果表明,经Rasch分析后的被试自评能力测量值与被试在水平测试的听、说、读、写四个部分成绩均显著相关(p<0.01)。Pearson的相关系数r为0.23-0.42;被试的自评能力测量值与水平测试总分之间也显著相关(p<0.01),相关系数r为0.40。这些相关分析结果和已有的研究基本吻合,表明被试的自评结果与外部评估之间存在着显著的相关性,被试的自评结果具有较好的预测效度。
 
  6. 结论
 
  本研究采用了Rasch评分量表模型探析一项自我评估量表的效度。本研究的独特之处是采用解释性效度论据框架,针对量表的效度提出四个重要的理据,然后采用Rasch测量理论分析自评数据以判断四个理据的准确性与合理性。对描述语的一系列Rasch分析(包括拟合度检验、因子分析和DIF分析)的结果表明,该量表为单维结构,分析结果支持了理据一;Rasch的分析结果同时表明,量表的信度比较理想,描述语的难度与被试的能力分布都较为合适,而且量表能够有效地将不同水平的被试区分开来,从而支持了理据二;对量表类别的有效性进行分析的结果表明,五点李克特量表结构比较合理,量表设计不影响测量效度,从而支持了理据三;最后,我们将被试的自评能力测量值与其在水平考试上的成绩进行相关分析,发现两者之间存在显著的关联性,从而支持了理据四。由于本研究所提出的四个效度理据均得到支持,因此我们认为量表的效度比较理想。尽管如此,考虑到自评结果容易受到一些变量的影响,因此我们同意Ross (1998)的观点,即自评最好还是用于做一些低风险的决定(如学生分级)更为合适。
本研究存在以下不足之处:(1)本研究没有采用严格分层采样的方法,因此需谨慎解释研究结果;(2)本研究尽管对自评量表的效度进行了多角度的探析,但是仍需要收集更多的效度证据,尤其是量表的预测效度;(3)已有的研究表明,被试的特征(如被试的语言能力水平、学习动机等)往往会对自评结果产生影响,导致自评结果的不确定性。但是,在本研究中我们并没有将这些变量包括进来。在将来的研究中,我们可以进一步探析这些变量对自评量表的效度可能带来的影响。
 
编者注:本文节选自《当代外语研究》2016年第2期。
 
热点推荐
温家宝2012政府工作报告摘要(英汉对照)
“微心理”你懂多少?
制胜必看:职场女性应该具备的五种魅力
《CCTV经济生活大调查》数据大揭秘
国家公务员面试考生备考时必做三件事
2010年新年感恩与祝福FLASH祝贺新年快乐!
大中华区总裁孙振耀退休感言
全国校园网主页汇总
大一新生英语学习规划书
我们这个时代的尴尬(中英对照)
新概念英语第四册文本及MP3下载
新概念英语第三册文本及mp3下载
新概念英语第二册文本及听力下载
新概念英语第一册文本及听力下载
自信是怎样炼成的
最近更新
福布斯全球10大高薪作家:JK罗琳居首,《
2017年普通高校招生文史、理工类本科二批
文史类理工类高职(专科)批志愿8月5日起
雅思口语高分地道表达
备考干货 | 雅思写作必备词汇100发
2017年国家社科基金中华学术外译项目申报
九月全国中小学语文教材大换血,老师家长
建军90周年大会,习近平这些话掷地有声(
2017年专升本各类别最低录取控制分数线及
2017年专升本各类别最低录取控制分数线及
一周热词榜(英汉对照 7.22-28)
2017年度国家社科基金重大项目招标选题(
中外教育专家30句教育箴言,读懂这些 何愁
你认为自己情商高吗?来看看这12种高情商
【荐读】不管关系多好,朋友之间都要注意
内容导航 | 邮箱系统 | 我要留言 | 广告合作 | 与我联系 | 站长信息 | 常见问题 | 关于本站 | 本站旧版
Copyright © 2002 - 2009 hrexam.com. All Rights Reserved