国家社会科学基金重点项目《课题论证》活页分享

原创辜向东　来源：人生GU事

　　2016年10月24日至2016年12月17日我应26所高校、出版社、地区教委和民间学术团体邀请做了32场讲座、沙龙、座谈和漫谈。对我来说也算是一次成功“挑战不可能”！这个过程中的酸甜苦辣后续会有感悟文章分享。我一般接受邀请时会向邀请单位提供一份讲座目录清单供选择。令我没有预计到的是19个单位的19场讲座选择了与国家社科基金项目申报有关的题目。

鉴于2017年度国家社科基金项目申报已经启动，本人乐意将2014年自己领衔申报并获准立项的国家社科基金重点项目“基于证据的四六级、雅思、托福考试效度对比研究”《课题论证》活页与朋友们分享，也不介意大家转发给更多的朋友分享（抱歉微信中格式有些变动）。需要特别说明的是：这份国家社科基金重点项目论证书只能是一份参考，不能作为模仿的模板，因为国家社科基金项目申报有很多新的变化，比如我们当时的论证书要求总词数不得超过4000，而且整个论证书长度不得超过四页A4纸页面，而现在的论证书要求的长度是7000词。因此请各位务必认真研读2017年度国家社会科学基金项目申报公告并严格按照相关要求申请。预祝大家圣诞快乐！新年心想事成！天天进步开心！

　　国家社会科学基金项目《课题论证》活页

　　课题名称：基于证据的四六级、雅思、托福考试效度对比研究

　　1．本课题国内外研究现状述评，选题的价值和意义。2．本课题研究的主要内容、基本观点、研究思路、研究方法、创新之处。3．前期相关研究成果，开展本课题研究的主要参考文献。限4000字以内。

　　1.1 本课题国内外研究现状述评

　　·效度理论

　　效度（validity）是测试评价中最重要的考虑因素（APA/AERA/NCME 1985）。较早的效度定义为“一项测试是否测量了它所要测量的东西”（Kelly 1927:14）。自20世纪60年代以来，语言测试与评价的研究一直围绕效度展开（Kunnan 1998），效度理论取得了从“分类效度观”到“整体效度观”的重大发展。分类效度观（Lado 1961）认为效度可分为效标关联效度、内容效度、构念效度等多种类型（APA/AERA/NCME 1966, 1974）。其验证操作性强，但比较零散，且未考虑收集分数使用等方面的证据。整体效度观给出了具有突破意义的效度定义，即“对经验证据和理论依据在多大程度上支持分数的解释与使用进行的综合评价就是效度”（Messick 1989:13）。这种“一元多维”的效度观确定了构念的核心地位（Alderson & Banerjee 2001），明确了效度验证的对象是测试结果的解释和使用（Davies 2003）。

　　·效度验证模式

　　整体效度观给语言测试的开发与研究带来了重大变革，但该理论高度概括、过于抽象，使效度验证缺乏可操作性。近年来更多的语言测试学家根据该理论提出了一些具体的效度验证框架：（1）“交际语言能力模型”和“测试方法层面框架”（Bachman 1990）为效度验证开启了新视角，Bachman et al.（1995）运用该框架，对CPE、FCE、TOEFL三项考试所考查的能力和测试任务特征做了分析，并对框架进行了完善。（2）“测试有用性框架”（Bachman & Palmer 1996）涵盖信度、构念效度、真实性、交互性、考试影响和可行性六个质量属性，进一步阐释了Messick的效度理论。该框架可操作性强，但质量属性之间的关联不甚明确（韩宝成、罗凯洲 2013）。（3）“基于论证的效验模式”（Kane 1992）与整体效度观一脉相承，包括两个步骤：提出效验观点、收集有关证据。Chapelle et al.（2008）运用该模式论证了TOEFL iBT的效度。（4）“测试使用论证框架”（Bachman 2003）发展了Kane的效度论证观。该框架遵循“事实à主张”的推理机制，包含构建与评价两个过程（Bachman & Palmer 2010）。不过其架构（后果、决策、解释、测试记录）比较抽象，能否成为指导测试开发与使用的新范式有待检验。（5）“基于证据的效验框架”（Weir 2005）从社会认知视角出发，涵盖五个方面的效验证据：基于理论的效度、环境效度、评分效度、效标关联效度和后果效度，可操作性较强，并在剑桥主体证书考试（KET、PET、FCE、CAE、CPE）的效度对比研究中得到丰富和完善，将基于理论的效度更名为认知效度，“受试特征”也成为效验证据很重要的方面（Shaw & Weir 2007；Khalifa & Weir 2009；Taylor 2011；Geranpayeh & Taylor 2013）。

　　目前关于效度理论和验证模式的研究主要集中在国外，国内类似的研究还处于起步阶段，主要是对国外相关领域的发展进行引介和评述（李清华 2006；韩宝成、罗凯洲 2013）。

　　·三项考试的研究及存在的不足

　　本研究所涉及的大学英语四六级（以下简称四六级）、雅思、托福是全球极具代表性的语言考试。三项考试规模大、风险高、影响广，相关研究比较丰富，主要涵盖以下方面（括号中的文献仅为部分举例）：（1）四六级的整体效度研究（杨惠中 & Weir 1998；Jin & Yang 2006）、各单项技能及题型研究（金艳、吴江1997, 1998；He & Dai 2006）、评分与网考研究（朱正才2005；王跃武等2006；金艳2012）、反拨效应及考试影响研究（Chen 2007；辜向东 2007, 2013）。（2）雅思的开发及效度验证（Clapham 1996；Davies 2008；Taylor & Weir 2012）、考官与评分（Furneaux & Rignall 2007；Huang 2013）、反拨效应及考试影响（Roger 2006；Saville 2014）。（3）托福的效度论证（Chapelle et al. 2008；Stricker & Attali 2010；Biber & Gray 2013）、网考设计（Roever & Powers 2006；Sawaki et al. 2009；Zhao 2013）、公平性与可及性（Wolfe & Manalo 2005；Lee et al. 2014）、评分与技术应用（Weigle 2011；Xi et al. 2012）、信度与可推广性（Lee 2005；Zhang 2008）、分数解释（Tannenbaum & Wylie 2008；Jamieson & Poonpon 2013）。

　　尽管关于三项考试研究的文献比较丰富，但将这些研究组织起来、形成有关联和强有力的论证的文献还很缺乏。涉及三项考试中任何一项的考试效度对比研究，尤其是实证研究也相当少。现有的对比研究多集中在分数等值方面（Taylor 2004），但事实上还有其他很多方面需要对比，如考试内容与测试表现的关系、受试特征与测试表现的关系、受试报告的考试策略与测试表现的关系等（Bachman et al. 1995）。此外，几乎没有将我国的考试与国际权威考试进行较全面的效度对比研究文献，现有的文献只是就两项或三项考试的某一技能、题型或考试媒介等做初步探讨（王丽2007；李鑫、修旭东2009；仇茵晴、张艳莉2011；金艳、张晓艺2013），全面系统的考试效度对比研究亟待开展。

　　1.2选题的价值和意义

　　·学科理论与实践价值

　　理论上，验证基于证据的效度验证框架在考试效度对比研究中的可行性，并进一步构建更加科学合理的语言测试效度对比研究模型。实践上，通过对比三项考试的效度，形成将三项考试关联起来的论证。这不仅可以丰富考试对比研究领域的文献，而且能为类似的研究提供思路和方法上的借鉴。

　　·社会和现实意义

　　一方面，本研究有助于推动我国语言测试开发与研究的国际化，有望提升我国自行开发的英语考试在国际上的认可度，为教育、人事部门及广大利益相关者提供入学、就业、流动等决策依据；另一方面，由于我国英语教学层次复杂、考试种类繁多，近年来关于制定我国统一的语言能力等级量表（韩宝成 2006；杨惠中等 2012）和语言测试标准（范劲松、金艳2010）的呼声越来越高，而本研究中的雅思和托福均已实现与国际公认的语言能力标准（ACTFL1986；CEFR 2001）对接，其开发与使用也遵循了国际公认的语言测试标准（ETS 2002；UCLES 2013），因此三项考试的效度对比研究有望为制定我国统一的语言能力等级量表和语言测试标准提供参考数据。

　　2.1本课题研究的主要内容

　　本课题拟从Weir（2005）“基于证据的效度验证框架”出发，从六个方面对四六级、雅思、托福进行较全面深入的考试效度对比研究。具体内容和研究问题如下：

受试特征：三项考试涉及受试的哪些生理、心理和体验特征？

环境效度：三项考试测试任务的环境和操作对所有受试是否公平？

认知效度：受试完成三项考试测试任务的认知过程和交互活动是否真实？

评分效度：三项考试的评分及考试分数在多大程度上是可靠的？

后果效度：三项考试对受试的心理状态和学习过程产生了什么影响？

效标关联效度：三项考试的分数是否一致性较高？是否可以进行等值？

这些具体内容和研究问题最终指向并回答一个总的问题：三项考试的效度有何异同？

　　2.2 基本观点

　　尽管四六级、雅思、托福这三项考试的目的、性质、构念、分数解释和结果使用等诸多方面存在不同，但三项考试都是以英语为外语或二语的大规模、高风险语言考试，受试将接受或正在接受高等教育，三项考试应该具有可比性，三者的效度应该既有较大的相似性，也存在一定的差异。而实际情况是否如此，有待全面深入的实证研究。

　　2.3研究思路和方法

　　本课题拟分五个阶段，采用七种方法收集三项考试六个方面的效度证据（见图1）。

　　图1 四六级、雅思、托福考试效度对比研究总体设计

　　具体方法和思路描述如下：

　　文献法：通过研读与研讨大量文献，对现有理论和框架进行梳理，进一步构建科学合理的考试效度对比框架和细目，并在实际操作中不断完善。

　　专家判断：专家组运用构建的框架和细目评测三项考试的任务与构念的对应关系。为确保专家评定的内外部一致性，采用多人交叉和多次评定相结合的方法。

　　测试法：用三项考试的真题或样题对同一组受试（200-300人）进行测试，用项目反应理论、结构方程模型等方法分析数据。

　　有声思维：用一组受试（3-9人）做有声思维的实验，报告他们完成三项考试同一项技能（阅读、听力）任务的答题过程，研究他们的认知过程和策略使用。

　　眼动实验：采用眼动实验法记录一组受试（3-9人）在考试中的眼球注视位置、时间和眼动轨迹，进而探测其认知过程。

　　问卷调查：在三项考试的考点对实际参加考试的受试（200-300人）进行问卷调查，了解这些受试的特征及考试对他们的影响。

　　深度访谈：对受试（20-30人）、考官（10-20人）、考试培训机构的相关人员（10-20人）进行半结构式深度访谈，了解考试对个体、机构乃至社会的宏观与微观影响。

　　2.4 创新之处

　　选题新颖：在我国，将国内极具影响的考试与国际权威考试进行较全面系统深入的效度对比研究尚属首例。

内容全面：研究内容不仅包括效度对比框架的理论建构，而且涉及三项考试效度的实证对比，具体内容涵盖受试特征、测试任务、环境与操作、完成测试任务的认知过程、交互活动、分数解释、考试影响等。

方法多样：除效度对比研究中常用的测试法和专家判断，本课题还将采用文献法、问卷调查、深度访谈、有声思维和眼动实验，特别是有声思维和眼动实验将被首度用于测试效度对比研究。

　　3.1 前期相关研究成果

　　·课题负责人前期相关研究成果：四六级专著2部、论文42篇，其中效度研究25篇、第一作者33篇、CSSCI 8篇、核心10篇；其他考试文集1部、论文40篇，其中效度研究22篇、第一作者33篇、CSSCI 4篇、核心3篇。代表性成果有：

1) 怀疑与误解——评《文汇报》文章“要素质还是应试？（论文，唯一作者，CSSCI）

2) 在大学英语四六级考试中增加快速阅读的必要性 (论文，唯一作者，CET改革采纳)

3) 正面的还是负面的—大学英语四六级考试反拨效应实证研究（博士论文专著，独著）

4) 高考英语全国卷与各省市自主命题卷共时与历时研究（学术文集，主编）

5) 剑桥商务英语在中国的影响（研究报告，唯一作者，剑桥大学外语考试部采纳）

6) 大学英语四六级考试反拨效应历时研究（国家社科项目结题专著，第一作者，主笔）

7) 改革后CET听力测试语篇输入与预期回答任务特征分析（论文，第一作者，核心）

8) 大学英语四级考试快速阅读部分内容效度研究（论文，第一作者，CSSCI）

9) 大学英语教师对CET认识的反拨效应历时研究（论文，第一作者，CSSCI）

10) CET二十年写作试题分析与研究（论文，第一作者，CSSCI）

　　·课题组前期相关研究成果：雅思和托福考试论文64篇、研究报告28分，其中效度研究78篇、第一作者48篇、SSCI 8篇；其他考试专著1部、论文62篇、研究报告3份，其中效度研究42篇、第一作者47篇、SSCI 6篇、CSSCI 5篇、核心5篇。代表性成果有：

1) Test for English Majors (TEM) in China (论文，第一作者，SSCI)

2) Evaluating analytic scoring for the TOEFL® Academic Speaking Test (TAST) for operational use.（论文，唯一作者，SSCI）

3) Validating TOEFL® iBT speaking and setting score requirements for ITA screening（论文，唯一作者，SSCI）

4) How do we go about investigating test fairness?（论文，唯一作者，SSCI）

5) Lexical diversity in writing and speaking task performances（论文，唯一作者，SSCI）

6) The cognitive processes of taking IELTS academic writing task one（研究报告，剑桥大学外语考试部采纳，第一作者）

7) 语言测试的标准研究：回顾、反思与启迪（论文，第一作者，CSSCI）

8) 大学专业英语的测试信度与效度研究（论文，唯一作者，CSSCI）

9) 语言测试构念效度研究（专著，独著）

10) 复杂结构语言测试信度的多元概化分析—以CET-6数据分析为例（论文，第一作者，核心）

　　3.2 开展本课题研究的主要参考文献

[1] AERA, APA, & NCME. (1985, 1999). Standards for Educational and Psychological Testing. Washington, DC: APA.

[2] Bachman, L.F., & Palmer, A. (2010). Language Assessment in Practice: Developing language assessments and justifying their use in the real world. Oxford: Oxford University Press.

[3] Cho, Y. et al. (2013). Investigating the effects of prompt characteristics on the comparability of TOEFL iBT™ integrated writing tasks. Language Testing, 30(4), 513-534.

[4] IELTS Research Reports & Online Series (1998-2014), retrieved from http://www.ielts.org/researchers/research.aspx

[5] Messick, S. (1989). Validity. In R. L. Linn (ed.). Educational Measurement (3rd edition). New York: Macmillan.

[6] TOEFL iBT® Reserach Insight Series. Vol.1-Vol.6 Retrieved from http://www.ets.org/toefl/research/ibt_insight_series/

[7] Weir, J. C. (2005). Language Testing and Validation: An Evidence-Based Approach. Basingstoke: Palgrave Macmillan.

[8] Weir, J. C. et al. (2013). Measured Constructs. Cambridge: Cambridge University Press.

[9] Xi, X. (2007). Validating TOEFL® iBT speaking and setting score requirements for ITA screening. Language Assessment Quarterly, 4(4), 318-351.

[10] Allami, H., & Aghajari, J. (2014). Pragmatic knowledge assessment in listening sections of IELTS tests. Theory and Practice in Language Studies, 4(2), 332-340.

[11] 范劲松，金艳。(2010)。语言测试标准研究：回顾、反思和启迪。《外语界》第一期：82-91。

[12] 韩宝成，罗凯洲。(2013)。语言测试效度及其验证模式的嬗变。《外语教学与研究》第三期： 411-425。

[13] 金艳，张晓艺。(2013)。技能综合对语言测试构念效度的影响—培生英语考试与大学英语六级网考的对比研究。《外语电化教学》第六期：3-10。

[14] 李清华。(2007)。《语言测试与效度验证—基于证据的研究方法》述介。《现代外语》第二期：214-217。

[15] 杨惠中& Weir, C. (1998)。《大学英语四六级考试效度研究》。上海：上海外语教育出版社。