教育部考试中心李光明副研究员主持完成了全国教育科学规划2009年度“教育考试专项”课题(教育部重点)“教育考试国家题库的研究与应用”(课题批准号GFA097013)。课题组主要成员有刘芃、柳博、高升、刘庆思、任子朝、李勇、张亚南、关丹丹。
为了使考试更加安全、科学和公平,考试的命题方式亟待革新。教育部考试中心于2006年起决定建设教育考试国家题库,实现考试命题方式由会议任务型向日常题库工作型转变,命题思维方式由传统经验型向现代技术规范型转变,命题业务人员由管理型向专业技术型转变。教育考试题库建设是我国教育考试“十一·五”规划的一项重要工程,建设题库将从根本上改变我国教育考试的整体面貌,全面提升我国教育考试事业的核心竞争力和国际影响力。
由于我国缺少题库建设经验,特别缺少国家级、高利害考试的题库建设经验,题库命题的工作模式是怎样的?基于题库怎样设计和产出试卷?题库系统应该怎样设计,有哪些功能?怎样获得试题的统计学参数?怎样对试题和试卷的质量进行评价?题库怎样维护和运转?每个大问题的回答又会衍生出无数个小问题,这些问题的解决,都要建立在对题库深入研究的基础上。
该课题通过对题库进行系统的研究可以有效地解决题库建设中的实际问题与难题。因此,教育考试国家题库的研究与应用既是一项理论性很强的系统研究,也是将研究成果体现在题库建设实际当中的重大工程。
一、内容与方法
题库建设是一个系统工程,课题组从题库软件的设计与实现、试题设计、试卷设计、题目的试测校准和等值链接、试题试卷评价和题库建设的长效机制等六个方面对教育考试国家题库进行了较为系统的研究。同时,采用定量与定性相结合的研究范式。各个子课题相互关联,有效地回答了教育考试国家题库建设的理论研究与应用,同时有效地指导了题库建设的实际工作。
(一)研究1:题库软件的设计与实现
课题组通过调研、座谈,系统、全面地了解各考试项目学科及学科秘书的业务流程与业务需求,经过分析、规划,提取出题库系统的需求规格说明,定义项目背景、各功能模块需求和对系统安全的要求。根据需求,课题组设计系统的软件架构,定义和明确题库软件各功能模块的相关概念模型,定义和描述系统使用数据库管理软件、应用程序对数据库数据存储和检索的方式和要求、数据结构以及逻辑关系。为了满足各考试项目、各学科用户使用题库系统命制、管理试题和试卷的不同需求,课题组研究并解决了自定义属性管理功能。在代码实现阶段,经过请专家反复论证、实验,探讨了不同编辑器呈现和编辑试题的效果。
课题组采用面向对象的迭代增量式开发方法。利用面向对象的抽象原理制作初始对象模型。在此基础上,参考国际现行题库系统的模型,构造题库系统初始原型。不断地进行迭代,每一次迭代过程中都利用面向对象的技术来实现,而且是增量式的。
(二)研究2:基于题库的试题设计
试题的命制是题库建设的重要环节,试题的质量直接决定了题库的质量。该子课题采用文献法,广泛收集和查阅国内外题库命题的理论、方法、经验和教训等方面的文献资料。采用经验总结法,将命题经验上升到制度层面,建立了题库命题的理论与实践标准。以基于题库的试题命制为主要研究内容,通过对比传统的经验型命题和题库模式下的命题,提出了题库命题的理念和原则;并从宏观的角度构建题库命题的方向和质量标准;通过分析学科的主要特征和研究问题的方法、手段,建立起学科化的评价目标体系;通过总结以往题库建设的经验,科学设计题库试题的属性。本子课题对命题流程各环节给予了科学界定,细化命题程序,制定命题各环节的质量控制标准。本子课题研究重视对考试结果的分析,努力实现从考试到评价的飞跃,并在新的命题理念指引下,对试题的创新设计进行了探索和研究。
(三)研究3:基于题库的试卷设计
在该子课题研究中,课题组主要对基于题库的试卷设计进行了理论研究,分析了试卷设计过程中需要考虑的因素。为确保试卷设计的合理规范,避免试题组配中的主观随意性,在研究中着重分析了命题细目表的设计与构建。由于编制合格命题细目表需要同时满足四维分布需要,实现比较困难,为此课题组提出了编制合格命题细目表的降维调整算法,并给出了如何在题库系统中实现基于命题细目表的二阶段组卷策略的方法。
针对如何应对大规模国家考试的安全问题,课题组还在题库命题方面进行了探索。课题组定义了“一题多卷”的概念,对“一题多卷”进行分类,总结了“一题多卷”的操作流程等;课题组对“多题多卷”的含义进行了阐释,总结了“多题多卷”的特点,展示了“多题多卷”的实施效果等;最后总结了多种试卷形式试卷设计过程中需要注意的事项。
(四)研究4:题库试题的试测校准和等值链接
为了保证考试的公平性和可靠性,必须使题库中生成的试卷之间实现等值。题库建设的核心问题就是标定和等值。在该子课题中采用文献法和数据模拟对比分析了不同的标定和等值方法的效果。
由于试测和等值工作对于人力、物力、技术力量特别是保密条件的苛刻要求,能够实现严格意义上的考前试测与考后等值的考试并不多,目前国内绝大多数考试的难度控制仍主要依赖于命题者的经验。凭借经验的做法经常导致实测难度与预估难度产生差异,因此,该子课题还采用试测法对比分析了实测难度与预估难度产生差异的原因,并探讨了提高预估难度有效性的策略。
(五)研究5:题库试题试卷评价研究
在该子课题的研究中,主要是通过试测法和高级统计分析,探讨试题试卷的质量。具体包括:运用验证性因素分析方法探讨高考数学考试的结构效度;运用概化理论和协方差分析探讨不同类型试题对于考查考生数学能力的贡献和测量精度;运用潜在类别分析方法对研究生入学考试心理学专业基础综合的选择题部分进行分析,探讨试题对考生群体的能力特征分类是否具有稳定性和一致性;运用标准参照考试的理论和Rasch测量模型将考生的数学能力水平和不同版本的数学试题的考试分数转换到同一个分数系统上,对不同年度间试题水平进行比较,同时也对考生水平进行比较。
通过题库试题试卷评价研究,不仅实现对试题试卷质量的全方位评价,也为高级统计模型在考试领域中的使用提供一些思路。
(六)研究6:题库建设的长效机制研究
题库建设是一项投入大量人力、物力和财力的工作,要保证题库软件的良好运行,确保题库试题的高质量,必须建立良好的长效机制。该子课题主要采用文献法和案例法。广泛查阅了国内外题库建设的文献资料,并结合个别学科在题库建设中的具体实践进行分析,提出建立长效机制的方法和途径。课题组通过对题库建设整体流程和题库软件运行的详细梳理和分析,在总结以往会议命题和现阶段题库命题经验的基础上,从题库的监测和评估、题库的维护和管理、试题沉淀及处理措施、题库的安全和保密等四个方面进行研究,提出了题库监测和评估的内容与方法,题库维护和管理的策略、试题沉淀的解决措施、题库安全保密的重要内容和措施等内容。
二、结论与对策
(一)研究发现
经过课题的六部分研究,得到以下观点与结论。
1.题库软件的设计与实现
题库系统的开发不仅是使用计算机信息技术实现命题工作的过程,更是基于题库管理模式的业务提取、重新规划,最终使用信息系统实现的过程。是开发人员与业务人员紧密配合、共同完成的项目。
目前题库系统主要满足纸笔考试项目,对文本格式的要求很严格,经过实验多种文本编辑器和试题文本格式后,发现系统嵌入的Word编辑器将试题文本内容存储为doc或docx格式能够很好满足目前纸笔考试对试题文本格式的高要求。
为了使题库系统能够支持命题部门各项命题任务,系统设计提供强大、灵活的自定义功能。根据实际用户使用系统发现,在满足灵活通用性的基础上,提取不同类型学科的定义、使用规律,能够很好地提升系统操作友好性。
2. 基于题库的命题设计
学科评价目标的设计要考虑以下因素:一是学科能力是学科教育与学生智力发展的结晶;二是学科能力要充分体现学科的特点;三是学科能力的建立受到考试实践的限制;四是学科能力的建立要适应基础教育改革发展和高等教育人才培养目标的定位。
基于题库的试题命制可以分为八个阶段:准备阶段、组卷阶段、研磨阶段、校对阶段、审查阶段、最终校对阶段、验收阶段、交接阶段。基于题库的试题命制,要注重贯彻评价的理念,实现从考试测量到评价的转变。测试结果可明确显示被试各项能力及其层级表现,并能够区分被试之间的能力差别。试题的设计要在继承原有经验的基础上,摆脱传统命题方式方法的约束,在试题情境的设置、设问、评分等方面为实现测试目标而进行创新。新的命题设计应该使试题具有内涵清晰的思维能力元素、适度的答题空间、合理而使评价有依据的评分规则。
3. 基于题库的试卷设计
在题库方式下进行试卷设计,需要考虑许多因素,而最核心的要求是符合具体考试项目的性质和目的。此外,考试的规模和频次、考试内容及学科特点、题库建设状况等因素也需要在试卷设计时予以考虑。
在设计试卷时,为保证试卷结构合理规范,需要预先编制比较完善的命题细目表。由于设计合格的命题细目表需要同时满足考试大纲中关于题型分布、内容分布、试题难度分布和评价目标分布等方面的规定,会对细目表的编制工作造成较大困难,因此课题组提出了命题细目表的降维调整算法。该算法可有效降低命题细目表的设计难度,减轻命题人员的工作负担,同时很好地保证了试卷结构的科学性及合理性。
根据上述编制命题细目表的降维调整算法,课题组还研究了基于命题细目表的二阶段题库组卷策略。该组卷策略可有效提高组卷的成功率,保证试卷的难度控制和考核目标分布比例,有利于提高试卷考查的效度,还可提高题库的使用效率,满足用户多样化需求。在技术方面,该方法可以有效提高题库系统的并行运转效率和使用效率,有利于实现大规模计算机化考试和网络化考试。
通过变化试题排列顺序提高考试安全水平的预防措施,课题组对“一题多卷”和“多题多卷”两种试卷组配模式进行了积极探索。“一题多卷”,即以同一套试题为基础,通过调整试卷中试题的顺序或选择题的选项顺序,衍生出多个版本试卷,可以应用于不同地区或不同考场或不同考生,既可防止大规模作弊,又能保证试卷的平行性。“一题多卷”调整策略一般可分为四种类型,即试题顺序调整策略、选项顺序调整策略、分组调整策略和混合调整策略。 “一题多卷”的操作流程主要包括母卷入库、确定试卷调整原则、制定试卷调整方案、调整试卷、校对试卷、收尾工作等步骤。“多题多卷”,即在同一考场内使用多套题目,并且每套试题又分别衍生出多种试题组合形式的试卷组配方式,其主要特点为:同一考场内考生试卷的差别化,同一次考试的多套试卷难度平行,考务管理复杂性程度提高等。
4. 题库试题的试测校准和等值链接
对于题库建设而言,标定和等值都是重要的实践问题。标定可细分为组标定、锚标定、垂直标定、校准和整合。对于面向多年级、多水平的大型教育考试题库建设,尤其需要垂直标定的理论与技术基础。垂直标定的数据收集方法与数据转换方法是垂直标定的两大关键部分。测验等值应当具备以下条件:同质性、等信度、对称性、公平性和跨样本不变性。数据收集设计对于成功的测验等值来说起着决定性的作用。基于CTT的等值方法只能实现不同试卷之间的等值,可用于建设“试卷库”,而基于IRT的等值方法则可以进一步将试题的难度、区分度、猜测水平等项目参数置于同一尺度上,可以更好地满足大规模题库建设的需要。
造成实测难度与预估难度产生差异的因素主要有以下几点:一是命题者在命题中对难度的预估与设计难度存在偏差,这种偏差来自三方面:第一、命题者对试题的学科能力要求定位不准确;第二、命题者对受试者的实际水平把握不准确;第三、命题者在预估难度时带有个人主观性。二是应试技巧对试题预估难度造成冲抵效应。三是施测环节和阅卷环节造成实测难度与预估难度产生偏差。此外,在主观性试题的评分环节,由于存在三个“不一致”——阅卷者自身的不一致、阅卷者之间的不一致、不同考次/考场间的阅卷不一致,实际得到的难度值也会与命题时的预估难度发生偏差。
5. 题库试题试卷评价
采用LISREL软件对某次数学考试的结构进行了验证性因素分析。比较命题人员最初设计方案和验证性因素分析得到的模型,可以发现:二者非常吻合。即,数学考试的试卷设计方案得到了检验,该数学考试具有较好的结构效度。
应用多元概化理论对新课程标准数学试卷的不同类型试题对于考查考生数学能力的贡献和测量精度进行了分析,同时,运用方差分析(主要是协方差分析)从选考题的角度检验了三个选考试题在难度上是否有差异。结果显示,该数学考试的总体测量精度较好,符合选拔性考试的要求。就题型而言,各题型的测量精度也比较好,解答题的测量精度最高。就题型的实际贡献率与赋分比例而言,三种题型的贡献率与预期基本相符。关于选考模块的平均得分率的分析显示,选考题的难度在排除考生能力影响的前提下具有显著差异,这表明从统计的角度来讲有必要对选考题的得分进行等值处理。
运用潜在类别分析对研究生入学考试心理学专业基础综合的选择题部分进行分析,结果显示,根据单选题的作答情况可以将考生分为四类,根据多选题的作答情况可以将考生分为两类,并且三年来对考生群体的能力特征分类具有稳定性和一致性。
以一个省的高考理科数学实际考试数据为基础,应用Rasch测量模型将考生的数学能力水平和不同版本的高考理科数学试题的考试分数转换到同一个分数系统上,对不同年度间试题水平进行了比较,同时对考生水平也进行了比较。结果显示,高考理科数学试卷的能力水平的要求基本稳定,同一能力水平的试卷原始分差距较小;同时,各能力成分的层级要求科学合理,年度间能力层级的要求基本稳定。
总体来看,题库中的试题和由此组成的试卷在考试中表现出了较好的心理测量学属性,确保了考试的可靠性和有效性。
6. 题库建设的长效机制
题库要发挥强大的功能,需要一套综合的监测和评估方法。其一,题库管理制度是以题库为基础的命题工作方式正常运行的保障,要形成对题库命题管理制度的审查机制,保证管理制度能够与时俱进。其二,建立对题库试题数量和质量的监测与跟踪机制,是调动工作积极性和主动性、做好题库后期建设的重要内容。其三,要建立计算机系统的监测机制,对计算机系统的稳定性和安全性进行经常性检测,及时维护或更新。其四,应对题库建设经费的使用采取专门的财务制度进行监控,使投入的资源得到充分利用,促使题库高效、经济地运转。
题库软件系统的维护与升级是题库软件正常运行的保障。一是要不断调整命题部门在实际应用中遇到的、在系统开发阶段已发生而系统测试阶段尚未发现的问题。二是要使软件适应技术和管理的变化而进行相应的升级和完善。三是要不断扩充软件功能,改善软件性能,提高软件的效率,这是软件维护与升级中工作量最大的内容,也是形成核心技术的关键。
题库试题的沉淀是题库建设中不可避免的问题,通过对造成试题沉淀的复杂因素的深入分析,形成一套有针对性的处理方法:一是充分发挥命题教师的核心作用,严控试题质量关;二是设定科学参数,把牢试题入库关;三是改造旧试题,充分挖掘其可利用成分;四是合理布置命题任务,注意补齐试题短板;五是增强前瞻性,主动控制时效性内容的影响。
题库命题方式的变化,使阶段式保密转变为日常性保密。在总结以往命题安全规范的基础上,探索构建一项基于系统论的涉密人员、安全保密制度规则、物质技术条件三要素有机统一的安全保密系统工程。
(二)政策建议
1. 随着计算机技术在考试领域的发展,现在计算机化考试成为全球考试方式的未来趋势,因此国外的题库系统采用的文本编辑器和文本格式(比如:XML或HTML格式)以能够更好地支持机考为主,机考丰富了试题、试卷的呈现方式。建议今后题库系统的升级工作既要满足纸笔考试对格式的要求,又能够尽量减小向机考转变的成本。同时,在部分考试项目的部分学科应探索实现计算机化考试。
2. 党的十八大对考试改革提出了总体要求,就高考题库建设而言,除了保障试题的数量外,最重要的是试题的质量,必须要创新试题设计。要根据内容改革和能力考查的要求创设新的题型,满足考试的要求。同时,要研究和完善征题机制,扩大试题积累,以满足一年多次考试的需求。
3. 大规模、高利害的全国统一考试要探索尽快实现“一题多卷”和“多题多卷”,以主动防范大规模作弊。但在使用“一题多卷”与“多题多卷”模式的时候,需要注意保证试题的质量,避免试卷出现错误,控制好多套试卷的难度平行性。另外,多套试卷模式只是防御大规模作弊的一种手段,并不能完全根除大规模作弊现象,从长远计,还要发挥制度的作用,从考生的诚信教育做起,加大法治力度,在全社会进行综合治理,杜绝考试作弊现象。
4. 我国要尽快建立教育考试的行业标准,所谓行业标准就是关于规范我国教育考试专业实践方面的技术说明和行为规范。不仅包括命题、题库建设,也包括考务等一系列环节。只有建立考试的行业标准,才能为判断教育考试技术的充分性、使用的适当性、分数的合理性、评价的科学性等方面提供依据。
教育考试国家题库的研究与应用
2015-10-26
浏览: 5378
分享:

