高考改革和基础教育评价有哪些技术难题?

23.07.2015  18:35

  7月18日-19日,中国教育学会2015年度教育评价研讨会在北京市第三十五中学举行。会议“高考与中小学教育质量综合评价改革“为主题,研讨和交流了推进高考和中小学教育质量综合评价改革的最新理论和实践成果,以及可能和实际存在的问题。搜狐教育作为独家网络媒体支持对活动进行了报道。以下为中国教育学会教育统计与测量分会理事长张敏强的现场发言:

                                                                                                                                                                                   图为中国教育学会教育统计与测量分会理事长张敏强

  各位老师、各位专家,去年恰逢高考改革方案修订,我有幸参加了方案制订部分会议,也参加了一些由基教二司和课程中心组织的基础教育评价活动。今天,我的报告内容主要是有关高考改革和基础教育评价遇到的问题。实际上测量理论技术的发展,有很多新技术、新方法可以解决我们目前遇到的难题,有些难题当然是需要在政策制订层面来考虑、解决,但也有很多可以利用技术来解决。

  我国是考试大国,是历史最悠久的国家,创造了考试的历史——科举。但是真正把测量作为一门学科,则始创于西方。我国传统的测量与评价方法——真分数理论模型,相信在座的无论是老师也好,科研人员也好,都很熟悉。基于真分数理论的方法、技术,我们称之为经典测验方法、技术。作为间接测量,要使测量与评价可靠,编制有恰当难度、区分度(鉴别力)的题目,控制测量误差(随机误差、系统误差),是提高测量的可靠性(信度)、准确性(效度)的有效手段。考试有两种类型,即常模参照和标准参照。这两种类型有不同的分数报告模式,如排队、排位、达到预定目标等。经典评价模型非常简单,经过百年发展,得到了比较广泛的认可。

  但它也存在一些问题,这也同样是现在高考改革和课程改革过程中应该考虑的问题。 第一,“一张试卷”评判结果的合理性和准确性。我们习惯用一张试卷来评判结果,但不同的命题人员选择考察内容的角度肯定不同,因此,一张试卷不可能覆盖全部所想考察的内容。第二,我们经常讲因材施教,但学生的长处和短处在哪里,我们不知道。那么,可不可以做到因人而测?当学生考试没考好时,家长可能会认为“是我的孩子学不好”,但是他也会追究老师的责任“为什么我的孩子会的你不考,不会的倒考了一大堆,说明是你们出题有偏差。”第三,经典测量理论以前是评价团体,现在更为重视评价个人。我们光知道什么是排位、达标还不够,还需要知道为什么、好在哪里、不足在哪、有什么方法可以补救等。

  我今天想讲的主要是学业水平方面的研究,非学业水平的我准备放在一边,因为非学业水平是另外一个层面。

  因人们对经典测验的批评,孕育了现代测验理论,即希望能够对不同的人做出不同的评价。到目前为止,现代测量方法有以下几种情形:

   一种是项目反应理论。 项目反应理论以潜在特质为理论基础,使用Logistic等模型,以人的能力值表达为掌握程度。特别是IRT-CAT的实现,做到了因人而“测”、因人施“测”。一个人考试,经常会遇到这样一种情况:出的试题不是我最擅长的,而我最擅长的方面却没有考到。那么,我们就想,考试结果是不是可以不用分数表达,而用能力来表达?完成不同的题目是不是可以得到不同的分数?我们经常出选择题,如“1+1=?”是一道题,可以得两分;“6+5=?”这道题也得两分。那么,难度不同,得分是不是也可以不一样?当考虑到了“因人而测”后,学生可以自由选题,但主要困难是计算模型比较复杂,需要依靠计算机。但这种测试方法仍只是用一个分数来评价结果,还是没有回答到能力测试的问题。

   另一种是新一代测量与评价方法:认知诊断测验理论。 比如我们感冒了去看医生,医生让我先去抽血化验。我想:感冒跟血到底有没有关系?医生说:我想了解一下你是风寒性感冒,还是病毒性感冒,然后再根据你的诊断结果,更加有针对性地为你做一个治疗方案。认知诊断理论就是想做到每一个学生对应一个相应的评价。比如,有两位学生,数学同样考了60分,一个是几何50分,代数10分;另外一个恰好相反。针对这种情况,我们就可以利用认知诊断理论先诊断出这位学生几何考不好的原因,即到底是天生的空间想象能力问题,还是教学方法或学习方法问题,然后再给出相应的诊断报告。认知诊断理论把认知过程与测量手段结合起来,不仅能对考生的整体水平做出评估,同时还可以将考生的认知结构模式化,然后利用合适的测量模型对不同的认知结构模式进行诊断,从而定量地考察考生的认知结构和个体差异。该理论主要是基于数学模型来做的,比如说潜在特质模型(线性逻辑特质模型、多成分潜在特质模型、拓广多成分潜在特质模型)和潜在分类模型(规则空间模型、融合模型、DINA模型、NIDA模型、贝叶斯网络)。这些有些已在应用,但仍需对其进行研究。

  下面我来为各位比较、分析一下经典测量理论(Classical Test Theory,CTT)、项目反应理论(Item Response Theory,IRT)和认知诊断理论(Cognitive Diagnosis Theory,CD)。

   (一)理论技术层面的比较

  经典测量理论(CTT)的理论基础是真分数理论,测评目标是测验得分;项目反应理论(IRT)的理论基础是潜在特质理论,其测评目标是测出被试的潜在特质(即能力);认知诊断理论的理论基础是认知心理学与心理测量学的结合,是为了测出被试的认知属性结构。现在的心理学研究认为,人的各方面能力是天生带来的,有些人的语言能力缺失,有些人的数学能力缺失,因此不能完全用分数来测量。

  一般运用经典测量理论(CTT)进行测评的意义是获得初试的测验成绩,项目反应理论(IRT)是不但使用成绩还计算出你在这个团体的位置,认知诊断则是为了提升和补救教学,或者针对你的特点给出相应的建议。前面已经讲到,在测量模型方面,CTT主要是针对真分数模型;IRT在现今已有很多的模型,也得到了大量应用;认知诊断主要有规则空间模型、属性代码模型、融合模型等,因为它还比较新,因此各种模型的应用都还在探索之中。

  在核心技术指标方面,CTT就是区分度、难度、信效度;IRT是项目特征曲线,就是你的能力有多高,就可以不断地累积,当然也可以不是累积模型,可以另做其他模型;认知诊断,通俗地说,就是这个班级里的学生按照不同类别可以分成三、四个学生群,这些学生的能力和认知差不多,教学就有针对性。分类对于老师来说,作用非常大,所以我经常在广州跟学校老师说,你想当优秀的教师其实是特别容易的,只要你把每一个学生都进行属性分类,那他的测评报告结果就不仅仅是60分。比如,一个学生数学只考了60分,老师就可以在这60分当中找到亮点,然后再对学生进行有针对性的辅导。

  任何数学模型的应用都是有前提条件的。经典测量理论是平行测验,因此要用两个测验来重复测验出真分数和误差,并估计出真实能力和测验误差;项目反应理论在测验前要进行单维性假设,就是对一种能力进行多种不同的测试,还要进行局部独立性假设、项目特征曲线假设。这是非学业的测试,做质量监测时可以用这个模型。现在最值得我们欣赏的认知诊断理论,虽然要达到的目的比较多,但是前提条件特别少,可以得到比较灵活的应用。

  从选题要求来说,经典测验理论以难度、区分度作为评价指标,可以对测验分数进行等值。项目反应理论将项目参数、测验信息量作为评价指标,可对测验能力值(分数)进行等值,也可以对项目参数进行等值。认知诊断则将属性考查次数、考核模型、需具备诊断被试认知属性的功能作为评价指标,且不需要进行等值。

   (二)应用层面的比较

  目前,国内基本上都在用经典测量理论的方法,项目反应测量法的应用也有所涉及。我国的大学英语四六级应用的就是项目反应理论的方法。应用认知诊断理论是我最早在研究的一种测量方法,国内还没有人应用。这种测量方法需先建题库,再在题库里建立在线测试,然后进行数据分析。最难做的是题库的建设。每一个年级要做一个学科题库,我们目前在广州已经做了14个。题库建设起来后,可以根据年级学科,每个学期给学校一个相应的版本直接进行测试。建设题库,要求整个学科组有一个共识,即这个题目的测试范围到底是什么。我们求的共识,是尽可能达到最大的认识。

  经典测量理论的测验成本是平均成本,命题的成本不会很高,但在实测过程中的成本非常高,特别是大规模的。而认知诊断的前期建设成本很高,但是后面只要更新题库就可以。对于测量,我们常想知道测量的结果到底怎么样?测评的精确程度是否很高?一般来说,经典测验只有团体误差和团体比较,精确度比较低,命题难度也一般;项目反应理论的评分虽不会出现太大误差,但是考能力的时候题库数量不够,因此在选题的时候题目可能会不断重复,从而造成偏差。认知诊断是有针对性的进行测量,比如只针对一个单元进行检测,其结果就会很精确。由这一点就可以看出,认知诊断的命题难度最大,因为先要找出每个模式,找到的模式还要得到大家的认可。但如果教育部的课程标准制定出来了,可能对我们以后的工作有更多帮助。

  经典测验对计算机技术的要求一般,测验编制及实施的技术要求也较低,前期比较容易,但是对组织的要求较高。因此,经典测验有较广泛的应用前景。项目反应理论和认知诊断对计算机技术的要求都比较高。在编制及实施方面,项目反应理论可以用纸笔测验,也可以用计算机测试。认知诊断则完全是在线上完成测试,数据收集难度比较大,但我认为,随着社会和科技的发展,认知诊断可以引发测量评价的革命,可以真正做到“因人而测”“因人而试”,给出“因人而教”的真正方案。

   (三)总体评价与应用建议

   总体评价:

   经典测量理论的优势在于: ①便于理解、操作;②测验成本低;③团体共用一份试卷,针对团体作出评价。其缺陷和不足在于:①被试的能力水平与测验相关;②试题(卷)的特征指标与样本相关;③测量结果笼统、不精确;④真分数与观察分数线性的关系假定得不合理;⑤参数指标间匹配性较差,被试能力与项目难度不在同一量尺上;⑥测验结果的准确性与推广性相矛盾。

   项目反应理论的优势在于: ①克服了经典测量理论的“测验相关”“样本相关”等不足;②对被试能力的测量比经典测量理论更为精确;③以IRT为基础发展的CAT测验克服了经典测量中所有被试完成同一份测验的弊端,实现了“因材施测”的目标;④可以做到“因人而测”。其缺陷与不足在于:①对被试能力的定义还是通过单一的能力值,未能进一步考查被试的认知结构;②测验理论较为复杂,需要由具备专业统计测量学知识的专家进行操作;③测验成本较高;④参数值为服从特定分布的实数,不易于解释。

   认知诊断理论的优势在于: ①继承了项目反应理论的优良性质;②能够精确地测量、诊断被试的认知属性结构,极大提高了测验的功效;③能够对被试进行更详细的分类,特别适宜不作排队,不影响日常教学的测试;④以CD为基础发展出CD-CAT测验,比普通CAT测验更为优越;⑤能够为提升或补救教学提供确切的依据,不仅能提高测验质量,还能提高教学质量;⑥不但可以“因人而测”,还可以对不同的人给出不同的评价结果,做到可以不用“统考”也可以分析、收集数据,给出质量的评价。其缺陷与不足主要在于:①测验理论较为复杂,尤其是命题要求很高,需要由统计测量专家与认知心理学专家、学科专家通力合作进行;②对认知属性的划分较为困难,需要根据所测认知领域的特点结合专门技术进行;③初始测验成本较高。

   应用建议:

  经典测验理论可涵盖使用,普及知识,成为每个教师除教育学、心理学、教学法以外的基本技能。项目反应理论可以使用于会考、能力水平考试,从而降低大规模考试的各种压力。认知诊断理论也可以使用于会考及能力水平考试,它的特别诊断功能,可以使“因材施教”个性化教学得以实现。

  每年高考之前,我们都要给广州市用认知诊断方法做一个“广一模”测量统计诊断分析,即将广州市每一个区的整体情况跟省里比较,每一个区的排名跟学校的排名进行比较,区里面的每一所高中学校之间进行比较,然后每个班级,最后每个学生都进行比较。每个区,每个学校,每个学科,甚至是每个知识模块都有着详细的记录资料。我的建议是,如果有条件,学校可以自主运行,把数据收集起来,做成模型,以后就不用再进行统一考查。认知诊断不用经过统考,不用增加老师、学生、学校的负担,不影响日常教学,就可以达到高质量的监测效果,真正实现个性化的“因人而测”。

编辑:夏青