首页 > 新闻动态 > 新闻动态

新高考学业水平考试的定位和调整策略

时间:2023.02.15作者:开明弘毅浏览量:504

  2023年2月12日,中国教育学会教育统计与测量分会邀请了本学会的副理事长臧铁军研究员主讲“新高考学业水平考试的定位及调整策略”。臧铁军先生,二级研究员,获国务院特殊津贴,曾任中央教育科学研究所研究员、北京教育考试院副院长、曾兼任国家督学、北京师范大学兼职教授、中山大学兼职教授、河南大学兼职教授、教育部基础教育课程专家工作委员会委员、全国教育科学规划教育经济与管理学科组成员、教育部考试中心学术委员会委员、中国教育学会学术委员会委员、北京教育学会副会长等,主要研究领域包括教育研究方法、教育测评和考试研究,是北京市新高考改革的主要设计者和参与者。
图片

讲座提要

    目前学业水平考试纳入中考、高考,但在理论和操作上仍存在亟待解决的问题。如何突破?一方面需要在实践中反复探索变革,另一方面需要回到标准参照测验理论研究上,回溯其本源初衷和变革历程。讲座从有关现实问题出发,关照标准参照测验的理论与发展变革,从学业水平考试的功能定位、标准设定、成绩报告等方面进行分析与论述。学业水平考试的发展不可能离开其特质的规定性,但又要应对改革的需要,必须直面今天的问题,确定改革策略和发展方向。长期致力中国教育考试与评价的臧铁军研究员结合自己研究经历和实践成果,给了大家诸多的信息和启发。
图片

讲座目录

一、标准参照测验功能变革的启示
二、新高考学业水平考试的标准设定和使用
1、学业水平考试标准的定位
2、学业水平考试的临界分数
3、课程标准与学业水平考试标准
三、新高考学业水平考试的分数解释和使用
图片

讲座内容

    教育随着社会的发展不断变化。新高考体系中的“学业水平考试”和中考的“两考合一”是教育评价适应社会发展的招考制度改革,体现了中高考功能的变化。从2014年到2019年,国务院、教育部针对高考改革的四个重要文件陆续发布,新的政策环境下,学业水平考试纳入了高考体系。学业水平考试标准和等级的确定既是政策性问题,也是科学性问题。随之而来的是如何从理论和操作层面回答学业水平考试的科学性。
图片

一、标准参照测验功能变革的启示

      臧老师的讲座首先回顾了从常模参照到标准参照演变的过程和路径。      从20世纪30年代开始,泰勒(Tyler,R.W.)通过教育目标改革研究,提出了“目标中心评价”的泰勒模式,在一定意义上提出了依据评价目标(标准)进行评价的方式。布鲁姆(Bloom,B.)发展了泰勒的思想,提出了“掌握学习”的理论。他将学生需要达到的目标作为一个整体,分为认知领域、情感领域和技能领域三个部分。每个领域可以划分为由低到高不同水平的学习类型,基本完成了认知领域的目标分类工作。这种对学习表现进行分类的思路建构了依据外在的“绝对标准”进行评价的原则。布鲁姆对目标的分类方式为标准参照测验的标准制定提供了理论基础。
    1962年,匹斯堡大学的心理学家格拉泽(Glaser,R.)和克劳斯(David,J.K.)提出了熟练度测量存在一个从完全不熟练到最佳表现的技能的连续体。个体在测验中表现出来的行为就落在该连续体的某一点上,他的行为与在任意特定水平上所期望表现的吻合程度,是用熟练度的标准参照性测量来估计的。格拉泽和克劳斯的思想奠定了标准参照性测验的理论基础。当前,学业水平考试等级划分的思想和方法也是建立在学生发展水平的连续体上的,从理论上可以追溯到标准参照测验的诞生之源。
    1963年,格拉泽提出:从成绩测验中得到的分数,基本提供两类信息。一类是学生做出标准表现的程度,如他是否能够写出一份满意的实验报告或解某种应用题。第二类信息是根据测验表现给个体排出相对次序,如学生A解答问题是否好于学生B。这两类信息的主要区别在于作为参照的标准。标准参照测验由此才真正受到人们的关注。
    标准参照测验发展初期,尽管人们对其内涵和功能的认识十分有限,但却明确提出了标准参照测验性质的定位问题。20世纪90年代,教育测量学界的研究者们大致分为两种观点。一种观点认为,需要明确区分标准参照测验和常模参照测验。将标准参照测验的内容范围进行精确定义后,其产生的分数或许可进行常模参照的解释,反之则不可。持另一种观点的研究者居多,认为虽然标准参照测验和常模参照测验有区别,但两者是从不同的角度对分数进行解释。同一个测验,根据测验目的可以对测验结果做出标准参照性解释,也可以做出常模参照性解释。
    从最初人们把标准参照测验与常模参照测验看作是性质上对立的两大阵营,到后来演变为不排除两类考试出自一份试卷,只是从不同的角度对分数进行的解释。这究竟是对测验本质深刻认识后的结论?还是更多基于时代特定需求调和而成的观点?这两种考试在本质上是对立的还是相融的?以分数形式笼统而言或可以自圆其说,但具体到各个操作环节上却有难于融通之处,这也是新高考改革中的现实难点问题。

二、新高考学业水平考试的标准设定和使用

    标准参照测验的标准是命题和分数解释的依据。因此,如何制定和使用标准是标准参照测验的核心问题,也是区别于常模参照测验的根本性问题。当前,高考由原来的常模参照测验改革为常模参照测验和标准参照测验并行,实质上是高考的功能发生了变化。原来的高考结果仅用于分数排队、比较,改革后加入学业标准作为参照,就可依据课程标准对学生相应学科的学习状况进行具体分析,再进行分数排队。这种设计的目标是力求以学生学业水平评价为基础,再比较相对优势进行,选拔录取。

1、学业水平考试标准的定位

    在改革试点省市的实践中,学业水平选择性考试标准的定位问题仍然没有解决。有人说:多年来高考也是依据课标来命题,严格不出超标的题,是叫学业水平考试还是叫高考,其实都是一回事。《国务院改革实施意见》中为什么要明确为学业水平考试?选考科目首先要考虑与课程标准要求的学业层次对应。仅从这一点而言,命题的出发点和命题的设计是根本不同的。在新高考改革中,最主要的矛盾是担心依据课程标准命题会减小试题区分度,影响高考录取。是否按照学业水平考试命题,高考录取就会失败或者会耽误人才?
    全国中考越是教育发达的地区,试卷的难度系数值越大;而越是教育欠发达的西部地区,试卷的难度系数越小。教育欠发达地区经常出现难度系数在0.4以下的试卷。一张试卷有的竟出现了多道超标试题,高分区间有很大一段是几乎没有选拔作用的空档区间。新高考扩大了学生的选择权,实质上改变了传统高考区分的概念和意义,在命题和录取中,不能延寻原来的高考模式进行操作。
    中国高考评价体系》中明确提出,要保证适宜的考试区分度,促进人才合理分流、配置。这就是说,高考的区分度不是以往认为的越大越好。适宜的区分度,从考试功能上可以理解为“够用就好”。“适宜”一定要考虑高等教育大众化、考生和高校资源匹配、选考科目分数模糊化等改革背景,留给学业水平考试按照国家课程标准命题的空间。

2、学业水平考试的临界分数

    在新高考中,学业水平选考科目采用等级分数。对于等级分数的临界分数划定和分数的使用,都应该有严格的论证和证据支持。学业水平选考各等级分界分数涉及对考生评价的有效性和公平性,是十分敏感的问题。对于标准和分界分数的划定应当非常谨慎,一般会考虑从过程性、内部性和外部性三种类型的效度证据来进行科学性、合理性验证。
    过程性证据是指“方法使用的正确性及方法实施的质量”。这要求分界分数的确定需要对考试目的和命题蓝图理解正确,决定分界分数的方法使用正确,以及方法实施有质量保障。这是从实施程序上保障各等级分界分数的划分结果。内部性证据即检查“考生表现与分界分数的一致性”,通常检查考生等级获得结果与平时表现的一致性程度。这是用学业水平考试成绩作为样本进行推断,再与学习过程中多次测验结果进行对照。另外,也可以采用分界分数的标准误差评估方法。外部性证据是指“与其他证据源进行比较”,如以任课教师对学生的评价为标准,检验等级划分与教师主观评价的一致性。
    以课程标准为分界分数的依据,配合上述证据的检验方式,应当是比较客观有效的方法。课程标准中对于不同层次的能力界定,应与考试标准中分界分数的划分相互映照。学业水平考试等级的确定既是政策性问题,也是科学性问题,测验制定者应当加强等级临界分数的证据意识。

3、课程标准与学业水平考试标准

    尽管学业水平考试是以课程标准为核心的标准参照测验,但课程标准并不能替代考试标准。课程标准是对所有学生学习期望的规定,是对学生应该知道什么和应该能做什么,期望教师教给学生什么的总体规定。而学业水平考试的标准是对所有学生学习结果的说明,试图说明学生知道什么和能够做什么,其要点落在一件事怎么做,并对做的结果加以评判。课程标准本身较为宏观、抽象,学业水平考试标准需具备可测量、可操作性。二者虽然高度相似,但功能不同,因此不能相互替代。
    有时候人们会把考试当成素质教育的对立面,一说到考试就是会增加负担,讨论考试的出发点就是要限制考试。比如要求对试题的难度限定明确写入教育部文件,比如规定合格考参照二级水平,那么可以有一级水平的题,但是最难的题目不能够超过二级水平,题目超过了二级水平就是超标;规定选考科目参照四级水平,题目难度的最高标准就定在四级水平,坚决不能超出,否则的话就加重了学生的学习负担,违背了学业水平考试的性质。臧老师结合自己在实践中的理解提出来以下四个观点:
    第一,学业质量标准要求参照二级水平和四级水平是指试卷的总体水平。每一张试卷都应该有从易到难的合理的试题分布。
    第二,合格考分数报告只有合格和不合格,不合格比例控制在5%以下。一次规模宏大的考试仅仅为了筛选出5%不合格的学生,这个代价太大了。
    第三,选考科目最难的题目控制在四级水平以内,对于有五级水平的学科而言,意味着用考试把课程标准架空了。
    第四,尊重考试自身的规律,功能的发挥取决于它自身结构的合理性。不能把所有的弊端都归结为考试,人人都出主意要限制考试。

三、新高考学业水平考试的分数解释和使用

    对应学业水平选考科目的等级,考试标准必须是一个能够刻画等级的标准。各等级的分数线应该建立在充分反映考生表现和考试标准的对应关系上,而这种关系的实质是等级体现了课程标准对学生学业的要求。目前各省使用的百分比划定等级方法难于对应课程标准的要求。原因是各选考科目之间考生人数、群体水平差异过大,由此求得部分平衡。采用当前的方式只能是改革过渡期的权宜之计。我们要提升学业水平考试的分数解释和有效应用,可以形成强有力的教学反拨,使教学和高考形成一体化的素质教育循环链。
    标准参照测验在学生评价方面具有自身明显的优势。应当加强标准参照测验的理论研究,在试题命制、考试评价、招生录取等方面形成一个完整的“标准参照”体系,在实践中不断完善学业水平考试的方式方法,走出中国高考改革的创新之路。
    讲座的内容紧扣当下教育改革的热点,论证严密,案例鲜活,两个小时在不知不觉中悄然已逝,与会的听众意犹未尽。这是臧老师在教育考试和评价领域30年深耕的厚积薄发,在其著作《教育考试和评价》(中国青年出版社)的第一章和第二章中有更为详细的阐述。

在线留言

010-87190321
全国24小时服务热线

Copyright © 2020 开明弘毅版权所有 京ICP备20019439号-1 京公网安备21009102000052