细说ZHC
国家职业汉语能力测试(简称ZHC,是汉语拼音缩写)由中国劳动和社会保障部职业技能鉴定中心(简称OSTA)组织国内语言学、语言教学、心理学和教育测量等方面的专家开发研制。ZHC是考查应试者在职业活动中实际应用汉语能力的国家级测试。合格者可以获得职业技能鉴定中心颁发的“国家职业汉语等级证书”。
ZHC是一项核心职业技能测试,面向所有就业者。职业汉语能力是指人们在职业活动中运用汉语进行交际的能力,运用汉语获得和传递信息的能力。职业汉语交际能力是从事各种职业所必备的基本能力,直接影响到每个从业人员的工作成效。
为什么要开发ZHC
观察生活中我们周围的人,不难发现,一些人的语言能力比较强,可以用比较清楚、简短的语言将一件事情讲清楚;另一些人的语言能力较差,东拉西扯、絮絮叨叨的“车轱轳话”讲了半天,别人仍然是一头雾水。一些人写出的文字语言流畅、条理清楚,带给读者“轻舟驶过万重山”的享受;另一些人写出的文字佶屈聱牙,逻辑朦胧,带给读者“辗转颠簸搓板路”的辛劳。不同的语言能力影响到一个人以至一个机构的职业形象,影响到一个人以至一个机构的工作效率。
语言是思维的形式,是交际的工具。语言能力是一个人胜任职业工作的核心能力。语言能力是各行各业选人用人时重要的考虑因素之一。许多单位在选人用人时越来越看重人的语言交际能力,许多单位在招聘员工时希望选用一些“文字能力”强的人。但是,长期以来我国却没有一个可以有效评价语言能力的工具,没有一个可以得到普遍认可的语言能力测试。
高考语文考试是目前我国影响最大、最具权威的一项语言能力评价工具。许多人已经注意到,这个工具并不理想。我本人曾经在教育部考试中心的资助下进行过关于高考语文考试效度(有效性)的研究。研究结果显示,高考语文成绩与反映学生语言能力的指标(包括高三的语文成绩、高中语文教师对学生语文水平的评价、高中同学关于语文水平的互相评价、大学的学习成绩等)之间相关较低,或者说,高考语文成绩不足以反映出考生的语言能力。(大学学习能力倾向测验课题组:大学学习能力倾向测验研究报告,教育部考试中心编《能力考试的研究与实践》,中国人民大学出版社,第381—400页,1999)
王蒙、莫言、邹静之、何建明等许多著名作家都曾试答过高考试卷,成绩都不高。(何建明:《中国高考报告》,华夏出版社,2000)这些作家的表现也一定程度上显示出,高考成绩不足以反映一个人的实际书面表达能力。
另外两个影响较大的汉语语言能力评价工具是针对外国留学生的“中国汉语水平考试(HSK)”和针对少数民族的“中国少数民族汉语水平等级考试(MHK)”。这两个考试在语言能力测试方面进行了有益的探索,也已经达到较高的科学化水平,但是,它们的考试对象是将汉语作为第二语言的人,并不适用于以汉语为母语的人。
开发ZHC,就是为了满足国家机关、企事业单位和学校评价人的语言能力方面的需要。
改革开放以来,外语学习受到重视,中华大地上滚动着学习英语的浪潮,从沿海到内地,从城市到乡村,从大学到中学到小学直到幼儿园,一浪高过一浪。中华民族普遍的英语水平得到了空前的提高。这是一件可喜可贺的事情。但是,无论是学生,还是教师和家长,对汉语学习却没有表现出对英语学习那样高的热情,对作为母语的汉语学习却没有予以足够的重视。汉语水平不仅没有像英语水平那样出现空前的提高,甚至出现了一些“今不如昔”的迹象。语言错误不仅出现在中小学生的口头和书面表达之中,甚至出现在大学生以至硕士生、博士生的口头和书面表达之中,出现在学位论文、书籍、报纸、杂志和电视字幕之中。一些语文教师批评说,现在已经几乎是“无错不成书”、“无错不成报”、“无错不成字幕”、“无错不成论文”了。我们认为,汉语不仅是我们日常工作、学习和生活的工具,而且承载着民族的历史和民族的文化,是凝聚和传承民族精神的纽带。中国人学好英语是很重要的,但是,学好汉语也同样重要。
开发ZHC,就是为了倡导这样一种理念:为了提高我国的劳动力素质,在提倡学好外语的同时,也需要提倡学好母语。
“整整搞了半个世纪文字工作的”洪禹平先生,1998年3月10日在《中国青年报》发表文章,批评中国的语文教育“是一件误尽天下苍生的大事!”,并大声“向党和国家领导人呼吁,请他们在日理万机中把这件事也过问一下。”洪老先生的批评或许过于尖锐,但中国语文教育中确实存在一些问题,主要是过于强调对语文知识的记忆而忽视对实际语言交际能力的训练,过于强调语文知识的系统完整而忽视语言能力的培养,过于强调语法的分析而忽视语感的体验,过于强调对少数课文掰开揉碎的“精读”而忽视开拓学生的视野。由于我国语文教育中长期存在的这些问题,今天我国劳动人口中许多人的语言能力不能满足职业工作的需要。
开发ZHC,可以推动基础教育中语文教学的改革,促进语文教育中对实际语言应用能力的培养。
ZHC着重考查职业活动中完成任务的语言能力
ZHC不同于一般的语文考试,它既不考查一个人表现在学校里或学习活动中的语言能力,也不考查一个人在娱乐休闲活动中所表现的语言能力。既不考查孔乙己式的咬文嚼字的能力,也不考查相声演员所需要的说学逗唱的能力。ZHC主要考查在工作场所的职业活动中完成语言交际任务的能力。
ZHC着重考查语言能力而不是语文知识
1997年《北京文学》一组题为“中国语文教育忧思”的文章,揭开了一场关于语文教育的大讨论。这场讨论的成果之一就是国家教育部2001年制订的《全日制义务教育语文课程标准(实验稿)》(北京师范大学出版社)的出台。这一课程标准凝聚了我国语文教育研究人员的科学研究成果,凝聚了课程改革研究人员的心血和劳动。给我印象最深刻的是,在这个《课程标准》中大胆地提出:“应着重培养学生的语文实践能力”,“不宜刻意追求语文知识的系统和完整”。(第2页)长期以来,重视知识传授而忽视能力培养是我国教育的痼疾。我认为,能将这句话写入教育部颁布的《课程标准》,是我国教育在探索素质教育和能力培养方面迈出的重要一步,是一件很了不起的事情,是一件具有里程碑性质的事情。
语文知识并不完全等同于语言能力。在实际生活中不难发现,一些持有大学中文系文凭的人,实际的汉语语言运用能力并不理想,口头和书面的表达能力都难以满足职业工作的需要。如果考查他们的语法知识和文学知识,可能成绩很不错。不难发现,语文知识水平与实际职业环境中的语言应用能力,并不完全一致。
究竟什么是“语文实践能力”?什么是“语文知识”?为了回答这个问题,需要思考能力与知识的区别。
对于知识与能力的区别,中国的古人早就做出了非常清楚的回答:“授人以鱼,不如授人以渔。”送给别人一些鱼,不如教给别人一些打鱼的方法。鱼,就是知识;渔,就是能力。知识性考试,就是看一个人篓子里有多少鱼;能力性考试,就是让人打两网鱼看看,试其渔之高下。
“鱼”和“渔”之间有区别,“知识”与“能力”之间也有区别。在心理学中,能力和知识是一对既有联系、又有区别的概念。能力的形成离不开知识的积累,但能力不是简单的知识积累。二者的区别,主要体现在下面几个方面:
首先,二者的影响面不同。知识仅仅影响到一个人在有限领域中的活动,例如,关于茅盾作品的知识仅仅影响到一个人解决与茅盾作品有关的问题,对他在其他方面的活动影响并不大;语言能力则影响到一个人在广泛领域中的阅读和表达活动。
其次,二者的变化速度不同。相对来说,知识是一种“快变量”,既可能通过强化训练而获得,也可能由于遗忘而失去。能力则是一种“慢变量”,能力的形成过程恰似“冰冻三尺非一日之寒”,不是一朝一夕的事情。
第三,二者的变化方向不同。能力的变化基本是单向的,只增长,不减少,能力一旦形成,一般在衰老之前不会失去。知识则不同,可能增加,也可能因遗忘而减少。
在我国的语文教学中,长期以来过于强调对语文知识的记忆而忽视对实际语言交际能力的训练,过于强调语文知识的系统完整而忽视语言能力的培养,过于强调语法的分析而忽视语感的体验,过于强调对少数课文掰开揉碎的“精读”而忽视开拓学生的视野。可以说,重视知识传授而忽视能力培养是我国教育的痼疾。对于“传授知识”,我国的教师大多是行家里手,胸有成竹。对于“发展能力”,我国的许多教师都不知所措,茫然若失。
与以往形形色色的知识型考试不同。ZHC是一个语言能力考试。ZHC吸收了人类近几十年关于语言交际能力的科学研究成果,凝聚了我国语文教育工作者的教学经验,反映了多学科研究者们在探索考查语言能力的途径方面的研究成果。ZHC主要考查语言交际能力,考查语言表达和交流沟通能力,考查运用语言获得信息和传递信息的能力,考查运用语言完成一定工作和学习任务的能力。
ZHC主要考查语言能力,主要是语言交际能力。 “交际能力”可以理解为“交流能力”或“信息勾通能力”。我认为,“语言交际能力”是指在一定情境中、在一定语言背景中运用语言的能力,而不是对某个孤立字、词、句式、语法知识、作品知识、作者知识的记忆或识记。
语言交际能力主要包括:
1.运用语言获得信息和传递信息的能力; 2.对语言环境的适应能力; 3.运用语言完成一定工作和学习任务的能力。
具体讲,语言交际能力包括:
1.在一定语言环境中理解字、词的含义并掌握字、词的用法; 2.从声音和文字的语言材料中获取主要信息; 3.把握和概括语言材料的主要内容; 4.跨越障碍,根据上下文推断语言材料中省略的一些非关键性内容; 5.领会语言材料中所表达的态度、情感、语气、情绪; 6.根据语言材料做出合理的推断; 7.以口语和书面方式正确、清晰、得体地表达自己的意思。
目前,ZHC暂时仅仅考查阅读理解能力和书面表达能力。在阅读理解方面,一方面需要考查对文字材料的理解能力,另一方面,需要考查阅读的速度。同时,也需要考查对字词的掌握。
在书面表达方面需要考查的能力包括:正确地书写汉字和语句,掌握句子连接的方式,掌握组句成段的表述习惯,掌握汉语书面表达的一般格式,具体地描写出事物的状态和主要特征,清楚地叙述事件的主要过程和具体细节,说明和解释事物的基本事理和形成的原因,阐述对某种现象的看法和理由,等等。
在不久的将来,ZHC将增加听力测试和口语测试。
ZHC不考查语法知识和语法概念。ZHC将对语法的考查寓于对语言交际能力的考查之中。
ZHC考查稳定的语言理解能力而不是短期的记忆力
了解了知识与能力之间的差异,就很容易发现能力考试与知识考试的不同。知识考试主要考察特定的知识内容,如字词知识、语法知识、作家知识、作品知识,等等。能力考试则主要考察那些影响活动较广的、比较稳定的、潜在的、不易受到环境影响的心理特征。能力考试不同于知识考试,与知识考试相比,能力考试的特点主要表现为以下两个方面:
首先,不容易受到强化辅导的影响,几乎是无法准备的。在知识考试中,一些实际能力和学习潜力并不很强的人,可能会借助强化辅导和死记硬背而取得高分。相反,一些具有较强潜在能力的人,可能由于不善于背书和不善于应付考试而成绩不高。知识考试很大程度上反映的是一个人对于考试的准备程度而不是实际的能力水平。在知识考试中,准备3个月的人通常会比准备1个月的人更容易取得好的成绩,接受过特殊辅导的人往往比没有接受过特殊辅导的人更容易取得好的成绩。有的时候,知识考试成绩所反映的是辅导教师的水平而不是学生的实际水平。与此相反,能力考试往往是无法准备的,除了长期积累,别无捷径。
其次,对记忆力的要求较低。多数考试的目的是考查应考者是否具备完成某些工作、学习任务的能力。招生、招聘考试的目的是预测应考者以后的学习、工作表现。考试内容的确定必须从考试目的出发。在知识考试中,一般需要考生记忆一些知识内容,对考生的记忆力有较高的要求。记忆力是人的基本的心理能力,较好的记忆力是完成工作、学习任务的条件之一。但是,取得成功所需要的能力是多方面的。与记忆力相比,可能理解能力、判断能力、推理能力、表达能力等更为重要。记忆力较强的人一般容易在知识考试中取得好成绩,但是,在实际工作中,记忆力强的人并不一定是最成功者。
ZHC不同于许多那些“读一本书、背一本书、考一本书”的考试。ZHC不考查一个人的记忆力。ZHC成绩不反映一个人对考试的准备程度,很少受到短期强化训练的影响。ZHC主要考查一个人稳定的、表现为“冰冻三尺非一日之寒”的语言能力。在这种稳定的语言能力中,包含长期学习的积累,包含刻苦学习的结果。
ZHC主要考查语言的“形式”而不是“内容”
有思想的人未必善于流畅地表达,善于流畅表达的人未必有思想。到学校图书馆去翻看博士、硕士们的论文,其中不乏真知灼见,不乏思想的闪光,但对于许多论文的文字表达实在不敢恭维。今天市面上流行一种所谓“小女人读物”,虽然没有什么思想的内涵,但文字却可谓优美流畅。ZHC主要考查语言的“形式”而不是“内容”,主要考查“文从字顺”、流畅得体,而不考查语言所表达内容的是非高下。
ZHC主要考查“语言”,而不是“文学”和“人文”
日前,我收到一份对外汉语教学专业硕士研究生的求职简历。她本科所学专业是汉语言文学。如果从小学算起,学习语文已经有19个年头。在“所学课程”一栏中写着“请详见后面所附成绩单”。这是一个拖沓的表述。更好的表述似乎应是“请参看所附成绩单”或“详见后面的成绩单”。她所存在的问题,显然属于“语言问题”,而不是“文学问题”,更不是“人文问题”。
语文教学究竟是应该教语言?还是教文学、教人文?语言能力考试究竟应该是考语言?还是考文学、考人文?这是我国语文教学界长期争论的问题。我认为,在以往的语文教学中,确实存在过于强调语法和语言知识的偏向。一方面,学生的大量精力用于死记硬背一些语法和语言知识;另一方面,把对作品思想意义、文学特色的概念化、标准化分析作为语文教学的重点。结果,强化了文学性而忽视了语言基本技能的训练。经过十数年的语文教学,许多学生在汉语阅读理解和书面表达方面仍然不尽如人意,在使用汉语进行学习、工作方面存在很多问题。这种状况需要改进。ZHC主要考查“语言”,而不是“文学”和“人文”。一般说,作家知识和作品知识不是ZHC考查的重点。
ZHC考“文从字顺、条理清楚”而不考“立意构思”
ZHC中包含对书面表达能力的考查。在书面表达的考查中,将着重考查表达的准确性、流畅性、条理性和得体性,而不考查“立意构思”。
高考中设有作文考试,其目的是考查考生是否具备完成大学学业所必需的书面表达能力。从1999年的“假如记忆可以移植”、2000年的“答案是丰富多彩的”、2001年的“诚信”、2002年的“心灵的选择”、2003年的“感情与认知”等高考作文题目中可以看出,它们存在同样的问题:得低分的考生有可能并不是因为书面表达能力差,而是因为不熟悉话题内容,或所持观点与“主旋律”不符。
我们认为,表现为“文从字顺(2001年新版教育部《语文课程标准》中用语,第4页)”的语言能力与表现为“真知灼见”的立意构思能力属于不同的能力,文从字顺者未必有真知灼见,有真知灼见者未必文从字顺。因此,在ZHC中不考查立意构思能力。
ZHC为什么部分采用选择题?
一般说,最有效的评价方式是高水平语文教师对学生的长期观察,是教学中的长期评价。这种评价的主要缺点是缺乏可比性。王老师总能相当准确地认定自己的学生中谁的语文水平最高,但王老师的得意弟子与李老师的得意弟子谁的水平更高就很难说。由于缺乏可比性,这种方法在实践中的可操作性受到局限。
传统的主观性考试是仅次于长期观察的比较有效的评价方法。但是,有效的条件是高水平的评分人。如果评分人不具慧眼,就会有许多“范进”蒙冤。即使是高水平的评分人,也有失察的时候。在实际的判卷中,常出现开始较严、越判越松的现象。对于命题作文来说,评分可能不是最重要的误差因素。主题的偶然性会影响到考生的发挥。遇到顺手的题目,不吐不快而一气呵成;遇到缺乏自身体验的题目,搜肠刮肚仍难得佳句。考生可能由于缺乏体验而使真实的语言能力得不到充分表现。
或许选择题的有效性稍差,但具有客观性强和可以用计算机评分的优点。客观性选择题的命题难度很大,不仅需要经验的积累,而且需要天分和灵感。坊间流行的习题集、参考书中的客观题大多是粗制滥造。一位北京中学语文教学界的权威人士讲:“命制主观题我一个晚上可以编一份试卷,命制客观题我有时为一道四选一选择题的一个迷惑性备择选项而考虑一个晚上。”
粗制滥造的选择题俯拾皆是。在充斥书店的各种“标准化习题集”,真正好的选择题可谓凤毛麟角。下面,给出几道统计分析数据显示质量较高、鉴别力较好的选择题:
选词填空:这个乡的成功经验,说明农村一定要因地制宜地发展生产,这是不能 的经济规律。A 违犯 B 违抗 C 违背 D 违拗 (答案:C)
选择与所给短文内容最相符合的一项:铁路新线路的开辟与否往往必须在建路花费尽可能少的要求与新建路线的商业与贸易运输量尽可能多的要求之间取得妥协。这段话主要支持了这样一种论点,即新建铁路的线路A 应该是一条造价最低的线路。B 的选择影响了新兴商业与贸易中心的兴起。C 决定于是否与终点之间的距离最短。D 不会总是具有最低建造成本的路线。 (答案:D)
选择与所给短文内容最相符合的一项:物理学的影响远远超出了它自己的领域,对分析方法的强调导致了学术界广泛的还原主义,进而变为一种确信复杂的世界现象可以通过将其还原为某些要素来加以理解的信念。生物学家、心理学家甚至人文学者在标榜自己的学说时,都情不自禁地从物理还原论模型中寻求支持。这段话主要支持了这样一种论点,即A 各门科学之间的互相借鉴已日趋普遍。B 在物理学研究领域中,还原论是一种有效的方法论。C 一种方法论往往具有自己的适用范围。D 方法论对科学发展的推动力是巨大的。 (答案:C)
我认为,如果我们有足够高水平的评分队伍,我们可以不要客观性试题;如果我们有足够高水平的命题人员,我们可以不要主观性试题。然而,我们面对的现实是既不能保证评分队伍的水平,也缺乏命制客观性试题方面的经验积累。
客观性选择题在美国的普遍使用始于40年代。普遍使用的原因是二次大战中缺乏人手,没有足够的评分教师。二战结束后,围绕是否继续使用选择题的问题,美国语文教学界进行过很激烈的争论,尤其是对使用选择题来考查写作能力的争议很大。为此,从1954年起,美国最大的考试研究机构教育测验服务中心(ETS)进行了长达三年的实验研究。ETS对《英文写作水平考试》(English Composition Achievement Test ,简称ECT,全部是选择题)、《普通写作测验》(General Composition Test, 简称GCT ,两小时的作文考试)和《学习能力倾向测验》(Scholastic Aptitude Test,简称SAT,)的言语部分(全部是选择题)等三个考试进行了比较研究。考试的有效性标准是语文教师对学生作文水平一年或一年以上的观察结论。1957年,ETS公布了他们的研究成果:SAT的效度最高,与语文教师基于长期观察对学生写作能力做出的的主观评价最一致。其次是由客观性试题组成的ECT,最差的是由作文题目组成的GCT。(D.Owen:None of the above, Rowman & Littlefield Publishers, INC, Lanham, 1999, P27-39)正是由于这一项研究,才使其后的40年中客观性选择题成为美国语言能力测试的主要题型。
综合考虑了客观性选择题与主观性作文题之间各自的优势和局限,综合考虑了未来阅卷人的平均水准和评分误差控制的能力,综合考虑了考试的可靠性、有效性和可行性,ZHC最后确定了现行的题型结构。在ZHC中,既包括客观性选择题,也包括两篇主观评分的作文题。客观题保证了测试最低限度的可靠性(信度),主观题保证了测试的有效性(效度)。
ZHC不依赖于任何特定教材
ZHC的另一个突出特点是“不以任何特定教材为依据”。以往,在语文教学领域中曾经存在“教一本书、学一本书、背一本书、考一本书”的情况。在这种情况下,虽然有的学生通过背书取得了似乎不错的成绩,但实际的语言交际能力并不高。我认为,这种局面必须改变。
我认为,好的教材、好的教法都是针对特定的教师条件和学生特点而言,不存在脱离特定教师条件和学生特点的普遍适用的好教材,好教法,不存在“放之四海而皆准”的好教材,好教法。语文教学需要“因材施教”,需要实事求是,需要依靠广大教师和教学研究人员的创造性劳动。为了提高语文教学质量,为了改变语文教学中“高分低能”的现象,需要广大教师和教学研究人员的创造性发挥。只有在教材编写、教法创新方面造成一种“千帆竞发”、“百舸争流”的局面,才能开创出语文教学的新局面,才能在语文教学领域实现素质教育。
ZHC的质量控制
中国人一般总是主张“分数面前人人平等”,认为考试是最公平的人员评价方式。事实上,考试的公平性问题并不象人们想象的那样简单。
首先,考试并不一定都可靠。2003年春SARS流行时期,各个机构的入口处都要测量体温,使大量先进的“红外”、“激光”体温计热销。并非所有的体温计都是可靠的。有些误差在摄氏1度以上。我们以考试作为一个“体温计”对人的能力进行测量,考试这个“体温计”也并不是天然可靠的。如果这个“体温计”本身有质量问题,今天量一个温度,明天量又一个温度,你量一个温度,我量又一个温度,这样的考试就缺乏可靠性。
据2002年7月22日《南方日报》一篇题为“高考作文两次改判背后的幸与不幸”的文章披露,在2002年四川省高考语文阅卷工作中,一篇作文因“与传统观点格格不入”,评卷老师只给20分。“将此文提出来与整个阅卷室的数十位评卷教师讨论,结果争议很大,从20多分改成了40多分,最后请示评卷指导委员会,最终被认为是一篇不可多得的佳作,给出了相当高的分数。” (满分60)
“高考”应算我国最严肃的考试之一。“高考”这把“尺子”,在被用来测量一个考生的语文能力的时候,尚存在如此大的“伸缩性”,其他考试的可靠性可能问题更大。一个好的考试,首先需要反映考生真实的水平。能否反映考生的真实水平?就是考试的可靠性问题,或信度问题。
其次,可靠的考试并不一定都有效。在一项关系考生命运的重要考试中有这样一道阅读理解题:
历来印章均以篆为宗,故治印章必先精通篆法,用字要有出处,变化须合六书,切忌生编 滥造或任意增减。 “以篆为宗”中的“篆”指的是: A.篆刻 B.篆法 C.篆字 D.书法
这道题的正确答案是“篆字”。在考试中,大部分考生选择了“篆法”。答对这道题,需要某些关于治印的专门知识。那些具有这方面知识的人,可以取得好的成绩。这类题目,可以反映出考生治印知识方面“真实的”水平。但是,这项考试的目的是考查“阅读理解”而不是“治印”。虽然考试成绩是“可靠的”,反映了考生某一方面的真实水平,但是,对于评价考生的“阅读理解能力”这一目的来说,有效性却有限。事后的统计分析数据显示,该题目鉴别能力很差,不能正确鉴别考生的语言能力。
所有考试的命题人员都会认为自己编制的考试是“高分高能”。实际应用的考试中,却常常存在一些“高分低能”的现象。“高分低能”的考试就是缺乏有效性的考试。考试能否实现考试目的?这就是考试的有效性问题,或效度问题。所谓效度,总是就一定的考试目的而言的。
第三,既可靠、又有效的考试,并不一定都有用。在一个大学毕业生的求职简历中,学习成绩单上写着“现代汉语80分”。即使他所参加的“现代汉语”考试是一项既可靠、又有效的考试,根据他的这个成绩,我们也很难判断他的“现代汉语”课程学得究竟如何,更不用说据此去推测他的现代汉语水平的高低。如果任课老师评分政策比较严格,他这门课程可能学得很好;如果任课老师评分政策比较宽松严格,他这门课程可能学得并不好。或者说,我们从这个分数中的到的有关这个考生的评价信息很有限。分数中包含信息很少的原因是缺乏必要的参照系。
任何一组考试题目或考试任务,都可以得到一个“正确回答数”或“正确回答比例”,都可以得到一个“分数”。但是,并不是对任何一个分数都可以做出与考试目的有关的解释,都可以被赋予“意义”,都可以成为决策的合理依据。考试的可靠性和有效性是对分数进行解释的基础,是赋予分数以意义的前提。此外,还需要有一个合理的分数体系。
事实上,考试的质量存在优劣之分。一般人的观念是:是英雄,是好汉,考场上,比比看。考不过,心服口服。现代教育测量学的观念是:何以见得一个人答不好这张试卷就做不好工作,完不成学业?在根据考试成绩做出招工、招生方面的决策时,需要拿出说明考试的信度、效度的证据。否则,就是对一个人就业、升学权利的侵害。
考试是一个衡量人的能力的“天平”或“体温计”。这个“天平”或“体温计”,本身存在着质量问题。有的质量较好,可以基本准确地反映人的能力水平。有的质量较差,在测量的过程中存在很大误差。这个体温计的质量如何?这个考试的质量如何?何以见得我没有通过某项考试就不能胜任一定的工作或学习任务?理由是什么?这些问题,应该得到合理的回答。由于考试往往关系到一个人的命运,与冰箱、彩电、洗衣机的质量问题相比,考试的质量问题应该受到更多的关注,考试更应该具有一张“质量检验合格证”。
考试的目的是提高人员素质,维护社会公平。但是,并非所有考试都一定能够带来人员素质的提高,都能够实现社会的公平。语言能力测试并非始于今日,从八股取士到现行的高考作文,语言能力测试在我国古已有之。中国古代的科举考试是形式上非常完备的考试,有些保证公平的措施今天都很难做到。例如,科举的“单间”施测,进场搜身,誊录(为了避免辨认笔迹将所有答卷全部重新抄录),等等。但是,科举考试并没有带来人员素质的提高。为了真正达到选拔人才和维护公平的目的,需要重视考试本身的质量问题。
ZHC是标准化证书考试。ZHC通过预测、等值、题库建设、分数体系设计、主观评分控制等各个环节,对考试的质量进行控制。
ZHC的命题过程
参加ZHC命题工作的老师分别来自北京大学、北京语言大学、中国人民大学、北京师范大学等高等院校。所有参加命题的教师都具有硕士学位或博士学位。命题教师命制的试题要经过严格的审定和检验才能付诸正式使用。第一关是专家单独审题。只有经过两名专家“双盲”匿名审定的题目,才能付诸预测。第二关是预测。经过预测,那些难度、区分度、猜测度、DIF(关系公平性的统计量)等统计指标不合格的题目将被淘汰。第三关是专家集体审题。在审题会中,专家结合统计数据,对每道题“横挑鼻子竖挑眼”。只有经受住专家挑剔的题目,才能进入题库。
在这些环节中,最重要的一个环节是预测。为了保证ZHC的质量,我们坚持以考前预测的方法筛选题目。在根据预测数据筛选试题的过程中,我们既计算了题目通过率、题目区分度、备择选项选择情况等基于经典测验理论的统计量,也计算了基于IRT的题目参数。
预测和统计分析对于提高试题质量具有非常重要的意义。首先,借助预测数据,我们可以事前对试卷的难度进行定量控制,避免了试卷难度出现较大的起伏;其次,可以帮助我们发现试卷中存在的问题,避免发生错误。例如,一个出现了负区分度的题目,即错误选项与试卷总分之间的相关高于正确答案与总分之间相关的题目,很可能存在某种问题,或者是没有正确答案,或者是正确答案不唯一,或者是题目太难,几乎没有人能够选择正确答案;第三,可以通过尽量减少那些区分度不高或难度不适当的题目来提高试卷的质量;第四,可以通过对迷惑性备择选项的分析来改进题目。替换掉那些缺乏迷惑性的备择选项,可以增加题目的区分度。
ZHC的分数等值
ZHC是一个水平考试和等级证书考试,必须保证在不同时间、使用不同试卷的考生可以得到公平的对待,必须保证证书的授予标准不随试卷难度而起伏,必须保证不同试卷得分之间具有可比性。如果对使用这一份试卷的人一个标准,对使用另一份试卷的人又一个标准,那么,不仅会大大影响ZHC的信度和效度,而且会对有关的决策产生误导,会使考生受到不公平的对待。将测验不同版本的分数统一在一个量表上的过程即等值(equating)。等值是测验公平性的保证。尽管我们在命题过程中总是尽量保持考试难度的稳定性,但不同试卷之间在难度、信度、分数分布方面的差别很难完全避免,这种差别会使考生受到不公平的对待。如何保持试卷难度的稳定性和保证分数的公平性?这是ZHC开发过程中所考虑的一个重要问题。
ZHC的公平性
在一次重要的全国性考试中曾经有这样一道题:
下列哪个城市不是经济特区?
A 深圳 B 厦门 C 广州 D 汕头 (正确答案是广州)
在事后的试卷分析中发现,广州考区的多数考生都做出了正确回答,成都考区的许多考生却答错了。不同地区的考生在这道题的回答上存在明显的差异,这道题有利与广州考生,不利于成都考生。
研究发现,一些涉及武器、足球的题目存在男女之间的组间差异,有利与男性考生,不利于女性考生。在中国,一些涉及空调、微波炉、地下铁道等现代设施的题目存在城乡考生之间的组间差异,有利于城市考生而不利于农村考生。
ZHC对于文科和理工科背景的考生是否公平?对于男生和女生是否公平?对于来自城市和乡村的考生是否公平?对于来自沿海城市和内陆地区的考生是否公平?这些是我们在ZHC的开发过程中所关心的问题。通过统计分析,可以发现试卷中存在的问题,可以发现那些对某一特定群体不公平的试题。对于这类问题的统计分析研究就是“题目功能差异(differential item functioning, DIF)”研究,即DIF研究。上面关于经济特区的题目中所存在的问题,就是在考试之后的常规DIF分析中发现的。
我们运用Mantel-Haenszel方法、标准化(standardization)方法和Sibtest方法等比较规范的方法对ZHC进行了DIF研究,并自己开发了一些进行DIF研究的软件。通过研究,我们会删除那些存在明显对某一群体不公平的题目,保证ZHC的公平性。
ZHC是一个面向市场的服务型考试
近年来,一些权力机构组织的任职资格考试已经背离了组织考试的初衷。本来,资格考试的目的是保护消费者的利益。例如,医师资格考试是为了保护病人的利益。不具备资格的行医者可能造成病人利益的损失。建筑师资格考试是为了保护住户的利益,不具备资格的建房人可能造成住户利益的损失。但是,由于考试缺乏科学性基础和质量保证,由于缺乏对考试本身的有效质量监督,一些质量不高的考试并没有实现考试的初衷,出现了“高分低能”和“高能低分”的现象。笔者就曾经听到一些一线的管理者抱怨:实际工作中最优秀的计算机软件开发人员却不能通过某些权力机构组织的计算机软件人员资格考试,实际工作中经验最丰富、能力最强的财务人员却不能通过某些权力机构组织的财务人员资格考试。
更有甚者,一些考试已经沦为一些权力持有机构牟取自身利益的工具。对此,一些人尖锐地批评说:某些考试已经成为一些权力持有人“权力寻租”的形式。
ZHC完全不同于这些行政权力主导的考试。ZHC将满足语言能力评价方面的社会需求和市场需求,将向用户(企业、机关、学校等)提供语言能力评价方面的服务。ZHC将主要通过良好的服务来开拓自己的市场,面对市场的检验。ZHC不会借助行政权力来推行。是否在人事决策中参考ZHC的成绩,将完全是使用者自主、自愿的选择。
谢小庆
ZHC专家委员会委员 北京语言大学教授
2003年12月12日