全球化背景下PISA在美国基础教育质量评估体系中的贡献

发布者：上海市教育科学研究院　来源：外国中小学教育　日期：2010-10-22 8:45:00　人气：

——基于美国PISA与NEAP的比较
上海教育科学研究院普通教育研究所副研究员占盛丽
华东师范大学心理与认知学院讲师文剑冰
上海教育科学研究院助理研究员朱小虎

摘要：上世纪末期以来，伴随各国对本国教育质量的关注，以及各国间教育交流和竞争的加强，不少发达国家都开展并实施国内范围和国际性的基础教育质量评估。本文通过比较美国的“国家教育进展评估”(NEAP)和国际学生评估项目(PISA)的异同，重点总结PISA在美国基础教育质量评估体系中的贡献，并指出PISA是全球化背景下基础教育质量多元评价体系中的一种重要实践，对我国建立多元化的基础教育质量监测体系有着重要的启示。

关键词：美国；PISA；基础教育质量评估；全球化

一、引言：全球化背景下各国多样化的大规模测试评估

上个世纪末期以来，随着各国丛础教育在量上的普及，教育质量越来越成为教育决策者、研究者和公众关注的焦点。提高教育质量就首先要了解当前的教育质量状况。伴随国际潮流，从微观层面(学生)关注教育的内涵发展和质量提高，通过大规模的外部统一学业测评，是目前实现了解基础教育质量的重要途径。由于预期目的的不同，不同类型的大规模外部测评在认知测评框架(如测评与课程的关系)、测试领域、测试对象、样本量(如是全样本或是抽样)、成绩报告方式等方面都各有差异。目前，许多发达国家都从国内和国际的视野同时评估本国的教育质量和公平，在开发本国的大规模学生学业测试的同时，引入国际性的大规模测试。大规模的国际测试，如，英国、美国、澳大利亚、加拿大等欧美国家，一般都参加以下几种国际测试：经济合作与发展组织(OECD)实施的“国际学生评估项目” (Program for International Student Assessment，简称PISA)，国际教育成就评价协会(International Education Assessment，简称IEA)组织的“国际阅读素养研究”(Program of International Readine Literacy Study，简称PIRLS)和“国际数学和科学趋势研究”(The Trend of International Mathematics and Science Study，简称TIMSS)。除此之外，这些国家都逐渐建立并完善了本国的学业成就评价体系，例如，英国从1988年起分别对学生在7、11、14、16岁时学习国家课程各科目的情况进行全国统一评定。美国自20世纪60年代以来建立并逐渐完善国家教育进展评估(National Assessment of Educational Progress，即NEAP)，澳大利亚政府也从2008年推出全国性的评价项目 (National Assessment Program，简称NAP)，由联邦政府批准设立并划拨专款，对中小学3年级、 5年级、7年级、9年级的各学科情况进行全面测评。

那么这些国际性与本国的学生学业质量测评究竟有何异同，它们在为各国建立基础教育质量评估体系、切实提高教育质量上究竟起着什么样的作用?尤其是对于超越本国课程的国际学生项目(PISA)，在各国的基础教育质量评估体系中究竟起着什么样的作用?本文以美国为个案研究，首先从负责部门、评估预期/目的、测试对象与领域、样本、学生成绩的公布形式五个方面，介绍美国NEAP和PISA，随后基于美国NEAP和PISA的异同，着重总结PISA在美国基础教育质量评估体系中的地位和作用，最后提出PISA对我国基础教育质量评估体系建立的启示。

二、国家学生评估项目(PISA)在美国

国际学生评估项目(PISA)是经济与发展合作’组织(OECD)发起的一项旨在系统测试15岁学生在阅读素养、数学素养和科学素养三个领域能力的国际比较测评研究。

1、负责部门

PISA最初是由OECD的教育司(Education Division)发起的，随着世界各国对教育质量的关注，国际教育竞争和国家实力竞争的加剧，PISA影响力逐渐扩大，参与国和地区也越来越多。从PISA2000的43个参与国和地区，到PISA2009，已经达到67个参与国和地区。PISA由OECD负责，在各参与国政府教育部门的支持与合作下共同实施，PISA理事会(Goveming Board)是其决策部门，澳大利亚教育研究理事会(ACER)根据与 OECD协议负责PISA测试的设计和实施。PISA试题和问卷由OECD组织世界各国相应领域著名的专家或专业机构共同完成，例如，PISA2006的科学命题由五个国际知名研究机构负责，包括澳大利亚教育研究理事会、荷兰教育考试院、挪威OSLO大学、德国KIEL大学、日本国际教育研究所。

作为OECD的成员国，美国已经连续实施完成四轮PISA，其实施管理工作主要由美国国家教育统计资料中心(National Center for Educational Statistics，简称NCES)负责。

2、评估目的

PISA实施的目的是测试15岁学生是否掌握了参与未来知识社会所必需的基础知识和基本技能，从而建立一套学生评价方面的教育指标，为各国制定教育政策提供参考，使他们能够用这套指标来审视、评估和检查各国教育体系以及学校教育的整体成效。

3、测试对象和领域

PISA是以年龄界定样本学生的，即7年级以上的15岁在校生(PISA2006中具体是指满15岁3个月到满16岁2个月之间的学生)。15岁学生的年级分布则与各国的学制设置等有着密切的联系。从PISA2006的样本看，美国PISA测试则以高中生为主，总样本中10年级学生占到71％，9年级学生为11％，其余年级学生共占到18％。
PISA主要有三个认知测试领域：阅读、数学和科学。问题解决领域也一直是PISA考虑并在不断完善的领域，如PISA2003就把问题解决作为测试领域之一。PISA还同时实施学生问卷、学校／校长问卷、家长问卷，以了解学生及学校的背景状况。

4、样本

OECD的PISA抽样要求，每个国家至少有4,500名样本学生，150个样本学校。据此，以PISA2006为例，样本为166所学校，共5,611名学生。

抽样在很大程度上决定了研究结果所适用的对象范围。PISA学校抽样分为显性分层变量和隐性分层变量。美国PISA的显性分层变量将全美学校总体分为两组：大规模学校和小规模学校。隐性变量有五个：学校的年级范围(五个水平)、学校性质(公立或私立)、所在地理位置(分为东北、中央、西部、东南部)、相对于人口稠密区域的地理位置类型(六个水平)、非白人学生比例(大于或小于15％)。

5、学生成绩的公布形式
在OECD公布各轮PISA的首份报告时，美国也一般会公布该轮PISA测试的首份国内PISA报告，如PISA2006的《PISA2006中的亮点：国际背景下美国15岁学生的科学与数学素养成绩》。

美国在各轮PISA报告中，一般用两种方式报告美国学生的PISA成绩。一是量化分数(scale scores)，阅读、数学、科学三个领域的分数一般设OECD国家学生的平均为500，标准差为100，各个国家以此为标准得出相对的分数。表1总结了前三轮PISA中，美国学生在阅读、数学和科学上的成绩，以及美国在OECD国家和所有参与国(经济体)中的排名。从表中可以发现，美国在各轮PISA中的表现并不理想，尤其是在数学和科学方面，学生的成绩表现都低于OECD国家平均分，并且从PISA2000到PISA2003和PISA2006，美国学生的成绩呈现下降的趋势。第二种成绩报告形式是量表等级，三个学科的等级划分稍有不同，PISA2006首份国际报告中，科学和数学都从水平1到水平6共有六个等级，阅读从水平1到水平 5共有五个等级。

资料来源：PISA2000年的数据；OECD．(2001)．Knowledee and Skills for Tomorrow's World：First Results of PISA 2000． Pads：OECD．PISA2003年数据：OCED．(2004)．Learning for Tomorrow's World：First Results from PISA 2003．Paris：OECD． PISA2006数据：OECD．(2007)．PISA2006 Science Comoetencies for Tomorrow's World(V01．1)．Paris：OECD．

注：(1)PISA2000共有28个OECD国家和4个非OECD国家参加，但荷兰回答率过低而数据没有包括在国际报告内。(2) PISA2003有30个OECD国家参加。英国因学生回答率太低而数据没有列入国际报告。(3)PISA2006中，美国由于试题本中部分阅读试题存在印刷错误，使学生成绩：吴差超过一个抽样标准误，因而阅读素养数据未收入国内和国际报告。

同时，参与PISA的样本学校也可以要求 NECS提供本校参与PISA的结果情况，NCES会向这些学校提供一个图表，显示出本校学生平均成绩相对于全美学生平均成绩、OECD学生平均成绩的相对位置，即表示本校学生成绩是高于或低于全美和OECD的平均成绩。

三、美国的国家教育进展评估(NEAP)

在美国，各个州都有一些自行实施的学业测试，但由本国测试且在全国范围内统一实施的教育测评只有一种，即国家教育进展评估(NEAP)。 NEAP是目前美国国内惟一连续的、长期的中小学生学业成绩测量体系，又称为国家教育报告卡 (The Nation's Report Card)。

1、负责部门

NEAP山美国国会授权，美国教育部所属的全国教育统计资料中心(National Center of Educational Statistics，简称NCES)负责管理，并由教育考试服务中心(Educational Testing Service， ETS)实施，山美国全国评估管理委员会(National Assessment Govemin Board,NAGB)联合来自相关学科领域的专业人士，以及来自美国政界、教育界、商界和各公共部门的参与者，共同确定评估框架和评估基准。

2、评估目的

NEAP的实施首要目标是向美国公众报告中小学的教育状况，促进教育质量和学生学业成就的不断提高。自1969年正式开始实施以来， NAEP已经在美国开展40多年，为美国各州和联邦政府提供一个常规的学生学业质量标准，对评估美国全国范围、各州以及不同地区的基础教育质量，促进成绩较差的学校和学区改进教学方式，提高学生成绩方面，起到了显著的效果。

3、测试对象和领域

NEAP每两年实施一次，在全美和各州范围对小学和中学的关键年级(包括4年级、8年级、 12年级)学生的教育评估，其主要目的是以各个学科的课程纲要为基础，参照全国范围建立的学生成绩标准(分为三个级别：基础、熟练、高级)，反映美国学生必需掌握的有关知识、技能和能力，并要求学生在不同年级对这些学科都有深入的理解。

NEAP在全国范围内的主要测试领域是阅读和数学测试，同时，在条件允许的情况下，有的州和地区还定期对写作、科学、历史、地理、公民学、外语、艺术等学科进行测试。NEAP同时也通过问卷了解学生、教师和学校管理者的背景信息。

4、样本

NEAP旨在发现全美国不同地区、年级、学校间的学生差异，因此对测试结果的精确程度要求相对比PISA高，样本量也很大。NEAP2007中，4年级抽样样本包括7,830所学校，共191,000名学生，8年级抽样样本包括6,930所学校，共160,700名学生。此外，2001年出台的美国中小学教育法案” (即《不让一个孩子掉队法案》(No Child Left Behind))正式确立了NEAP的三种评估形式：全国性评估(包括主要领域评估和长期趋势评估)、州评估(NEAP-State)和试验性城市地区评估(NAEP trial Urban District Assessment)，而州评估与试验性城市地区评估在本地区内的样本占总体的比例可能会更大。

5、学生成绩的公布形式

与PISA一样，NEAP的成绩结果也以两种方式向公众报告，一是等级分数(scalescores)，其中阅读、数学、历史、地理为0-500分，科学、写作为0-300分；另一种报告是将成绩水平分为基本 (basic)、熟练(proficiency)和高级(advanced)三个类别。

NEAP的评估结果为家长、教师、教育决策者、研究者、课程专家、媒体和美国公众提供了共享的资源。在国家水平上，NAEP以多种形式进行结果报告，其中“成绩报告卡”是很重要的一种成绩报告方式。根据2001年美国《中小学教育法案》要求，全国性的NEAP测试结果要以“成绩报告卡”的形式每年向公众报告，内容涉及学校的成绩表现及各州朝能力(proficiency)目标的进步情况。同时，为了保证所有群体的学生适度的进步速度，测验的结果还要按照学生的家庭经济收入状况、种族、残疾状况与英语能力水平 (即移民问题)等分类指标，分别进行报告。

四、PISA在美国基础教育质量评估体系中的贡献

从上面两个部分的分析可以发现，美国的 PISA与NEAP有一些类似之处，如两者都由美国官方的国家教育统计资料中心负责，都希望给政府提供基于证据的政策建议，学生成绩都以量化分数和量表化等级两种形式公布，等等。同时，两种测试又各有优势，NEAP是侧重本国内部比较，PISA侧重于国际比较。在全球化的背景下，各国之间的实力竞争与合作交流越来越频繁， PISA对于美国基础教育质量评估体系有着其特殊的重要意义。相对于NEAP，PISA对美国基础教育质量评估有着重要的作用和意义，体现在以下的三个方面：

1、测评框架超越课程，扩展基础教育质量评估的质量维度
PISA通过将美国学生在三个核心领域的成绩与其他国家的学生比较，从外部了解美国学生，尤其是高中阶段学生——有可能即将进入劳动力市场的学生——的学业质量状况，及其在全世界中的竞争性。

NEAP的测评框架是以学校课程为基础，以美国学业质量标准为参照，更多的侧重教学情境下以学校为基础的学习，以及学校的课程成就。PISA则不明确强调课程结果，而是强调运用阅读、数学和科学的知识和技能以解决现实生活情境中的问题。每个学科领域的框架都是基于概念、过程、情境或背景。PISA测量的是学生在核心领域的素养，即强调对过程的掌握、对概念的理解，以及在各个领域内在不同的现实情境中运用这些知识。因此，PISA所测试的知识和能力不仅仅来自于学校课程，同时也包括学生在校外学到的知识和能力。因此，PISA的实施为美国基础教育评估体系提供了一个不同的教育质量维度，使美国社会各界可以从更多元的视角评估和解读美国当前的基础教育质量状况。

2、检视美国教育的世界竞争力，推动本国教育改革

NEAP主要侧重于美国内部各州，州内不同地区、学区间和学校间的学业成绩比较和诊断，而PISA则提供了一个国际的视野，从外部评估美国的基础教育体系，促进美国基础教育的改革和质量的提高。

从PISA2000到PISA2006以来，美国学生在PISA各参与国中的成绩表现，引起了美国包括联邦教育部、各州政府官员、商界人士等社会各界对美国教育体系及其国际竞争力的反思。PISA2003结果公布以后，引起教育决策者、教育研究者和公众的广泛关注，当时的美国教育秘书长罗德·佩杰(Rod Paige)指出，PISA2003的结果指出有必要进行全国性的高中改革，并据此建议小布什政府完善《不让一个孩子掉队法案》，号召进行更多的州测试，并要求高中年级实施更为严格的学校问责制。联邦政府也做出回应。小布什政府号召高中增加有挑战性的学业课程，以供更多的学生选择。PISA2006结果公布以后，美国社会各界对美国教育在世界中的竞争地位深表忧虑，指出，美国PISA成绩平平预见了美国公民技能性工作的缺失，美国学生仍旧没有为充满竞争力的全球市场做好准备。亚洲协会(Asia Society)的斯图尔特(Vivien Steward)甚至认为，美国急需向其他国家学习，这样才能发展出全球导向的世界一流教育体制，使美国的学生具备能在未来成功的知识和技能。

3、强调教育测评对宏观教育政策的诊断性，降低测评对学生和学校的利害程度

NEAP也具有诊断美国全国和不同州或地区教育政策的功能，但NEAP主要侧重于不同地区和学校间差异的比较，根据2001年的《美国中小学法案》，NEAP的测试结果与学校问责制有着密切的关系，即学校的评估结果与奖惩制度相结合。这可以使参与学校更为关注学业质量标准和 NEAP测试，努力提高学校成绩，但也可能会导致有的学校管理者和教师对测试结果的影响压力过大，甚至有可能出于自身利益考虑在学生测试中作弊，影响测试的真实性和测评诊断的有效性。

PISA的测试结果除比较各参与国在阅读、数学和科学三个领域的成绩外，更重要的是从质量和公平两个视角，分析整个教育体系、学校和家庭等不同层面对学生成绩的影响，并对教育政策提出可能的改进建议，因此对政府制度教育发展的决策具有重要的导向性作用。同时，PISA对基于学校分类的学生群之间的比较很粗略，这或许
不利于详细比较不同学校和不同年级间学生教育质量的差异，但同时也使得PISA对参与学校和学生而言，是一项低利害的测试，更利于真实地呈现测试结果。并且，随着PISA试题和问卷设计的进一步精细化，尤其计算机技术在测评中的运用，预期可以在评估的低利害性与其对学校和学生个体间差异的敏感性间取得一个更好的平衡。

五、结语：PISA作为全球化背景下多元教育质量评估体系的一种实践

任何一种教育质量测评都有其优势和局限性，从对美国PISA的实施状况和影响力，及其在美国基础教育质量评估体系中的贡献可以发现，PISA从国际视角向美国政府和公众提供特定年龄学生群体的教育质量状况信息，促使美国政府和社会各界反思其教育政策，为教育政策的改进提供了依据和导向。随着社会的进步，教育质量的界定也将会越来越多维度，人们的选择也将越来越多元，不同的教育质量测评提供了各种教育质量的信息，PISA在美国的实施正是这种多元化教育测评理念下的一种实践。

2003年以来，我国教育部及部分省市相继都建立或正在筹建基础教育质量监测中心，并逐步开展义务教育阶段的学生学业成绩测评。同时，教育部及部分省市(如上海)也通过正式或非正式的方式参加国际性的测评，如教育部考试中心参加了PISA2006试测，上海正式参加了PISA2009。美国NEAP评估的建立早于PISA的实施，而我国全国范围或各个省基础教育质量评估的建设则与PISA的引入基本同步。因此，PISA的理念、测试框架、命题和评分的组织管理等各个方面都对我国建立本土的基础教育质量监测体系有着重要的借鉴意义。同时，现代化的教育体系需要多元化的教育评价体系，PISA必然对我国多元化基础教育评价体系的建立起到重要的作用，美国的个案便是最好的说明。

(文见《外国中小学教育》2010年第5期)