文献研读：A New Perspective on the Evaluation of Pupils’ Inquiry Skills Using Four-tier Test

使用四层测试评估学生探究技能的新视角

一、文献内容简介

文章通过培养学生的探究能力入手，提出传统的测验无法全面反映学生已掌握的探究能力，进而寻找到四层测试的评估方式，并在实验中将四层诊断和单层、两层选择题进行了比较，发现四层测试工具具有良好的信效度，且在对学生的迷思概念诊断中结果更加客观。

二、关于探究式教学

文章开篇引言介绍了多国在探究式教学中的实践以及探究式教学中遇到的一个重要问题：探究能力定义模糊。探究能力常与科学技能、调查技能、智力技能混用。部分学者将其等同于科学过程技能（O’Connor & Rosicka, 2020；Feyzioğlu, 2019；Song, 2016）；Aslan（2017）甚至将其视为21 世纪核心素养，因其对学业与社会发展至关重要。

总体而言，探究能力源于探究周期，反映科学研究流程，让学生（如同科学家）通过适龄、适切的探究活动解决研究问题（Arnold et al., 2013；Indri et al., 2020）。但大量研究显示，各学段学生探究能力普遍偏低（Čipková et al., 2026；Indri et al., 2020；Prahani et al., 2021；Šmida et al., 2024），且探究能力非天生、无法自发形成，需正式教育系统性培养，同时识别学习困难与认知错误，避免阻碍能力习得与应用。

三、探究能力的评估

文章提到了一些经典的评估工具：

1965 年：Walbesser 开发《过程技能测验》（小学生）；

1969 年：Tannenbaum 开发《科学过程测验》（7-9 年级）；

1975 年：McLeod 开发《变量控制、数据分析、假设、操作定义测验》（小学生）；

1980 年：Dillashaw & Okey 开发《综合过程技能测验（TIPS）》（7-12 年级）；

1982 年：Tobin & Capie 开发《综合科学过程测验（TISP）》（6-8 年级）；

1985 年：Burn 开发《综合过程技能测验 II（TIPS II）》（7-12 年级）。

以上工具的缺陷在于：单层选择题占主导 —— 存在猜测概率高、无法评估理解深度的缺陷（Çil, 2015；Gurel et al., 2015）

进而作者提出几种诊断测试的比较：

两层测验（答案 + 理由）可减少猜测，但难以区分迷思、知识不足、随机作答（Milenković et al., 2016）；

三层测验（答案 + 理由 + 自信度）虽改进，但无法区分答案与理由的自信差异；

四层测验（答案 + 答案自信度 + 理由 + 理由自信度）可精准识别真迷思，但多用于概念理解，极少用于探究能力评估。

四、研究过程

1、研究目的与研究问题

研究目的：

设计并验证四层探究能力测验，全面评估小学生探究能力，对比单层、两层测验结果，识别探究能力相关迷思。

研究问题：

RQ1：单层、两层、四层测验测得的学生平均分差异如何？
RQ2：两层、四层测验测得的学生迷思频率差异如何？
RQ3：四层测验中小学生存在哪些探究能力相关迷思？

2、研究材料与方法

（1）设计四层诊断测试题目并对效度和信度进行了如下分析：

内容效度：4 位生物教育专家评估，内容效度指数（S-CVI=1.00），一致认可；
认知访谈：12 名学生试测，确认时长与理解度；
结构效度：验证性因子分析（TLI=0.90、CFI=0.93、RMSEA=0.05、SRMR=0.04），模型拟合良好；
效度指标：假阳性（7.5%）、假阴性（3.7%），均＜10%，效度达标；
干扰项分析：95.5% 干扰项被选率＞5%，有效；
信度：KR₂₀=0.78，信度良好。

（2）评分标准如下：

单层测验（仅第一层答案）
答对：1 分；答错：0 分；满分 14 分；
信度：KR₂₀=0.74。

两层测验（第一层答案 + 第三层理由）
答案 + 理由均正确：1 分；否则：0 分；满分 14 分；
信度：KR₂₀=0.78。

四层测验（四层全满足：正确答案 + 自信 + 正确理由 + 自信）
全达标：1 分；否则：0 分；满分 14 分；
信度：KR₂₀=0.78。

（3）迷思识别标准：

两层测验：答案错、理由错→迷思；
四层测验：答案错 + 自信、理由错 + 自信→真迷思；
假阳性：答案对 + 自信、理由错 + 自信；
假阴性：答案错 + 自信、理由对 + 自信；
不自信作答：不计入迷思。

（4）数据分析方法

描述统计：均值、中位数、标准差；
正态性检验：Shapiro-Wilk（非正态）；
差异检验：Friedman 检验 + Durbin-Conover 事后检验；
相关分析：Spearman 相关；
迷思差异：Wilcoxon 符号秩检验。

五、研究结论

从均分差异来看，传统测验严重高估了学生的真实能力，四层测试的结果最为客观。从迷思诊断来看，两层诊断测试容易高估迷思出现的频率，四层诊断对迷思的识别更加精准。

1、核心发现

四层测验是有效、可靠的探究能力评估工具，显著优于单层、两层测验：

避免猜测误差，结果客观；
精准区分真迷思、知识不足、随机作答；
揭示学生高频误区，为教学提供靶向依据。

2、教学启示

优先采用四层测验开展诊断性评估；
针对性纠正变量识别、实验设计、问题提出三大迷思；
培养学生元认知能力（自信度判断）。

3、研究局限

四层测验编制、实施、评分成本高；
测验数据依赖拆分分析，非独立施测；
样本代表性有限；
干扰项质量有待优化；
未探究迷思深层成因。

4、未来展望

结合质性访谈，深入分析迷思成因；
拓展样本，开展跨文化研究；
简化测验流程，降低实施难度；
探究自信度与元认知的关联。

五、阅读启示

通过对文章的通读不难看出，探究式学习在各国仍处在教学改革和教学实践的风口浪尖，对于探究式学习在真实课堂中的实施难度，通过第一轮的行动研究也确实让我深有体会。尽管探究式学习的口号已经很早提出，但是真正想要实施一节探究式学习的课程在资源较为匮乏、学生认知水平较为局限的乡镇学校还有很大的难度。真实的教学中常常受迫于教学进度及应试的压力使得探究式的学习难以落到实处。

同时在探究式学习中较为重要的一环需要学生像科学家一样自主探究，因此问题链的设置和学生学习过程中“脚手架”的搭建就显得至关重要。凡此种种，一节预设的探究式课堂一不小心就容易变成师生互动式的课堂，更甚者由于学生不能够进入到预设的探究活动中，为了课程的进行反而变成了老师讲授为主的课堂。在接下来的一轮探究式教学中格外需要注意的就在此处。

此外，文章的重点在于对四层诊断测试的验证，其中也提到过一句“四层诊断测试多用于检测概念理解的迷思概念”，这一论段刚好与我的研究方向一致，即通过四层诊断测试设计的前后测来诊断学生对于物理概念的理解情况。

最后还有值得借鉴的是文章中提到的数据分析方法、赋分原则以及迷思诊断标准，可以在之后的数据处理中加以借鉴。

附文章原文：

A New Perspective on the Evaluation of Pupils’ Inquiry Skills Using Four-tier Test 下载