第二章：生成式人工智能用于人类技能发展与评估：对现有实践的影响和新视野

生成人工智能 (GenAI) 正在通过重塑技能的开发、评估和支持方式来改变教育格局。本章综合了有关 GenAI 技术如何影响教学实践、反馈和评估的最新经验证据。它探讨了使用 GenAI 提供个性化辅导、提高反馈质量和自动化评估实践的机会和局限性。本章主张人类技能发展和人工智能增强表现之间的谨慎平衡，强调需要在智能辅导和评估框架内将 GenAI 在教学上进行基础整合。最后概述了确保 GenAI 加强而不是替代人类学习和教学专业知识的研究和政策方向。

引言

2022 年 11 月 ChatGPT 公开发布后，生成式人工智能 (GenAI) 得到广泛采用，引发了关于其对教育影响的深刻辩论。 GenAI 可以提供通过个性化指导和反馈来支持技能获取的技术，并提高教学实践的效率和效果（Giannakos 等，2024[1]）。然而，GenAI 也带来了伦理挑战和风险（Kofinas、Tsay 和 Pike，2025[2]；Nikolic 等人，2023[3]）。 GenAI 的发展促使教育工作者、教育领导者和政策制定者广泛参与 GenAI，重新思考教学、评估和治理框架，以利用 GenAI 的潜力，同时降低其风险。通过这些努力，许多教育机构制定了政策和指南来支持教职员工和学生使用生成式人工智能（Jin 等，2025[4]）。同样，许多政府、政府间、非政府和非营利组织也制定了文件，为 GenAI 的采用、负责任的实践和教育工作者专业发展框架提供信息（Cardona 和 Ishmael，2023[5]；Miao 和 Cukurova，2024[6]；Miao 和 Holmes 2023[7]；OECD，2023[8]）。同样，GenAI 的快速发展也促进了 GenAI 的快速发展。动员许多研究人员研究对教育和人类学习的影响（Yan等，2023[9]；Zhang等，2024[10]）。

本章旨在总结有关 GenAI 对人类技能开发和评估影响的最新证据。重点将放在人类技能发展和评估上，因为它们是教育和专业发展计划的核心。 GenAI 对人类技能发展和评估的影响的分析特别围绕两个互补的观点进行。首先，GenAI 技术为推进我们现有的技能开发和评估相关实践提供了一些有希望的前景。例如，GenAI 可用于提供交互式教学支持、大规模提供个性化反馈、并自动创建和实施评估（Giannakos 等人，2024[1]；Yan 等人，2024[11]；von Davier，2026[12]）。其次，GenAI 挑战了我们对学习实践的现有假设，并呼吁采用新颖的评估方法。例如，虽然 GenAI 可以提高某些情况下的性能，但它也可能限制人类代理并导致对 AI 的过度依赖（Darvishi 等人，2024[13]；Fan 等人，2024[14]；Stadler、Bannert 和 Sailer，2024[15]）。最后，我们需要加强用于研究 GenAI 时代人类技能发展和评估的研究方法，以避免最近文献中提到的挑战，例如学习和表现的混淆（Weidlich，2025[16]；Yan 等人，2025[17]）。

本章基于对研究文献中发表的实证证据的分析。鉴于 GenAI 在教育和专业发展中的核心作用，它总结了有关 GenAI 有效性的现有证据，以支持现有的指导、反馈和评估实践。它还描述了最新的人类与人工智能混合技能的概念，该概念认识到需要支持人类技能的发展，同时使用 GenAI 提高任务绩效。本章最后根据现有证据和未来研究的有希望的方向提供了对实践和政策的影响。框 2.1 提供了生成式人工智能的主要术语和类型以及教育人工智能（AIED）领域相关技术的术语表。

专栏2.1 术语表

生成人工智能 (GenAI) （Generative Artificial Intelligence (GenAI)）

人工智能的一个分支，专注于根据从现有数据中学习的模式创建新内容，例如文本、图像或音频。 GenAI 系统与大型语言模型一样，可以生成各种格式的类似人类的响应、创意作品和解决方案。

大型语言模型 (LLMs) （Large Language Models (LLMs)）

一种机器学习模型，通常基于深度学习，基于大量文本数据进行训练。 LLM 能够生成连贯且上下文相关的文本、回答问题以及执行各种语言任务（例如 GPT、BERT）。

扩散模型 （Diffusion Models）

一类生成模型，通过模拟逐渐添加噪声的过程，然后反转噪声以恢复原始信号，创建高质量数据（例如图像或声音）。它们尤其以生成逼真的高分辨率图像的能力而闻名。

GPT（生成式预训练变压器）（GPT (Generative Pre-trained Transformer)）

一种使用变压器架构的大型语言模型。 GPT 模型在大量数据集上进行了预训练，并针对特定任务进行了微调，能够在各种上下文中生成类似人类的文本。

BERT（来自 Transformers 的双向编码器表示）（BERT (Bidirectional Encoder Representations from Transformers)）

一种预训练的基于 Transformer 的语言模型，专为自然语言理解任务而设计。与单向模型 GPT 不同，BERT 双向处理文本，提高了理解句子上下文和含义的能力。它对文本上下文的“理解”在教育中的文本分析方面显示出了有希望的结果。

提示和提示工程（Prompt and Prompt Engineering）

提示是给予 GenAI 模型以产生特定输出的输入文本或指令。提示工程涉及设计和完善提示，以实现 GenAI 模型所需的响应或行为，通常是通过反复试验。

零样本提示 （Zero-shot Prompting）

一种提示模型预期执行某项任务的方法，而无需对该任务进行明确的训练。

一次样本提示法（First-shot Prompting）

一种提示工程变体，在执行任务前仅向模型提供一个示例或指令。

思维链提示法（Chain-of-thought Prompting）

一种提示技术，模型在提供最终答案前先生成中间推理步骤，有助于提高复杂任务的准确性。

检索增强生成（Retrieval-Augmented Generation, RAG）

一种将基于信息检索的技术与生成式人工智能模型相结合的混合方法。RAG模型从大型数据库或知识源中检索相关信息，并利用这些数据生成更准确且上下文一致的输出。

智能辅导系统（Intelligent Tutoring Systems）

基于人工智能的教育软件，提供个性化指导和学生反馈。这些系统通过根据学习者的需求和表现调整内容、节奏和难度来模拟一对一辅导。

学习分析（Learning Analytics）

对学习者及其情境的数据进行测量、收集、分析和报告，以理解和优化学习及其发生环境的过程。它利用数据来改进教学实践和学生成果。

学习分析仪表板（Learning Analytics Dashboard）

一种可视化工具，展示关于学习者进步、行为和参与度的实时数据和洞察。仪表板通常为教师和学生提供可操作的反馈，以支持决策和干预。

反馈（Feedback）

反馈是“学习者对关于其表现的信息进行意义建构并利用它来提高其工作质量或学习策略的过程”（Henderson等，2019[18]）。

反馈素养（Feedback Literacy）

理解、解释和在学习过程中有效使用反馈的能力。反馈素养涉及如何回应反馈、据此行动并将其整合到自身学习策略中。

现有实践

增强教学支持

直接支持学生

大规模提供增强教学支持是GenAI在教育中最突出的应用领域之一（Yan等，2024[19]）。这一应用基于利用GenAI开发能够提供个性化学习支持系统的想法。个性化学习支持的概念源于Bloom（1984[20]）的“二西格玛问题”，该研究显示了一对一指导相对于其他教学形式的显著优势。在GenAI被广泛使用之前，个性化学习支持的有效性已在人工智能教育研究文献中得到长期探讨（du Boulay, Mitrovic和Yacef, 2023[21]），尤其关注智能辅导系统（Graesser, Conley和Olney, 2012[22]; Molenaar, 2021[23]），并由此开发了许多有效的辅导系统——如SQL-Tutor（Mitrovic和Ohlsson, 2015[24]）、MetaTutor（Azevedo等，2022[25]）和Cognitive Tutors（Koedinger和Aleven, 2015[26]）。对于当今提供个性化学习支持的尝试特别相关的是AutoTutor（Nye, Graesser和Hu, 2014[27]）和BEETLE（Dzikovska等，2014[28]）等智能辅导系统，它们已被设计为通过自然语言对话提供辅导。这一研究也为许多商业辅导系统的开发提供了信息，如基于Cognitive Tutor的MATHia（Almoubayyed等，2023[29]）和ALEKS（Fang等，2018[30]）。然而，快速开发此类系统仍然是一个挑战。

GenAI为快速开发个性化支持的指导系统提供了有前景的方法。具体而言，GenAI通过使用大型语言模型，可以开发辅导聊天机器人。一个突出的例子是Khan Academy的Khanmigo聊天机器人，它利用大型语言模型在多个学科领域开展苏格拉底式支架式辅导（Khan, 2025[31]）。作为教育领域众多新兴GenAI聊天机器人之一，Khanmigo展示了这些技术如何能够扩大个性化学习支持的范围，并为学习者的自主性和探索创造机会。然而，在撰写本章时，尚无研究发表评估Khanmigo对学习的效果（尽管加拿大至少有一项预注册的随机对照试验正在进行中）¹。

GenAI增强教学支持有效性的证据仍在不断涌现，支持结果喜忧参半。例如，哈佛大学进行的一项随机对照试验表明，在本科物理课程中，一个AI导师——ChatGPT驱动的系统——相比参加面对面主动学习课程的学生具有显著效果（效应量0.73-1.3个标准差）（Kestin等，2025[32]）。世界银行最近报告了在尼日利亚九所中学进行的一项随机对照试验的结果（De Simone, 2025[33]）。在该试验中，学生被随机分配到接受基于GPT-4的Microsoft Copilot访问权限的处理组（在课后项目中）和没有访问权限的对照组。处理组的学生接受教师关于如何使用Copilot的指导，包括提示语，并与同学结对工作。结果显示该干预措施具有正向效果，效应量为0.31个标准差。然而，这一效应量低于智能辅导系统有效性的元分析中所指出的平均效应量——即Ma等（2014[34]）的0.42–0.57个标准差和Kulik和Fletcher（2016[35]）的0.66。这表明过去的AI导师可能更有效，尽管存在情境差异。然而，世界银行的研究发现与Escueta等（2020[36]）在综述有前景的计算机辅助学习干预措施中所观察到的范围一致，后者确定了个性化适应程序的效应量在0.18到0.63个标准差之间，特别是在数学领域。世界银行研究还表明，学业表现较高的学生（Lehmann等，2025[37]也有类似显示）和社会经济地位较高的学生尤其从干预措施中受益。虽然这些发现来自一个社会经济差距可能比大多数OECD国家更明显的环境，但它们仍然表明，基于GenAI的辅导系统可能会不成比例地惠及某些学生群体。需要在不同教育环境中进行进一步研究来证实这一模式。

基于GenAI的辅导系统的配置和使用方式可能对学习产生深远影响。Bastani等（2024[38]）在一项针对高中数学课堂的大规模实地实验中发现，虽然基于GPT-4的导师在使用期间提高了表现（高达127%），但使用标准聊天机器人（类似于ChatGPT）的学生在聊天机器人访问权限被移除后表现反而更差（比对照组低17%）。对照组学生在常规课堂教学之外没有使用任何基于GenAI的教学支持。带有学习安全保障功能的设计版本减轻了GenAI使用的负面影响，表明配置不当的系统可能会损害长期学习。

类似地，Lehmann等（2025[37]）表明，一个用于Python编程的ChatGPT导师对学习没有总体效果，但其影响取决于使用模式。高度依赖ChatGPT导师的学生往往覆盖更广泛的主题但理解较浅，而将其用于补充学习的学生则获得了更深入的理解。使用ChatGPT导师也扩大了高先前知识和低先前知识学生之间的成绩差距。综上所述，Bastani等（2024[38]）和Lehmann等（2025[37]）的研究强调了将教学策略嵌入GenAI教学系统设计的重要性，以及学生使用这些系统的方式是需要研究和实践关注的两个关键因素。未来的研究还应研究如何最好地结合生成式和传统AI模型，因为GenAI教学系统使用不同的教学方法和因素（例如元认知技能）来解释学生的不同使用模式。研究传统和生成式AI模型如何有效整合也很重要。这种整合应通过结合各层的优势同时最大限度地减少风险（包括可能损害可靠性的幻觉）来增强人类学习（Qian等，2026[39]）。

GenAI系统提供有效教学支持需要与近期发展中的智能辅导系统经验保持一致。虽然GenAI驱动的教学系统经常被提及，但它们并不遵循智能辅导系统的典型架构。在智能辅导系统的核心是学习者模型、导师模型、领域模型和用户界面（Nkambou, Bourdeau和Mizoguchi, 2010[40]）。大多数基于GenAI的教学系统主要利用大型语言模型来覆盖所有这四个组件的功能。虽然通过自然语言交互的用户界面与LLM结合可以相当先进，但对其他三个组件的支持就不那么明显了。虽然LLM在某种程度上可以执行领域模型和导师模型的功能，但目前关于其质量如何保证的研究和证据有限。具体而言，由于LLM的随机性质，它们无法保证领域模型中所涵盖信息的可靠性，因为有产生幻觉的倾向（Ji等，2023[41]）。现有研究表明，LLM很容易被分心，并且不一致地遵从底层提示中提供的指令（Hwang等，2025[42]; Liu等，2025[43]; Zhao等，2024[44]）。因此，未来的研究需要评估LLM在提供长期效果方面能够一致地遵从特定辅导策略的程度。此外，还需要开展工作开发有效的计算方法，以提高LLM遵从性，从而随着时间的推移促进有效的辅导策略。最后，文献中几乎没有证据表明现有基于GenAI的教学系统提供任何学习者模型。这些模型正是需要用来理解基于学生知识发展追踪（Abdelrahman, Wang和Nunes, 2023[45]）和学习方法的学生个体需求，以提供适应性和个性化支持。Borchers和Shou（2025[46]）的最新证据表明，与传统智能辅导系统相比，LLM-only工具仅提供有限的适应性。未来的研究需要解决这些关键架构需求，并确定在辅导架构中有效整合LLM以提高教学效果的方法。

支持教师

增强教学支持不一定需要通过向学生提供直接指导来完成。教师也可以成为GenAI的受益者，用于备课和实际教学相关的任务。例如，GPTeach是一个交互式教师培训工具，使新手教育者能够与GPT模拟的学生练习教学。对GPTeach的评估表明，它可以增强教师的准备度和信心，提供针对不同教学场景量身定制的宝贵练习机会（Markel等，2023[47]）。相关地，Tutor Copilot是一个GenAI驱动的系统，在实时辅导会话期间为导师提供实时专家级指导（Wang等，2025[48]）。这种方法对于通过动员经验较少的工作人员和支持学生以及解决教师短缺问题特别相关。在一项随机对照试验中，Wang等（2025[48]）评估了Tutor CoPilot的有效性。该研究涉及来自历史上服务不足社区的900名导师和1800名K-12学生。结果表明，导师可使用Tutor CoPilot的学生掌握主题的可能性提高了4个百分点，在评级较低的导师的学生中观察到的益处最为显著，提高了9个百分点。此外，使用Tutor CoPilot的导师更倾向于采用高质量的教学策略，如提出引导性问题，而非直接给出答案。尽管GPTeach和Tutor CoPilot的研究显示出很大前景，但未来的研究需要了解这些系统在不同教育和国际环境中的采用情况和有效性。同样重要的是，未来的研究要理解Tutor CoPilot支持的辅导实践如何随着时间推移作为教师专业发展的一部分被内化，以及它们是否可能导致对GenAI的过度依赖，潜在地阻碍教师人类教学技能的发展。

GenAI可以支持教师完成一系列任务，但其有效性和效率方面的结果喜忧参半。虽然课程规划经常被讨论为可从GenAI使用中受益的教学实践关键领域之一（Moundridou, Matzakos和Doukakis, 2024[49]），但关于其有效性的证据仍在不断涌现。例如，Dennison等（2025[50]）评估了Shiksha Copilot，这是一款在印度学校部署的AI辅助课程规划工具。在一项包括访谈、调查和使用日志的大规模混合方法研究中，该研究发现教师使用Shiksha Copilot来满足行政文档需求并支持其教学。该工具的使用与课程规划时间减少相关，效应量小到大（Cohen’s d = 0.371 – 0.658），并降低了教学相关压力（Cohen’s d = 0.436），同时促进了向活动导向教学的转变。然而，系统性挑战，如人员短缺和行政需求，制约了更广泛的教学变革。相比之下，Selwyn等（2025[51]）在瑞典和澳大利亚对教师使用GenAI工具进行行政任务的经历进行了访谈，强调了教师自我报告投入于审查、修复和重新修改AI生成输出的大量工作。他们的发现表明，AI工具节省时间的承诺可能忽视了教师必须做出的关于教学适切性、社会关系和教育价值的复杂专业判断。然而，Selwyn等（2025[51]）的发现基于自我报告（即访谈），这些报告可能无法可靠地估计使用技术所花费的时间（Parry等，2021[52]）。使用日志分析则提供了一种更准确、偏见更小的方法。与Dennison等（2025[50]）的研究相比——该研究基于使用日志分析提供更可靠的使用时间估计——Selwyn等（2025[51]）的研究强调了考虑教师隐性劳动的重要性，这些隐性劳动可能未被使用日志捕获。然而，鉴于Dennison等（2025[50]）将GenAI支持的课程规划与非GenAI基线进行比较，其中一些隐性劳动可能已反映在他们的分析中。这凸显了公平和具有情境可比性的评估框架的重要性，这些框架要考虑GenAI工具的实施方式以及跨研究测量教师时间使用的方式。鉴于教师在教育中的核心作用，这强调了探索设计原则、组织采用策略以及为教学支持采用GenAI技术的更广泛影响的重要性。

改进反馈实践

GenAI在教育中最紧迫的应用领域之一是提供自动化反馈。反馈在高等教育中是一个持续存在的挑战，学生数量的增加并未与教学资源的比例增加相匹配（Paris, 2022[53]）。在师生比例较高或教师教授课程时数较少的学科（因此有许多班级和学生）的学校层面也是一项挑战。这种结构性紧张使得难以大规模提供及时、有针对性和个性化的反馈（Pardo等，2017[54]），且遵循有效反馈（Hattie和Timperley, 2007[55]; Henderson等，2019[18]）和学习者导向反馈（Ryan和Henderson, 2021[56]）的原则。反馈可以改善学习进程（Wisniewski和Zierer, 2020[57]）并支持学生与教育者之间关系的发展（Dai, Tsai和Gašević, 2025[58]; Henderson, 2015[59]）。如下文所示，GenAI在跨多种模态实现快速可扩展的反馈生成方面具有强大潜力，有可能增强反馈的可扩展性、质量乃至反馈素养（Nieminen, 2023[60]; Baker, forthcoming (2026)[61]）。

反馈生成与质量分析

GenAI已被发现有希望对高等教育中学生的书面作品提供反馈。在一项近期研究中，Dai等（2024[62]）比较了大型语言模型生成的反馈与人类导师提供的反馈。他们的研究比较了可读性、识别的优缺点的相似性以及反馈提供的层次。反馈层次基于Hattie和Timperley（2007[55]）的开创性框架，该框架区分了任务层面的反馈（正确性）、过程层面的反馈（学习策略）、自我调节层面的反馈（监控学习）和自我层面的反馈（个人特质和动机）。在这一框架中，更高层次的反馈，特别是在过程和自我调节层面，被广泛认为是教育更有价值的，是反馈质量的关键指标，因为它支持更深入的学习和学习者自主性。Dai等的研究发现，GenAI（即GPT-3.5和GPT-4）倾向于产生比人类教育者制作的反馈更易读且文体上更精炼的反馈，效应量相当大（d = 1.79）。这一发现有些不足为奇，因为人类评估者通常在严格的时间限制下运作，提供的反馈相当简洁。然而，该研究还揭示了GenAI生成的反馈与人类导师根据评分标准识别为学生作品的优缺点之间存在有限的对应。Dai等（2024[62]）还表明，GPT模型（特别是GPT-4）能够在超过97%的反馈实例中产生关于未来学习策略选择（即过程层面反馈）的指导。有趣的是，这高于人类提供的反馈中过程层面反馈约80%的比例。然而，GPT-4在自我调节层面产生反馈的能力要弱得多，仅在17%的案例中提供。然而，即使这样也高于人类导师提供的自我调节层面反馈，后者仅在11%的案例中提供。这恰恰凸显了在自我调节层面提供反馈的挑战，在这一层面学习者被引导监控自己的学习。这一挑战在GenAI时代尤为重要，如后文所述。

GenAI还可用于基于预测建模的洞察生成引导学生学习的反馈。早期预测有失败或辍学风险的学生一直是学习和分析研究和实践的核心（Molenaar, 2021[23]; Gašević等，2016[63]; Wang和Mousavi, 2022[64]）。然而，将预测建模的洞察转化为可操作反馈的工作受到的关注要少得多。在改善学生学习体验方面取得显著成功的一个显著例子是OnTask系统，它允许教育者手动编写规则，基于学生数据生成个性化反馈（Pardo等，2017[54]）。虽然比大规模手动撰写反馈要高效得多，但它仍然无法将预测建模的精细洞察转化为可操作反馈（例如关于进行哪些练习的建议）。为了应对这一挑战，Liang等（2024[65]）提出了一种利用GPT-4将预测建模的洞察转化为个性化反馈的方法，该方法被有经验的教育者评价为“readily applicable to the course”（Liang等，2024[65], p. 75），在可读性、关系特征和具体性方面高于人类提供的反馈。然而，目前需要未来的研究来评估这种个性化反馈对学习成果、学生保留率的影响，以及学生在多大程度上实际使用并根据AI生成的反馈采取行动。

GenAI还可用于检查反馈质量，以大规模促进最佳实践。先前的研究表明，使用传统机器学习来识别人类产生的反馈是否遵循既定反馈模型的潜力。例如，Osakwe等（Osakwe等，2022[66]）使用基于既定语言特征（例如凝聚力或认知词汇的使用）训练的XGboost机器学习模型来识别反馈的自我、任务和过程层面，准确率分别为0.87、0.82和0.69。在一项近期研究中，Aldino等（2024[67]）评估了GPT-3.5在零样本提示下识别高等教育中大量反馈消息数据集（>16k）学习者导向反馈要素的表现。GPT-3.5显示出一些良好结果，在学习者导向反馈的七个属性上的准确率范围为0.53-0.97。然而，GPT-3.5始终被基于语言特征（例如凝聚力和词数）的传统机器学习模型（即XGBoost和随机森林）超越，而BERT几乎总是可靠地表现（准确率0.91-0.99）（参见框2.1中BERT的定义）。在同行反馈质量评估中，传统机器学习的表现优于ChatGPT也被显示（Hutt等，2024[68]）。类似地，Dai等（2025[58]）表明GPT-4o能够识别出10个反馈关系特征中的9个，平均准确率超过80%。例如，该模型成功识别出承认学生优点的反馈、提供平衡的批评性评论以及包括可操作改进建议的反馈。然而，他们发现 Few-shot提示策略相对于零样本提示没有显著增加。这些发现表明，虽然GPT提示方法由于技术门槛较低而提供了一个有前景且易于访问的入口点，但要达到始终如一的高准确率，仍然需要传统机器学习方法和像BERT这样的语言模型。

GenAI与人类教育者之间表现的差异为互补和增强人类导师的有效性创造了新机会。例如，GenAI可以在反馈中提供优点和缺点，人类教育者可以将其作为建议来增强自己的反馈草案。这也得到Lu等（2024[69]）的支持，他们认为GenAI可以对书面作品中的低级问题（如语法、词汇和句子结构）提供即时个性化反馈。他们的前提是这可能允许教师专注于更高层次的思维技能、内容深度和论证，在这些方面人类判断仍然至关重要。Dai等（2024[62]）的研究结果表明，GenAI可以帮助使用有效反馈实践增强人类反馈（Hattie和Timperley, 2007[55]）。这种混合方法有可能在不影响教学判断的情况下提高效率，未来的研究和实践应评估其有效性。尽管有所有这些承诺，但促进教育者这种混合方法的专门工具仍处于早期阶段。例如，Feedback Copilot被开发出来，通过结合协同设计原则来创建包含GenAI使用的有效用户界面（Pozdniakov等，2023[70]）。Feedback Copilot的功效尚未在实践中评估，这凸显了未来研究的重要研究差距和方向。

GenAI反馈的有效性

越来越多的研究探索了学生如何感知和回应GenAI生成的反馈，特别是在与人类反馈的比较方面。研究表明，学生往往更愿意立即对人类导师而非GenAI工具的反馈采取行动（Zou等，2025[71]; Lu等，2024[69]）。不过，学生确实发现GenAI反馈是具体清晰的，特别是在技术任务中（Ouyang等，2024[72]; Roest, Keuning和Jeuring, 2024[73]; Zhang等，2024[74]）。然而，几项研究也强调了关于GenAI生成反馈的感知有用性和可信度的担忧（Escalante, Pack和Barrett, 2023[75]; Er等，2024[76]）。虽然这些研究在重点和方法设计方面存在差异，从学习成果的准实验评估（Escalante, Pack和Barrett, 2023[75]）和导师与AI反馈的随机对照比较（Er等，2024[76]）到高等教育环境中的大规模感知研究（Nazaretsky等，2024[77]），但它们一致指出，相对于人类反馈，AI生成反馈的感知有用性和信任度较低。

总体而言，当前证据表明，虽然GenAI反馈可以在可衡量的学习成果方面与人类反馈相匹配，但它并未复制人类反馈的教学价值或社会可信度。例如，Escalante等（2023[75]）发现接受GPT-4反馈的学生与接受导师反馈的学生在学习成果方面没有显著差异，尽管参与者在有用性感知方面平分秋色。虽然这似乎表明功能相当，但相当的表现并不意味着教学可互换性。正如Kaliisa等（2025[78]）在涵盖41项研究的近期元分析中所示，AI生成和人类反馈产生统计上相似的学习收益，但学生认为人类反馈更可信、更有意义。这一区别指向了反馈在塑造动机、评价判断和学习者信任方面的更广泛作用，这些维度对于GenAI系统来说即使在结果指标相当的情况下也很难复制。类似地，Er等（2024[76]）报告说，人类反馈被认为更有用得多，接受人类反馈的学生在Java编程实验分数方面表现出更大的进步。在一项相关研究中，Nazaretsky等（2024[77]）发现学生对反馈的感知因提供者身份而异。当反馈来源未知时，学生对AI反馈的评价更为正面；然而，当来源被揭示时，他们对人类反馈的信任度更高。虽然与信任高度相关，但GenAI中幻觉对反馈采用的影响在文献中受到的关注很少，值得未来关注。公平性感知也有些矛盾：虽然一些研究发现GenAI反馈被学生评为公平（McGowan, Anderson和Smith, 2024[79]; Rudolph等，2024[80]），但其他研究观察到相反的情况（Er等，2024[76]）。

GenAI反馈也显示出支持重要元认知过程的潜力。例如，Tang等（2024[81]）证明了对写作任务的结构化GenAI反馈显著提高了学生的自我评估准确性，这是独立学习的关键技能。然而，这种潜力并不总是实现。Jin等（2025[4]）发现，反馈素养低的学生仅少量使用基于GenAI的支持工具，通常是由于工具响应与学生期望之间的不匹配。这些发现表明，GenAI反馈的影响不仅取决于其技术质量，还取决于学习者解读和有效应用它的准备程度。正如Zhan和Yan（2025[82]）所认为的，在GenAI环境中培养反馈参与需要明确发展学生的反馈素养，包括提示工程、评价判断和元认知方面的技能，以促进与GenAI在反馈实践中的更深层次更有意义的互动。未来的研究应旨在（a）调查学生反馈素养在多大程度上可以促进更有效和批判性地参与AI生成的反馈，以及（b）理解反馈素养是否能使学习者在使用AI生成的反馈时改善他们的学习成果。

超越文本反馈

GenAI可以支持生成不同模态的反馈，超越文本反馈。例如，学习分析提供仪表板作为基于学生数据分析提供反馈的替代和成本效益方法（Matcha等，2020[83]）。然而，学习分析仪表板尚未发挥其全部潜力（Kaliisa等，2024[84]）。主要原因之一是教育者和学生相对有限的数据可视化素养，无法将不同统计和图表的洞察转化为行动（Donohoe和Costello, 2020[85]; Pozdniakov等，2023[70]）。为了解决可视化素养的局限性，GenAI可以提供两种互补方法。

首先，GenAI可以提供一层指导，帮助教育者和学习者提高准确理解仪表板的能力。例如，Yan等（2024[19]）开发了一个名为VizChat的工具，允许学生和教育者与聊天机器人互动，通过提问帮助他们理解仪表板中显示的数据（图2.1）。当配置为主动模式（即使用脚手架提问）时，VizChat显著增强了对学习分析仪表板的理解，相对于被动聊天模式（即像ChatGPT那样响应学生查询）和独立脚手架（Yan等，2025[86]）。重要的是，即使在学生无法使用主动VizChat的情况下，这些益处仍然持续存在。基于这些良好结果，未来的研究应调查学习者和教育者在多大程度上可以将从学习分析仪表板获得的洞察转化为有效的学习和教学实践。

其次，GenAI可用于以其他形式（如数据漫画）生成反馈。数据漫画遵循漫画类型（如Manga）的既定原则，通过提示多模态语言模型基于分析洞察生成图像（Milesi等，2024[87]）。数据漫画已应用于医疗专业人员的模拟学习，学生护士在物理空间中进行高度协作学习场景（Martinez-Maldonado等，2023[88]）。数据漫画（见图2.2）旨在以更易获取、情感上引人入胜的形式呈现反馈。定性证据表明，数据漫画可以改善学生动力和反思性参与；一些学生甚至报告感到被关注或被重视（Milesi等，2024[87]）。然而，高等教育中的一些学生认为这种方法不够专业，可能会延续偏见（例如，数据漫画中生成的所有护士都是女性，而医生是男性）。为了扩展GenAI驱动数据漫画的积极方面，未来的研究需要了解它们在不同教育环境和水平上的有效性，同时最大限度地减少潜在的负面影响。同样的想法也可以应用于基于多模态学习分析生成视频剪辑的AI。

图2.1. VizChat – 一个基于LLM的聊天机器人，旨在增强领导者和教育者解释和理解视觉学习分析的能力

来源：Yan, L. et al. (2024[11]), “VizChat: Enhancing Learning Analytics Dashboards with Contextualised Explanations Using Multimodal Generative AI Chatbots”, in Lecture Notes in Computer Science, Artificial Intelligence in Education, Springer Nature Switzerland, Cham, https://doi.org/10.1007/978-3-031-64299-9_13.

图2.2. 数据漫画 – 使用LLM基于关于学习过程的多模态数据生成视觉反馈

来源：Milesi, M. et al. (2024[87]), “It’s Really Enjoyable to See Me Solve the Problem like a Hero”: GenAI-enhanced Data Comics as a Learning Analytics Tool”, Extended Abstracts of the CHI Conference on Human Factors in Computing Systems, pp. 1-7, https://doi.org/10.1145/3613905.3651111.

过程反馈

关于学习过程（例如目标设定、策略使用和自我监控）的反馈在现有AI教育文献中代表性不足（Gašević, Greiff和Shaffer, 2022[89]）。虽然学习从来不是完全透明的，但学习分析在可视化和解释学习过程的不可见动态方面取得了实质性进展，这可以为教育者和学习者提供关于学习如何展开的可操作洞察。通过学习分析的发展，我们现在可以分析细粒度追踪数据，如点击流、鼠标移动和学生活动的其他数字痕迹，以识别认知、元认知、情感和动机过程（Molenaar等，2023[90]）。学习分析中的现有研究也表明，此类方法可以提供关于学习者使用的学习策略（lämsä等，2025[91]）的细致细节的洞察。此外，现有研究表明，学习过程可以解释学生论文分数中比语言学论文特征（如文本凝聚力）更大的方差，这些特征通常用于自动论文评分（Raković等，2022[92]）。然而，从底层数据分析模型——如流程图、网络或描述性统计——的洞察中转化需要相当的数据素养，这对许多教育者和学习者来说可能是一个障碍。

GenAI由于具有将关于学习过程的数据分析模型的洞察与指导信息及学科内容相结合的能力，因此在支持学习过程反馈实践方面具有强大潜力。通过结合所有这些视角，GenAI可以产生上下文相关且个性化的学习支持——例如反馈或脚手架——旨在引导学习者改进他们的学习过程和表现（Thomann和Deutscher, 2025[93]; van der Graaf等，2023[94]）。如框2.2所述，可以提示LLM结合自我调节学习过程的实时分析洞察以及有效反馈原则（Hattie和Timperley, 2007[55]）和相关内容信息，以生成个性化脚手架（Li等，2025[95]）。

过程反馈的潜力在GenAI时代具有深远影响。由于学生现在可以轻松使用GenAI工具产生精炼的最终产品，评估学生如何参与学习过程变得越来越重要，而不是仅仅关注最终结果。此外，过程反馈可以突出学生在使用GenAI时可能面临的重要关键挑战（例如元认知懒惰和过度依赖）。过程评估的变革潜力将在下文进一步讨论。

专栏2.2. FLoRA平台中的形成性过程评估：使用LLM将实时分析转化为个性化反馈

FLoRA平台是一套集成工具，允许学生参与一系列自我调节学习活动（Li等，2025[95]）：突出文本、搜索信息、做笔记、规划、使用ChatGPT等工具，以及更多。所有这些交互都被记录并使用算法分析，将学生行为映射到认知、元认知、情感和动机过程。这些洞察可用于实时分析，以了解学生是否使用有效学习策略、规划学习并定期监测他们相对于任务期望的进展。分析洞察可以反馈给LLM，为学习者生成及时的过程反馈。这种LLM支持的反馈比早期基于规则的系统更适应性和上下文敏感（参见图2.3中的指导面板）。LLM可以解释关于学习者、任务和先前行为的信息，以学习者可以理解和执行的自然语言生成个性化脚手架。LLM还可以将反馈情境化到学习者正在学习的主题和内容中，使其更容易跨不同学科领域和任务进行扩展。这种过程反馈可以在预定义时刻提供或基于观察到的学习过程动态触发。Li等（2025[96]）表明，学生倾向于遵循这些GenAI产生的脚手架，从而改进他们的学习策略，这些学习策略以前被证明与阅读和写作任务中表现的改善呈正相关。类似地，Alnashiri等（2026, under review[97]）表明，针对自我调节学习特定过程（例如监测）的个性化反馈与初中教育中写作表现的改善和后测知识相关。

FLoRA等系统的成功展示了GenAI如何可以将个性化学习支持扩展到个别课堂和学科之外。随着GenAI工具越来越嵌入学生的学生活动，人们对过度依赖和元认知懒惰的担忧已经出现，学习者依赖AI生成的响应而不是主动监测和指导自己的学习。因此，自我调节学习对于保持学生的终身适应能力以及与AI驱动的工具进行批判性参与的能力至关重要，但教师通常难以在不同的课堂中观察和支持这些过程。传统反馈和脚手架方法很少可扩展，往往会忽略学习者策略和需求中的细微个体差异。通过将实时分析与基于LLM的反馈相结合，GenAI系统可以帮助弥合这一差距，提供及时、上下文感知的支持，补充教师的工作并维持学生的元认知参与。随着教育系统寻求在AI时代培养独立和反思性学习者，这种可扩展和个性化的指导尤其重要。

图2.3. FLoRA平台中关于自我调节学习的形成性过程评估反馈

推进评估实践

项目生成与验证

GenAI有潜力生成评估项目。虽然GenAI可以产生广泛的内容，但其在标准化评估中的使用需要生成满足有效性和可靠性心理测量标准的项目（Kaldaras, Akaeze和Reckase, 2024[98]）。新兴证据表明这是可行的（von Davier, 2026[12]）。例如，Bhandari等（2024[99]）表明ChatGPT可以为代数生成心理测量上可靠的项目，而Attali等（2022[100]）在阅读任务中展示了类似成功。Attali等（2022[100]）的工作支撑了Duolingo英语测试中使用的自动化项目生成过程，该测试是一项广泛承认的语言能力考试。GenAI可用于评估评估项目的质量。Duolingo的工作强调了人工参与环节进行项目质量审查和敏感审查作为质量保证一部分的重要性，以及在检查生成项目的心理测量特性之前（Hao等，2024[101]）。这也与Moore等（2024[102]）的建议一致，即结合人类判断与LLM来产生高质量的多项选择题和简答题。

自动评分

GenAI在现有评估实践中的使用潜力有越来越多的证据支撑。现有的研究表明，当使用微调的LLM进行开放式回答自动评分时，GenAI的使用可能特别有效，展示出与基于传统机器和深度学习方法的模型相当或更优的准确性。例如，Latif和Zhai（2024[103]）表明，GPT-3.5的微调版本在评分多标签和多类别科学教育任务方面显著优于BERT，准确率提高高达10.6%。类似地，GPT-4在L2英语学习者的高风险语言评估环境中与当代写作评估工具表现出强一致性（二次加权Cohen’s Kappa超过0.8），特别是在每个评分类别提供一个校准示例时（Yancey等，2023[104]）。然而，Mansour等（2024[105]）表明，传统方法在自动评分来自美国7-10年级学生（第一语言为英语）的说服性、来源依赖性和叙事写作任务的英语论文时显著优于ChatGPT-3.5 Turbo和Llama2（平均QWK为0.817 vs 0.313和0.201）。这些结果表明，虽然LLM可能对某些类型的自动评分任务有用，但对其他类型可能无用。因此，扩展现有知识体系以了解LLM可以有效完成的任务类型来为教育实践和政策提供信息是很重要的。同样，教育者在选择依赖GenAI进行自动评分时需要谨慎。

有几项研究审查了GenAI在多大程度上可以自动评估标准化评估中开放式问题的回答并识别有效的提示策略。例如，Rodrigues等（2024[106]）在738道开放式问题中评估了GPT-4，这些问题来自高中生物、地球科学和物理任务，按Bloom分类法（BLOOM, 1984[20]）分类。该模型整体产生高质量回答，尽管其表现在需要事实回忆或创造性推理的问题上有所下降。Chan等（2025[107]）分析了LLM在标准化STEM评估中的表现，结果表明链式思维提示显著提高了准确性，特别是对于推理密集型问题。在高等教育中，Moore等（2022[108]）探索了GPT-3评估在线大学课程中学生生成的简短回答化学问题的能力，发现与专家判断的一致性仅适度（32-40%）。总之，这些研究表明，虽然GenAI可以在结构化的教育环境中补充人类评分，但其可靠性仍因领域、认知需求和提示设计而异，突显了在项目生成和评分两方面都需要人工监督的持续需求。

挑战假设和展望新视野

生成式人工智能在技能习得中的悖论

尽管生成式人工智能具有潜力，但其融入教育引发了需要仔细审视的基本问题。随着AI系统自动化认知任务的能力不断增强，必须不仅审视这些技术能够完成什么，还要审视在这个过程中可能会失去什么。本节审视了关于技能发展和评估的主流假设如何被颠覆，并建议在生成式人工智能时代重新定位教育优先事项。

在AI丰富的时代区分学习收益与表现

本章的一个核心论点是，教育系统必须在利用GenAI变革潜力的同时，有意培养人类能力。这一核心要求不仅是教学性的；对于在快速变化的数字环境中使个人能够蓬勃发展的人类技能培养来说是基础性的。根据Yan, Greiff等（2025[17]），在使用GenAI时，区分人类学习中的两个相互关联的维度很重要：AI赋能的表现和人类技能发展（图2.4）。第一个维度（图中垂直方向）专注于人类技能的发展——即人类学习。这一维度传统上在教育中已涵盖，包括AI教育研究中的AI应用和应用GenAI支持人类学习的内容在前面的“现有实践”章节中已有涵盖。然而，GenAI的无处不在改变了学习发生的情境。这就是为什么我们还要考虑第二个维度（图中水平方向），它涉及个人在多大程度上使用AI工具（如大型语言模型）来增强任务执行并产生高质量输出。在本节后续内容中，我们根据现有文献中出现的证据，考虑这两个维度对人类技能发展的影响。

图2.4. 用GenAI平衡学习收益与表现

AI增强学习中的“虚假掌握”幻象

这些维度的交汇定义了教育应努力追求的前景：结合强大独立技能与有效、反思性使用AI增强的学习者。然而，越来越多的证据表明，这一愿景不容易实现，生成式AI的引入可能造成“虚假掌握”幻象，高质量的AI赋能输出掩盖了人类技能——即图中非理想曲线中任务表现与学习不相关——的潜在弱点。

虽然生成式AI在支持各种教育任务方面已显示出潜力，但其促进长期技能发展的有效性仍不确定。一项重要的研究是Darvishi及其同事（2024[13]）进行的，他们调查了AI支持工具在多大程度上可以扩展学生提供有效同伴反馈的能力。GenAI工具被设计为支持学生更有效地生成反馈，而不是直接改进其回应的内容。在一项包含约1600名学生的大规模随机对照试验中，Darvishi等（2024[13]）观察到，虽然同伴反馈质量方面的初始AI支持收益显著，但一旦工具被撤回，这些收益并未持续。学生没有保留似乎通过AI支持获得的反馈技能。此外，没有强有力的证据表明人类和AI赋能技能的协同发展；学生通常在AI辅助表现或独立技能一方面表现出优势，而不是两者兼有。这些发现与Vaccaro等（2024[109]）的系统综述和元分析相呼应，该研究分析了106项关于人-AI合作的实验研究。元分析发现，平均而言，人类-AI组合的表现比单独最好的人类或单独的AI表现更差，特别是在决策任务中。这警示不要假设人类-AI协同作用会自然出现。在许多教育情境中，风险在于生成式AI要么简单增强当前能力，要么——在教育内容中更成问题地——替代人类努力而不培养真正的技能发展。

这种替代模式往往是由外部压力驱动的。Abbas等（2024[110]）的研究揭示了大学生在面临高学业负担和时间压力时更有可能使用ChatGPT。他们的研究涉及近500名学生，发现这种效用是有代价的；ChatGPT使用的增加与更高的拖延水平、自我报告的记忆丧失以及最终学业表现下降相关。这些发现表明，学生可能将GenAI作为学习伙伴而不是作为管理压倒性需求的工具，从而导致意想不到的负面后果。此外，这种替代可以培养对AI的不加批判的过度依赖。在一项系统综述中，Zhai等（2024[111]）研究了对AI对话系统的过度依赖如何影响学生的认知能力。他们将过度依赖定义为对AI生成建议的不加批判的接受，这种倾向在个人难以评估工具的可信度时出现。他们的发现表明，这种行为鼓励使用认知捷径，偏好多、快、高效的答案而不是慢、费力的推理。这种偏好破坏了包括决策、分析推理和批判性思维在内的基本认知能力的发展。因此，抵制将AI增强表现与真实能力或深度学习混为一谈的诱惑至关重要。

GenAI使用对学习过程的影响

另一个令人关注的维度涉及GenAI使用对学习过程的影响。越来越多的证据表明，对GenAI工具的依赖增加可能抑制学生的自我监控（定义为学习过程中检查、调节和调整自身理解和策略的持续过程）、反思和对自己学习过程的评价判断，这些过程是自主学习的基础（Molenaar, 2022[112]）。当GenAI被用作捷径而不是促进学习的脚手架时，学生可能会将认知努力交由技术，从而削弱深度学习背后的技能。

实证研究已开始量化GenAI对减少人类认知和元认知的风险。在一项比较使用ChatGPT与传统搜索引擎进行科学探究任务的研究中，Stadler等（2024[15]）发现使用大型语言模型的学生经历了显著更低的认知负荷。然而，这种认知便利是有代价的：这些学生在最终建议中产生的推理和论证质量低于使用Google搜索引擎的组。这突显了一个关键权衡，表明虽然LLM可以减少信息收集的认知负担，但它们可能不会促进高质量学习所必需的更深入的认知参与。这一发现得到了Fan等（2024[14]）随机实验研究的加强，该研究比较了学生在得到ChatGPT、人类专家、写作分析工具或无额外支持时的写作过程。虽然ChatGPT支持组在论文分数方面表现出更大的进步，但这些收益并未转化为更深入的知识获取或迁移（通过不同主题的知识迁移测试衡量）。更重要的是，该研究发现，AI支持组的学习者表现出对技术的明显依赖，不太可能参与自我监控和反思等元认知活动，这是一种作者称之为元认知懒惰的现象。

AI对自主学习的影响因学生使用这些工具的动机而更加复杂。Xie等（2024[113]）进行了一项为期一年的纵向研究，考察了聊天机器人交互频率如何影响学习自主性。结果是细致的：对于寻求虚拟陪伴的学习者，AI培养的社会存在对其学习自主性产生了正向中介效应。相反，对于纯粹专注于知识获取的学习者，更频繁地与聊天机器人交互与社会存在和学习自主性都呈负相关。这表明AI交互的效果并非统一，纯粹以工具为目的的频繁使用可能破坏独立学习习惯的发展。

这些发现说明了一个关键区别：由生成式AI启用的高质量表现表观改善可能掩盖学习者底层认知和元认知过程的缺陷。然而，这并不意味着AI在学习中不能发挥生产性作用。当有意在协作学习环境中构建时，AI可以作为一个强大的脚手架。例如，An等（2025[114]）研究了学生教师使用集成GenAI的心智图工具的情况。使用AI工具的小组不仅在协作任务上优于对照组，而且在知识建构过程中表现出更复杂的进展，从个人想法逐步发展到同伴互动和群体综合。

重新思考评估

随着学生越来越多地使用GenAI工具进行学习，传统评估模型——仅关注最终输出——变得越来越不充分。当可以用极少学习过程参与来生产高质量产品时，评估冒着测量技术能力而非人类技能或理解的风险。为了应对这一挑战，迫切需要将评估实践重新面向过程导向的方法，不仅评估学生生产什么，还评估他们如何参与学习来创造产品。评估应旨在捕获学生用于计划、监测和调整工作的过程，从而在GenAI丰富的环境中揭示学习的真实性和深度。只有在优先考虑认知和元认知参与以及产品质量的情况下，教育系统才能确保AI增强而非替代有意义的人类专业知识的发展。

实现这一转变的一个有前途的方法是通过以证据为中心的评估设计（ECD）（Mislevy, 2006[115]）。ECD框架为将评估任务、证据和学习者知识及技能的推断联系起来提供了原则性模型。通过超越对最终输出的狭隘关注，ECD支持多维评估的设计，这些评估捕获产品和过程证据。

一个说明性的过程导向方法例子来自医学教育的近期工作，其中临床推理任务被重新设计以捕获学习的更全面视图（Tang等，2025[116]）。基于ECD框架，这种方法超越了仅评估最终诊断结论。它通过在学生与GenAI驱动的虚拟患者互动时收集三个数据流来构建多维证据模型：产品证据（例如诊断准确性）、过程证据（例如学生进行病史采集的对话日志）和元认知证据（例如点击流数据和交互日志）。对此丰富数据的分析表明，整合所有三个证据来源提供了比仅依赖基于产品的测量更可靠的学习者表现预测。值得注意的是，过程数据成为最强的独立预测因素，突显了评估学习的“如何”而不仅仅是“是什么”的价值。

图2.5. FLoRA平台用于医学教育中病史采集技能的形成性过程评估的用户界面

注：（A）基于GenAI的虚拟标准化患者；（B）学习者输入其对虚拟标准化患者诊断的书写工具。（C）学习者在提交对虚拟标准化患者的诊断后收到的评估和反馈。

在此ECD基础上，预测模型现在与可解释AI（XAI）配对，使评估过程不仅准确而且具有教学意义。仅用“黑箱”机器学习模型预测表现对于支持学习是不够的。为了使洞察可操作，XAI层识别影响预测的关键因素（Khosravi等，2022[117]）。然后，这些技术解释由GenAI系统转化为结构化、个性化且与学习者相关的教学反馈。这种混合XAI-GenAI方法确保反馈与自我调节学习原则保持一致，帮助学生不仅理解他们的表现，还理解塑造表现的认知和元认知策略。通过将反馈基于学习过程中具体证据，这种方法将ECD模型从评估设计扩展到反馈传递，提供透明、可操作且培养真正技能发展的指导。

图2.5展示了如何在FLoRA平台中实现医学教育病史采集技能的形成性过程评估方法（Tang等，2025[116]）。学习者首先与虚拟标准化患者互动（图2.5 A），这些患者也基于GPT。一旦学习者完成与虚拟标准化患者的互动并提交诊断（图2.5 B），系统应用证据模型并生成个性化反馈（图2.5 C）。

方法论严谨性

生成式AI在教育中的研究方法论严谨性对于产生高质量证据至关重要。如果我们要做出可靠、基于证据的决策，必须超越综述和炒作循环，坚持高标准的实证探究。如前文小节和图2.4所示，产生关于GenAI对人类技能影响的强健实证证据的一个核心挑战是表现与学习的普遍混淆（Yan等，2025[17]）。表现指的是任务的观察表现，而学习涉及知识和技能的持久变化，通过保留和迁移来证明（Soderstrom和Bjork, 2015[118]）。这种区别是至关重要的；高表现，特别是当由强大工具中介时，并不意味着学习已经发生。

第二个相关但不同的问题是媒体/方法谬误（Clark, 1983[119]）。几十年来，研究人员一直警告不要进行简单的“媒体比较研究”，即将学习收益归因于技术本身，而不是归因于它所赋能的特定教学方法。大多数关于生成式AI的新兴研究重复了这一错误，将一个定义模糊的“ChatGPT条件”与对照组进行比较，并得出结论认为该技术“有效”。这样的设计可能表明特定的安排（例如与ChatGPT一起工作的学生）可能产生与另一种（例如单独工作的学生）不同的结果。然而，由于它们将效果归因于整体技术而不是技术所提供特定教学过程，这些研究对底层机制提供的洞察有限。这限制了它们的解释力，并可能导致将表现支持与真正学习混为一谈的风险（Weidlich, 2025[16]）。

另一个方法论弱点，虽然不同于但经常与媒体/方法谬误共同发生，是任务表现与学习的混淆。例如，声称ChatGPT增强“学业表现”的元分析通常测量即时任务成就，而非持久学习，有时甚至并非真正的学习（Deng等，2024[120]）。虽然学生在AI帮助下可能写出更好的文章或翻译，但这种表现收益可能掩盖了底层认知参与和学习收益的缺乏。如前文所讨论的，将人力投入转交给AI可以减少认知负荷，但也会带来培养“元认知懒惰”的风险，从而破坏深度技能发展所需的过程（Fan等，2024[14]; Stadler, Bannert和Sailer, 2024[15]）。这个问题被“快速科学”文化放大，博眼球的论断（如GPT-4“通过”MIT课程）尽管存在显著方法论缺陷（包括数据污染和缺乏透明验证），仍然获得了广泛关注（Chowdhuri和Koplow, 2024[122]）。即使这样的论断是准确的，它们的教育意义也有限，因为GenAI超越标准化或基准任务的表现并不附带概念理解，也不意味着人类学习和迁移的底层过程应该被放弃。危险在于将技术能力与教育价值混为一谈，这可能扭曲期望和政策方向，并加剧AI教育讨论中一直存在的政策-实践不对齐问题（Lodge, 2025[123]）。

为了建立强健的证据基础，该领域必须采用更严格的研究议程。首先，研究人员必须通过将过程导向评估（如延迟保留和知识迁移测试）纳入其设计来明确区分学习和表现（Yan等，2025[17]）。其次，研究必须超越媒体比较以隔离因果机制，清楚地定义AI干预的教学功能，就像几十年来对智能辅导系统的理论驱动研究一样（Weidlich, 2025[16]）。最后，我们必须优先考虑纵向研究，随时间追踪AI互动对学生知识、技能和特质的持久影响。

对于政策制定者和资助组织，这突显了引导未来投资的关键需求。为了建立强健的证据基础，资助应优先考虑追踪持久技能的纵向研究，要求干预措施清楚说明其教学基础并支持过程导向评估的发展。只有通过投资于区分任务表现与学习的研究，我们才能确保技术服务于我们的最终目标：培养深入且持久的人类能力。

结论

总之，我们的发现强调了GenAI在增强学习和评估相关教育实践方面的显著潜力。具体而言，我们已经证明GenAI驱动的系统可以直接支持学生和教育者，简化教学活动并提供有针对性的帮助。然而，尽管有这些良好发展，我们的分析也揭示了在为此领域的未来实践和政策提供信息时必须仔细考虑的若干关键注意事项。一个这样的关切是需要密切关注教学实践的设计，以实现GenAI的有效使用，特别是在设计用于直接支持学生的系统中，如辅导聊天机器人。例如，近期研究表明，将GenAI与既定教学方法（例如脚手架）结合使用，其中GenAI代理通过分步推理引导学生，可以在移除GenAI支持后培养真正的学习和持续的表现提升（Yan等，2025[86]）。相比之下，无指导的“直接给答案”实践，让学生单纯向聊天机器人请求解决方案，被发现会损害反思并抑制元认知参与（Fan等，2024[14]; Stadler, Bannert和Sailer, 2024[15]）。正如新兴证据所表明的，并非所有学生都可能从这些系统中平等受益。因此，必须考虑不同学生亚群体——基于社会经济地位或先前学业成就等因素——如何与这些技术互动。通过识别这些子群体可能从GenAI驱动系统中受益的特定条件，我们可以减轻潜在的不平等，确保AI工具支持多样化的学习者。

此外，虽然GenAI为快速开发辅导聊天机器人等工具提供了潜力，但应该认识到，平均而言，通用LLM（例如现成的GPT系统）在没有用充足的教学知识进行设计或微调的情况下，还无法与传统智能辅导系统的有效性相匹配（Borchers和Shou, 2025[46]）。将GenAI嵌入教育基础框架的混合系统可能更有前景，但证据基础仍然有限。我们仍然需要证据来比较GenAI驱动的导师与其传统对应物在提供持续长期学习支持能力方面的表现。因此，未来的研究需要调查基于GenAI的辅导系统能否有效支持学习者长期学习。此外，GenAI通过增强交互性并实现更自然的语言通信来补充现有智能辅导系统仍有相当大的潜力，这可能最终创造更个性化的学习体验。未来的研究应侧重于探索如何将GenAI整合到智能辅导系统中，借鉴成熟的教育原则来提高这些系统的整体效能。

尽管GenAI有潜力生成高质量反馈，但研究表明，学生对AI生成反馈的信任在不同情境中差异很大。在一些研究中，学生反应积极，认为此类反馈清晰有用，而在其他研究中，他们对其准确性或相关性表示怀疑。这种信任的可变性会影响学习者是否参与GenAI反馈，这反过来又影响其对学习的潜在影响。为了充分实现GenAI在支持反馈过程中的益处，未来的工作应侧重于开发将AI生成的反馈有效整合到课堂使用的教学方法。一个有前途的方向是使用GenAI作为工具，帮助教育者反思和完善他们的反馈（即人类或AI生成的），通过检查它是否清晰、平衡并符合既定反馈原则后再触达学生。

GenAI在支持教育者日常教学和行政任务方面显示出潜力。虽然基于更可靠的时间测量方法（如使用日志分析）将GenAI用于某些任务（如课程规划）显示出效率提升，但定性研究强调了这些估计中潜在的“盲点”，值得进一步研究。具体而言，教育者在审查和验证AI生成内容准确性方面必须投入的隐性劳动，在仅依赖使用日志时可能无法被完全统计，除非他们在线进行修订。所有这些都强调需要进一步研究GenAI工具如何设计得能够增强而非复杂化教学实践。

在评估领域，GenAI提供了简化评估创建和自动化评分过程的宝贵机会。其潜力已在Duolingo英语测试等大规模标准化测试中得到证明，GenAI可以协助生成满足心理测量标准的项目。然而，在日常课堂评估中，这种水平的心理测量严谨性很少被要求或切实可行。虽然广泛可用的LLM可以帮助教师更高效地设计问题或任务，但其输出仍然需要人工审查以确保教学相关性、真实性、公平性以及与学习目标的一致性。同样，基于提示的自动评分方法虽然对非技术用户更易访问，但仍然不如微调或传统机器学习模型可靠。因此，教育者应将GenAI工具视为人类判断的补充辅助而非替代，在课堂使用前验证其输出的清晰性和适当性。未来的研究应侧重于开发实用框架，帮助教师将GenAI工具负责任地整合到形成性和终结性评估过程中，将自动化效率与教育者的解释专业知识相结合。为了协助教育者，未来的工作需要专注于开发将GenAI有意义地整合到其中的课堂评估策略，在扩展其适用性的同时确保它增强教育者和学生的整体学习和教学体验。

专栏2.3. 混合人类-AI技能：在新的认知生态系统中培养能力

随着生成式AI成为认知生态系统的有机组成部分，技能发展的重点必须从执行AI可以自动化的任务转向掌握有效与这些技术协作所需的技能。混合人类-AI技能不是要取代人类智能，而是要增强它。它们代表了一套元认知、批判性和伦理能力，使个人能够在不牺牲自身持久知识和判断力发展的情况下利用AI增强表现。培养这些技能是对抗“虚假掌握幻象”的主要防御。混合人类-AI技能集的关键组成部分包括：

战略性AI参与和提示设计：

这不仅仅是简单的“提示工程”。它涉及分析任务、战略性地选择适当的AI工具（或选择不使用工具）以及设计有效提示以将模型引导至期望结果的能力。它还包括迭代改进的技能，批判性地评估AI输出并调整提示以改进结果。

批判性评估和验证：

这是面对AI生成内容时的知识怀疑能力。它涉及主动核查声明、识别模型输出中潜在的偏见、评估信息的可信度（特别是在检索增强生成系统中），并最终对AI贡献的可信度和质量做出知情判断。

创造性共同创作和综合：

这种更高阶的技能涉及将GenAI不是用作答案引擎，而是用作创意合作伙伴。它是利用AI进行头脑风暴、探索反事实、生成问题的多样化视角以及将AI生成的内容与自身知识综合以创造比各部分之和更有价值的新作品的能力。

元认知意识和自我调节：

这是在使用AI时监测自身学习和认知过程的关键能力。它包括识别过度依赖或“元认知懒惰”的苗头，就何时将任务委托给AI与何时参与为学习而进行费力思考做出有意识的决定，并反思AI使用如何影响自身的技能发展。

伦理和负责任的使用：

这涉及理解和应对GenAI的伦理方面。它包括尊重数据隐私、维护学术和专业诚信、对AI贡献提供适当的归属，并考虑这些强大技术的部署方式更广泛的社会影响。

最后，我们的研究强调了一个关键风险：对GenAI的不加批判的采用可能无意中破坏关键人类技能的发展，如批判性思维、元认知和评价判断，所有这些都是真正专业知识的基础。这可能导致我们所说的“虚假掌握幻象”，即AI生成的令人印象深刻输出掩盖了核心技能的未充分发展，包括混合人类-AI技能（框2.3）。因此，前进的道路不是拒绝技术，而是对教学意图和方法论严谨性的承诺。我们不应仅仅问GenAI“是否增强学生的任务表现”，而必须关注如何用它来培养深入、有意义且持久的学习。这意味着将我们的重点从GenAI驱动的产品重新转向以人为中心的过程，确保GenAI工具被设计为支持而非替代人类思维。通过优先培养持久可迁移的技能并将元认知意识整合到学习和评估中，我们可以释放GenAI的变革潜力，创造一个不仅更高效而且真正人性化的教育未来。

注释

¹. https://www.socialscienceregistry.org/trials/13519

第二章：生成式人工智能用于人类技能发展与评估：对现有实践的影响和新视野

引言

现有实践

增强教学支持

改进反馈实践

推进评估实践

挑战假设和展望新视野

生成式人工智能在技能习得中的悖论

重新思考评估

方法论严谨性

结论

注释

参考文献（略）

发送评论编辑评论

第二章：生成式人工智能用于人类技能发展与评估：对现有实践的影响和新视野

引言

参考文献（略）

发送评论 编辑评论

发送评论编辑评论