第三章:通过对话式人工智能辅导学习:实施苏格拉底方法与生成式人工智能
引言
人工智能(AI)驱动型教学代理(pedagogical agents)正在经历一场深刻变革。以大语言模型(LLM)为核心的生成式人工智能(GenAI)的出现,赋予了数字教学代理前所未有的能力——它们能够进行开放式对话、动态调整语气,并根据个体学习者定制内容(例如,当检测到沮丧迹象时,GenAI代理可以采用更具鼓励性的语气来支持学习者)。这些新特性——从规模化按需个性化到开展开放式苏格拉底对话的能力——有望带来更有效、更具吸引力的学习体验。
与此同时,生成式方法也引发了关键性考量,再次强调了教学法的核心地位。已有研究强调,技术的力量必须服务于良好的教学方法,而非取代它们(Koehler and Mishra, 2009)。换言之,即使是最先进的基于LLM的导师,如果缺乏学习理论指导和周密的教育设计,也将难以发挥效用。因此,本研究始终将“教学法优先”(pedagogy-first)视角置于核心位置。我们将生成式模型定位为能够深化代理人格和对话能力的催化剂,但前提是这些模型被整合进完善的教学框架中。苏格拉底操场(Socratic Playground,简称SPL)原型正是教学法如何保持核心地位的典范——它借鉴了成熟的辅导方法以培养批判性思维和学习者反思能力,同时在真实教育情境中整合了前沿AI的生成能力。通过回顾从AutoTutor等基于规则的系统到当今生成式苏格拉底导师的演变历程,本引言为深入探讨这些新型代理如何运作以及如何负责任地使用它们来改善学习奠定了基础。本章借鉴了将传统智能导师与下一代LLM驱动系统进行比较的最新研究(如Hu and Graesser, 2025[4]),以及生成式AI时代AI驱动教学代理的相关文献。最终目标是阐明一种生成式学习伙伴的愿景:这些代理不仅能超越传统AI导师的局限,而且植根于有意义的教学法并以增强人类能力为导向。
生成式人工智能遇见传统的人工智能驱动教学代理
传统智能教学系统(ITS)大多是依赖预定义if-then规则和领域知识的基于规则的专家系统,用以模拟人类导师。这些系统能够提供分步骤的问题解决支持和反馈,但其行为完全预先编写脚本(即预编程的虚拟形象)。研究表明,此类ITS在经过精心工程设计后,在某些领域可接近人类一对一辅导的效果(Graesser et al., 2005[1]; Paladines and Ramirez, 2020[6])。然而,构建这些系统劳动密集度高:编写专家规则、问题、预期答案和反馈信息需要广泛的领域专业知识。每个新的学科领域都意味着要从头开始构建新的规则库。最重要的是,基于规则导师的僵化性也意味着它们难以处理学生未曾预料的输入或问题,限制了此类系统的实际可扩展性和辅导互动的丰富性。
相比之下,OpenAI GPT系列等生成式LLM的最新进展可以动态生成流畅且情境适当的对话,与传统预编程导师相比,在通用性和适应性方面为ITS实施带来了新机遇(Giannakos et al., 2024[7]; Hu, Xu and Graesser, 2025[4])。可以预见,生成式AI代理能够实现更灵活的辅导体验,能够实时处理不可预见的问题或新颖的问题场景(Kovari, 2025),这是早期基于规则的系统往往难以实现的。
本节进一步深入探讨从基于规则的智能教学系统向教育中神经网络驱动的生成式代理的范式转变如何影响教育实践和研究。
现代LLM已达到一定的会话流畅性和理解水平,使数字教学代理能够与学习者进行开放式讨论(Giannakos et al., 2024[7]; Yan et al., 2024[8])。例如,GPT-4已展示出生成类人解释、提出澄清问题和通过多轮对话为学生搭建思维支架的能力(Zhang et al., 2024[3])。此类模型利用大量预训练知识和上下文推理能力,远超早期ITS的模式匹配技术。基于LLM的代理可以“即兴发挥”后续问题或提示——基于学生的上一次回答,而非从固定的回复菜单中进行选择。Hu等人(2025[4])的研究引入了苏格拉底操场(Socratic Playground)概念,作为一个示范性的下一代ITS实现,正是利用GPT-4核心来实现这种动态适应性。在试点实施中,生成式方法相比传统系统的更多脚本化互动,显著提升了辅导对话的流畅性和个性化(Liu et al., 2024[9]; Zhang et al., 2024[3])。代理展示了高准确性解读细微或部分正确答案的能力,并相应地生成新提示或场景以满足学习者的需求。这些能力凸显了LLM如何使代理超越设计者所规划的预期路径,使辅导体验更能响应个体学习者。
相比之下,早期系统经常在学生输入与任何预编程期望不匹配时出现问题;对话可能停滞,或者代理给出通用回复。生成式模型通过从训练数据中泛化来处理各种输入——即使是开发者未曾预见到的输入。它们还通过检索增强生成(RAG)或针对下游任务特定材料的进一步微调,带来知识锚定潜力,使代理能够将最新的事实信息纳入辅导中(Modran et al., 2024[10])。此外,基于LLM的代理可以在辅导会话中保持某种形式的记忆(通常作为会话上下文传递),跟踪已涵盖的概念以及学生表现出的误解。这是通过对话历史或早期系统缺乏的显式记忆模块等机制实现的。例如,代理可以记住学生在某个概念上有困难,稍后以额外练习或问题重新访问该概念,契合维果茨基的最近发展区(Zone of Proximal Development)概念(Vygotsky, 1978[11])。通过建立并迭代精炼学习者画像,GenAI代理可以相应地调整辅导会话(例如调整难度),使挑战水平与学习者相适应——这是比早期脚本化导师更接近技能娴熟的人类导师的能力。
在实践中,提示工程(prompt engineering)技术常被用于引导LLM的行为朝向教育角色。开发者设计的提示指示模型像苏格拉底导师一样行为,有时包括结构化指导方针甚至用于表示数据的标准化模式(JSON模式)以强制执行教学逻辑。这种基于提示的控制与模型的生成能力相结合,也支持多模态响应——一些代理现在不仅可以生成文本解释,还可以按需生成公式、代码甚至图像以帮助理解(Yan et al., 2024[8])。生成多样化表征(如类比、示例、可视化)的能力有助于满足不同的学习模态,这对于早期受限于文本的预创作系统来说是困难的。综上所述,GenAI为数字教学代理配备了一套工具,包括实时对话生成、深度语言理解、上下文保留和内容创建。这些特性使代理能够比受预脚本逻辑约束的早期系统更灵活地个性化教学和吸引学习者。本章其余部分将进一步探讨这些变化对代理角色的影响、互动如何设计,以及如何确保这一技术飞跃以有效的教学法为基础。
增强的代理角色和能力
生成式AI扩展了人工智能代理的教学能力,使其能够超越先前AI导师的知识传授和反馈提供等传统角色。在苏格拉底操场(SPL)及类似系统中,代理可以根据情境和学习者需求灵活承担导师、同伴或情感教练等角色。本节探讨这些扩展角色及实现这些角色的新能力,阐述基于LLM的代理如何从单纯的内容传递者转变为多维度的教育伙伴。
GenAI代理可以作为导师,引导学习者完成开放式问题或项目。例如,在SPL的论文写作场景中,代理并不简单地提供事实或正确答案;相反,它通过关于学生论文论点的深入“为什么”和“如何”问题来培养学生的批判性思维。这种植根于苏格拉底方法的方法,旨在以类似于人类导师指导的方式培养学习者反思和推理能力。由于代理可以根据学生之前的回答动态生成后续问题,对话感觉是量身定制且具有智识挑战性的。实证观察表明,SPL的苏格拉底代理有效搭建了更深层次的反思——学生被引导解释他们的推理、考虑对立观点并完善想法,而非被动接收信息(Zhang et al., 2024[3])。这种问题驱动的支架形式能够适应个体学习者的互动,标志着能力上的转变:代理从讲师角色转向个性化认知教练角色,引导学习者培养元认知学习策略。
除了学业指导,GenAI代理还具备动机辅导能力。通过对学习者输入的情感分析,代理可以检测到沮丧或困惑,并给予鼓励、对努力的表扬或策略建议。LLM语言能力使代理能够呈现情感协调的外观,从而承担情感教练角色,这可能会增强学习者的信心和毅力,正如相关研究所表明的(Córdova-Esparza, 2025[5])。简而言之,一个设计良好的GenAI代理可以同时是认知导师和情感教练,将智力支持与同理心相结合,超越静态预编程AI导师的表现。
关键的是,不同辅导或教练角色之间的转换可以流畅发生。同一个AI导师可能在一个会话中从给予提示,转换到提出反思性问题,再转换到提供鼓励,甚至让学生主导解释。这种多功能性在僵化的AI导师中几乎不可能实现,但LLM使其能够根据情境即兴发挥。跟踪话语进展的能力,加上识别模式和做出预测的能力——通过严谨设计和实施(例如通过额外指令在对话中检查学生表达的情感)——使代理能够推断何时切换角色——例如,在沮丧时刻采取支持性姿态(作为情感教练),在信心恢复后转变为更具指导性的角色。通过利用先前轮次记忆的内容(通常作为对话上下文传递给GenAI代理),代理可以遵循预设指令评估学习者是否准备好增加自主性,或者是否需要搭建任务和动机反馈来增强信心。这种能力有助于互动的“人性化”,使其更接近导师-学习者情境中观察到的真实教学交流。
生成式教学代理也可以扮演类似同伴的合作者角色,培养合作参与和知识共同建构。GenAI代理可以进行不太正式、更具对话性的互动,类似于同伴学习或协作问题解决。例如,代理可能承担学习伙伴的角色,与学生一起解决问题,偶尔说“我是这样想的,你怎么看?”而非总是进行指导。这种同伴角色利用LLM的对话性质创造双向交流,让学生感到更多能动性。研究表明,多代理或多角色互动可以让学习者接触多样化观点并促进批判性思维(Park and Seo, 2025[12]; Wang et al., 2025[13])。在一个值得注意的演示中,GenAI代理被用于模拟不同参与者(学生、教师、家长)参与课堂式讨论,从而为学习者提供对话中的多个视角(Li, Xie and Lee, 2024[14])。虽然该示例为每个角色使用单独的AI代理,但单个GenAI代理也可以通过有时让学生教它或扮演魔鬼代言人来近似同伴角色。事实上,SPL整合了一个类似于可教学代理模式的功能(灵感来自“教学中学”范式):代理引导学习者阐述一个概念或向系统教授它。通过短暂地充当需要解释的新手,代理鼓励学习者阐述并借此巩固他们的理解——这是教育研究支持“教学中学”策略的证据(Bargh and Schul, 1980[15]; Debbané et al., 2023[16])。生成式AI通过生成可信的查询和误解供学生处理来实现这种角色扮演,模拟从另一个同伴的解释中学习的同伴。
研究人员还在尝试利用生成式模型创建全新的AI学习伙伴原型(Han et al., 2025[17])。例如,可以让GenAI导师表现得像:
- 一个“反思伙伴”代理,在课程结束时提示学习者反思他们学到了什么、觉得什么困难以及如何克服挑战。通过提出元认知问题并可能分享自己的“想法”(从教学提示中生成),代理可能培养学习者的自我反思和自我调节习惯(Guan et al., 2024[18]);
- 一个“跨领域伙伴”,在不同学科和情境中伴随学习者,帮助将一个领域的见解与另一个领域联系起来。由于LLM训练于广泛知识,单个代理可能能在历史课讨论历史,在科学课切换到物理,同时记住学生的一般学习画像。这可能实现跨越多个学科和学习时期的连续指导,实质上充当长期个性化学习伙伴。虽然仍处于理论阶段,但具有持续记忆点的长期运行GenAI代理的早期工作表明,伴随学习者并与之共同进化的AI伙伴的可行性(Park et al., 2023[19])。此外,随着学习者画像成为其个人世界模型的一部分,这种跨领域伙伴可能进一步扩展为个人终身学习伙伴(Krinkin, 2026(即将出版)[20]);
- 一个“动机对话者”,旨在维持学习者参与度和动力。在此角色中,AI代理可能定期回顾学习者的目标、强调已取得的进展,或将材料与学习者的个人兴趣相关联——LLM可以通过利用体育、音乐或流行文化等领域的广泛知识来尝试这一任务。通过这种个性化和积极语调的维护,代理寻求加强和维持学习者的内在动机。
在所有这些扩展角色中,关键推动因素是GenAI代理实时适应和丰富互动交流的能力。传统静态AI导师依赖脚本化表扬或通用反馈,而GenAI代理可以针对个体学习者行为调整其动机信息并调整任务难度(例如,对连续犯多个错误的学生给予更温和的鼓励)。这种适应性产生了更丰富、更具社会协调性的教育体验,更接近人类辅导和同伴合作的细微差别。与这些代理互动的学生不仅仅是被动接收信息,而是积极参与关系体验——与回应他们、记住先前交流并相应调整的导师/同伴角色进行对话。
SPL演示的早期用户研究和趣闻证据表明,学习者经常认为GenAI代理比之前的电子学习工具更“倾听”或“理解”他们。这表明代理的心理存在感得到增强;它感觉不那么像一个程序,而更像一个对话伙伴,这可以增加学生坚持学习任务的意愿。
当然,这些新能力也带来了新挑战。确保代理在作为同伴或教练即兴发挥时,其回复在教学上保持合理是持续研究的领域。尽管如此,生成式AI赋予的扩展角色和适应性显然有可能使AI教学代理远不止动画数字导师——将其转变为丰富学习社会、认知和元认知维度的导师、教练和协作者。
教学设计与互动框架
设计有效的GenAI代理需要将AI能力与成熟的教学原则和互动设计框架相结合。本节概述基于LLM的教育代理的关键设计原则,包括AI决策透明度、搭建式提问技术、多模态参与和学习者能动性维护。然后,我们检查这些原则在实践中的实施方式,参考ARCHED框架和苏格拉底操场系统使用的结构化提示模板(通常基于JSON)(见专栏3.1)。通过强调对话节奏、言语与非言语线索同步以及互动学习者控制等功能,我们展示GenAI代理如何在开放式对话与教学严谨性之间取得平衡,从而在学习者即使受AI驱动时也能培养信任和自主性。
专栏3.1. ARCHED框架和JSON提示
ARCHED及其他类似框架
ARCHED(AI for Responsible, Collaborative, Human-centred Education Instructional Design,用于负责任、协作、以人为本教育的AI教学设计)是一个框架,旨在通过建立基于布鲁姆分类法的透明、人在环工作流程来对抗自动化教育工具的“黑箱”不透明性。该框架不追求完全自动化课程创建,而是采用双代理架构——包括用于起草内容的学习目标生成系统和用于教学审计的对象分析引擎——以确保教育者保留策划和精炼AI生成目标的自主性。同样,该领域其他值得注意的框架包括以效率为重点的GAIDE(Generative AI for Instructional Development and Education,生成式AI用于教学开发和教育)模型和以质量为重点的Academic-GPT协作框架(改编自设计-构建-测试-学习方法)。
JSON提示
文本提示灵活、对话化、对人类友好,但可能留下歧义空间。相比之下,JSON(JavaScript对象表示法)提示使用显式字段和机器可读语法,这减少了对GenAI代理的猜测,使输出更加结构化和可靠。
来源:Li et al. (2025[21])关于ARCHED;Dickey and Bejarano (2024[22])关于GAIDE;Chan et al. (2024[23])关于Academic-GPT。
随着AI导师变得越来越复杂,其操作透明度对于与学习者和教育者建立信任至关重要。ARCHED框架提出了一种以人为本的方法,将透明度和人类监督嵌入AI辅助教学设计(Li et al., 2025[21])(见专栏3.1)。在该框架中,多个专业AI组件推荐教学行动并对其进行评估,而人类教育者保持最终决策者地位,确保AI生成内容背后的推理可见且可审查。
将此转化到数字辅导代理场景中,GenAI代理应该能够解释为什么提出特定问题或为什么给出某些反馈——或者至少在学习者询问时能够这样做。例如,代理可以在提示之前解释其目的是支持学习者澄清对特定概念的理解。这种元对话提供了对代理教学意图的洞察。透明度的另一个方面是表明不确定性。如果AI对回复不完全有信心(可以从模型概率或验证步骤估计),它可以披露这种不确定性——例如,“让我们仔细检查这个答案,因为我不太确定。”这种诚实有助于设定正确期望并邀请联合解决问题,而非让学生将每个AI陈述都当作绝对真理。
几个现代系统已引入机制来促进其透明度和可解释性(见专栏3.2)。
专栏3.2. 现代系统采用的机制
- Khanmigo(来自美国):旨在提供安全、机构级辅导,通过提供外部来源的内联引用和使用“双重检查”机制来增强透明度,AI在显示答案前会明显验证自己的答案;
- Squirrel AI(来自中国):旨在通过精细诊断优化学习效率,利用“可解释AI”向教师展示特定内容推荐背后的推理,尽管底层的“大型自适应模型”对学生来说通常是一个不透明系统;
- Riiid(来自韩国):专注于高效最大化标准化考试成绩,采用“可解释AI”技术为用户可视化哪些知识成分或学习行为促成了他们的预测分数;
- Century Tech(来自英国):旨在增强教师能力和个性化学习,他们的平台通过在学生仪表板上明确区分教师分配任务和AI推荐的“知识点”来确保透明度,并识别触发推荐的“微观”学习行为中的特定技能差距。
来源:Khanmigo网站;Squirrel AI网站;Riiid支持网站;Century Tech网站。
除了现有工具中使用的机制外,生成式教学代理的实施可以纳入交互事后验证机制。在设计SPL时,开发者引入了一个供研究人员和教师使用的日志和可视化工具,显示代理的决策路径(例如,触发了哪个提示模式;代理“认为”学生的误解是什么)。虽然这种后端透明度不直接面向学习者,但它允许对AI的教学行动进行持续的人类监督。总体而言,采用透明设计意味着使系统的内部推理和外部互动尽可能可解释,与教育中可信AI的要求保持一致(Khosravi et al., 2022[24]; Memarian and Doleck, 2023[25]; Khosravi et al., 2022[24]; OECD-Education International, 2023[26])。
AI驱动教学代理设计的基石是使用搭建式对话,通常借鉴苏格拉底提问及相关策略。一个设计良好的AI驱动教学代理不是直接给出答案,而是通过精心排序的问题引导学习者建构知识。这种方法植根于维果茨基式搭建和最近发展区,在该区域中,支持恰好在学习者当前能力之外提供,并随着能力增长逐渐撤除(Vygotsky, 1978[11])。基于LLM的代理特别适合实施苏格拉底提问,因为它们可以动态生成大量探究性问题和后续问题。它们还可以根据学习者回答灵活地重新措辞或调整问题难度。
智能教学框架通常包括问题分类体系(如概念探查、证据请求、反事实提示),可将其编码到AI的提示或决策逻辑中。在实践中,SPL使用基于JSON的提示模板来强制执行结构化辅导脚本,同时利用生成式灵活性(Hu, Xu and Graesser, 2025[4])。提示被分为“Initial_Interaction”“Following_Up”“Providing_Feedback”等部分,每个部分包含代理应做出的苏格拉底式移动类型指导。例如,在“Following_Up”轮次中,代理可能被指示(通过提示)提出一个与学生最后陈述相关的“为什么”问题,或者如果学生答案不完整则请求澄清。通过这种方式构建互动,代理的生成输出保持教学目的性。更重要的是,JSON结构还允许系统明确跟踪期望和误解,即代理保留理想答案中学生应提及的关键点(“期望”)列表以及已知常见错误(“误解”)列表。每个学生回答(通过LLM或补充分类器)与这些列表进行比较,并相应地生成后续提示——例如,如果检测到误解,后续问题可能针对该误解。这种方法借鉴了AutoTutor的期望-误解调整(Graesser et al., 2005[1]),但用LLM能力进行了现代化,确保问题搭建适应学习者的输入。实证研究长期表明这种搭建的有效性,因为它使学习者保持积极的建构模式而非被动模式,这被已知可以增强学习成果(Chi, 2009[27])。
在代理设计中采用搭建方法与更广泛的研究体系相一致,该研究旨在利用LLM驱动的代理培养更深入理解和自我导向学习(Córdova-Esparza, 2025[5])。因此,在设计GenAI代理时,教育技术开发者应策划一组教学合理的提问策略库,并通过提示模式、少样本示例或基于LLM输出的规则覆盖来整合它们。
为了真正超越传统AI导师实现的单模态互动,GenAI代理可以利用多模态参与——将文本或语音与其他模态(如视觉、姿势或互动模拟)相结合。多媒体学习研究表明,协调良好的言语和视觉信息可以增强理解,只要它们是同步的且不会造成过载(Mayer, 2002[28])。现代AI平台允许辅导代理在与对话一起显示图片、图表或在模拟环境中操作虚拟对象。例如,如果学生正在学习几何,代理可能动态生成三角形图表并标记角度,同时引导学生完成证明。生成式模型可以生成视觉描述或请求相关图像(通过与图像搜索或生成模型集成),有效地充当文本和视觉之间的桥梁。此外,如果代理被实现为虚拟导师——无论是通过AR/VR还是基于屏幕的界面——面部表情和姿势与对话的对齐是实现自然互动的重要因素。AI导师虚拟形象上的点头或鼓励性微笑可以强化代理信息(例如,肯定学习者的进步)的语调。然而,值得强调的是,这些线索的时机应与对话内容对齐,以避免认知失调。
苏格拉底操场的当前实现主要是基于文本的,有一个简单的动画虚拟形象代表AI教学代理,但设计指南要求未来版本注重姿势-文本同步——例如,在提出难题时让虚拟形象呈现“思考”表情,或在给予积极反馈时呈现愉快表情。具身会话代理文献(如Krämer et al., 2007)表明,当非言语行为与对话一致时,可以增加学习者对代理的参与度和信任感。几个创新平台使用了非言语行为:DALverse项目为远程教育建立了一个包容性元宇宙环境,学生可以以数字虚拟形象参与多模态学习任务,从而在远程教育环境中提高参与度和保留率(Damasceno et al., 2024[29])。
设计含义很明确:GenAI代理应尽可能集成到利用多种模态(例如文本、语音、图形)的界面中,以实现更丰富的学习互动。然而,设计者必须遵循成熟的多媒体学习原则,以确保这些模态互补而非相互竞争——例如,避免不必要的额外动画或冗余解说(只是大声朗读屏幕文本),两者都可能导致认知过载。
对AI导师的一个常见批评是学习者被动性的风险——如果代理做得太多,学生可能会变得不投入或过度依赖AI。因此,核心设计原则是维护和促进学习者能动性。GenAI代理可以通过多种方式支持这一点。一种方法是通过培养学习者的元认知意识。例如,这可以通过提出开放式问题来实现,这些问题允许学习者引导互动的方向,从而培养他们驾驭自己学习旅程的意识。即使是简单的提示,如“你想要另一个提示还是我们尝试不同的问题?”,也将学习者置于积极决策角色。界面可以通过互动控制进一步增强能动性。例如,SPL界面为学习者提供选项,可以请求更简单的解释、向代理提问,或表示他们希望独立尝试解答。这些控制充当安全阀,以便学生可以调节帮助级别。在底层,代理监控这些输入并调整其策略——如果学生反复请求更简单的解释,代理将降低其语言复杂性或将问题分解为更小的步骤;如果学生希望独立进行,代理将退后并承担更多观察角色,仅在被询问时介入。
另一种维持能动性的技术是通过实施轮流策略,确保AI不主导对话。例如,在代理提出问题后,应该给学习者充足的思考和回应时间,而非立即用更多话语填充沉默。如果学生似乎卡住了,代理可以提供提示,但最好先鼓励学生阐述任何部分想法。这与提供最小帮助以使学生进行尽可能多的认知工作的AI辅导技术保持一致:此类系统的目标是达到“互动”参与水平,学生和导师共同建构知识(Chi, 2009[27])。从设计角度来看,这种实施可用于衡量学生与代理各自产生的对话比例;SPL的一些原型评估观察了学生生成的词语或轮次的百分比,并通过界面调整旨在随时间最大化该比例。此外,代理可以通过明确反思来培养能动性:鼓励学生设定目标、提出自己的问题或评估代理的建议。例如,代理可能会说:“你同意我刚才建议的方法吗,或者你认为有更好的方法?”——促使学习者批判性地评估AI之前的回复,从而将AI视为协作伙伴而非绝对权威。
实践中的工作:SPL演示系统(本节内容翻译有缺失)

苏格拉底操场(SPL)是一个生成式AI辅导代理的演示实现,展示了在真实教育环境中基于GPT-4核心的系统如何运作。该系统将GPT-4与结构化教学模板(基于JSON配置的课程脚本)结合使用,为辅导互动提供教学框架。SPL界面呈现AI导师对话,旁边有虚拟形象,每个轮次标注发言者(Tutor或Student)。学生可以请求提示、向代理提问或表示他们想独立尝试。有一个仪表板供教师监控互动并在必要时进行干预,或事后查看会话记录,纳入了内置隐私保护。
SPL的论文写作场景展示了GenAI代理如何在开放式任务中指导学生。例如,代理就学生论文论点提出探究性的“为什么”和“如何”问题,培养批判性思维和反思。代理利用GPT-4进行动态对话生成,并根据学生的学习回答调整问题。实证观察表明,早期用户研究显示学习者感到代理在“倾听”和“理解”他们方面比之前的电子学习工具更强。

SPL试点还揭示了一些界面问题。例如,最初版本没有明确说明用户可以随时向代理提问;一些用户认为他们只能回答代理的问题。这种单方面互动并非设计意图——系统能够处理用户发起的问题或澄清,但UI提示不够清晰。作为回应,我们调整了界面以明确用户可以向AI导师请求解释或提示。另一个小但有趣的观察是,一些用户在对话开始时以正式语气与AI导师互动(例如“亲爱的导师,我有一个问题……”)。随着时间推移,他们变得更加口语化,因为他们意识到代理会像人类一样回应。这种适应过程表明,建立用户对代理风格的信任和熟悉是采纳的一部分;任何部署都应考虑让用户舒适地与AI交谈的入职或教程。从设计角度来看,我们发现保持用户控制感至关重要。当参与者不同意AI的建议时,AI会坚持其观点以示周到,这会让用户感到沮丧。在后续调整中,我们让代理更明确地认可和尊重用户观点(例如,“这是一个有效的观点。我们进一步探索它还是你想考虑其他角度?”)。这保留了反思的教学目标,同时避免了AI坚持己见的印象。这种微调使代理更像支持性引导者而非审问者,这对于持续参与很重要。

苏格拉底操场演示为生成式教学代理的真实世界实施提供了有价值的案例研究。它指向了LLM驱动导师讨论中正在出现的若干潜在益处(个性化搭建、学生工作中批判性思维的改善以及积极的学习者反馈)(Córdova-Esparza, 2025[5]; Liu et al., 2024[9]; Park and Seo, 2025[12])。同时,它揭示了从受控开发转向实际使用时出现的实践问题:延迟、偶尔的AI错误、界面清晰度以及学生与代理之间控制权的微妙平衡。SPL的经验强调了一个核心主题:GenAI在教育中的研究承诺与这些工具的实际部署之间仍存在差距,这只能通过迭代改进、以用户为中心的设计和严格评估来弥补。
有效性研究框架
GenAI代理整合到教育中已从理论承诺转向严格的实证验证。近年来,一些随机对照试验和大规模现场研究为GenAI驱动的ITS当前有效性提供了宝贵见解。本节综合了三种不同部署模型的新兴证据:混合/人在环(增强人类导师)、独立辅导(取代或补充讲座)和课堂整合(支持实时课堂作业),最后提出了评估此类系统有效性的精简框架(见专栏3.3)。
GenAI系统的第一种使用场景是AI不直接教导学生,而是作为人类导师的实时“耳语者”,建议教学动作以增强指导。最突出的例子是Tutor CoPilot,在一项涉及900名人类导师和1800名高中学生的大规模随机对照试验中部署(Wang et al., 2025[33])。研究发现,虽然使用GenAI导师的学生平均掌握率提高了4个百分点,但其真正力量在于“提升”劳动力水平。使用CoPilot的低评分或新手导师的学生比对照组的学习增益提高了9个百分点,有效弥合了新手和专家辅导之间的差距。聊天日志分析揭示了机制:GenAI系统成功地将经验不足的导师从简单给出答案引导向使用专家搭建策略(如提出指导性问题)。这表明GenAI最有效的用途不是取代人类,而是跨可变劳动力扩大专家教学法。
另一个场景涉及学生直接与AI教学代理互动以学习新概念或加速学习,通常在标准课堂时间之外。在哈佛大学,哈佛物理导师(定制GPT-4代理)在随机交叉试验中与“黄金标准”主动学习课堂进行测试(Kestin et al., 2025[34])。结果令人震惊:使用AI导师的学生获得的学习增益是主动学习组的两倍多(效应量d≈0.73-1.3),关键是他们达到该水平的时间显著更少。这凸显了“超个性化”的效率——GenAI可以解决课堂教师无法同时为每个学生解决的特定误解。
同样,在远程教育背景下,IU International University部署了Syntea(一个GenAI教学助理),面向超过10,000名学生(Möller et al., 2024[35])。这里的主要成功指标是“学习速度”:使用Syntea的学生将完成课程的平均时间减少了27%,同时保持考试成绩。通过充当始终可用的苏格拉底学习伙伴,GenAI代理消除了反馈的“等待时间”,有效加速了学习循环。在资源匮乏的环境中,基于文本的数学导师Rori证明高保真界面对于产生影响并非必要。通过WhatsApp部署给加纳1,000多名学生,Rori产生了显著数学增长(效应量d=0.37),每位学生边际成本约为5美元,证明了对话式AI甚至可以在基本移动基础设施上弥合数字鸿沟(Henkel et al., 2024[36])。
第三,GenAI导师可用于配合标准教学进行练习题。在这种情况下,在没有“护栏”的情况下,当前证据指向较高的认知卸载风险。(认知卸载是使用外部工具或资源来减少执行任务或记忆信息所需的心理努力的行为。)一项涉及近1,000名高中数学学生的研究比较了标准“GPT Base”模型与经过教学工程设计的GPT导师。无限制访问“Base”模型的学生在练习期间表现提升48%,但在后续独立考试中表现下降17%,这种现象被称为“拐杖效应”。学生们学会了使用AI来绕过学习所需的认知努力。“GPT导师”被有意设计为扣留直接答案并提示自我解释,减轻了这种伤害,但未能产生基础组看到的人工性能提升(Bastani et al., 2025[37])。
Khanmigo(可汗学院)等其他课堂工具显示了混合定量结果但强有力的定性益处。虽然可汗学院的一些试点显示与标准网络搜索相比短期内测试成绩“没有统计学显著差异”,但学生报告“评估焦虑”显著降低。他们觉得向AI问“愚蠢的问题”比向老师提问更安全(Slijepcevic and Yaylali, 2025[38])。
总之,鉴于这一多样化结果格局——从加速掌握到技能退化——显然有效性并非技术固有,而是依赖于实施方式。更重要的是,对已实施工具的严格评估是必要的,以区分真实学习增益与欺骗性性能提升。这要求对GenAI驱动学习工具的不同用途进行持续和系统评估。专栏3.3提供了一些评估这些工具的度量建议。
专栏3.3. 评估GenAI驱动智能教学系统(ITS)的框架
- 标准化学习增益:使用经过验证的仪器(如加利福尼亚批判性思维技能测试,Facione, 1990[39])进行前测/后测设计。关键:包括没有AI协助的延迟后测(例如一周后)以检测“拐杖效应”(表现幻觉)。
- 人工制品质量(盲评):对于写作/编程,使用盲评和评分标准(如OECD的创造力和批判性思维评分标准)评估AI辅导草案是否比对照草案表现出更优越的批判性思维或创造力。
- 效率:测量“达到掌握所需时间”——AI是否允许学生比传统方法更快达到相同熟练标准。
- 互动粒度:
- 任务时间:在使用AI进行学习活动时花费的时间(例如,较长持续时间可能表示与AI作为学习伙伴的乐趣有关)。
- 对话对称性:学生与AI的词语比例(例如,低比例可能意味着被动消费,而高比例可能表示主动参与)。
- 词汇多样性和句法复杂性:使用NLP跟踪学生回答是否随时间变得更复杂(深度思维的代理指标)。
- 出声思考协议:让学生在使用AI时口头表达他们的思维过程。这可以识别“机械化趋同”(即盲目接受AI建议)。
- 评估焦虑:调查学生对使用ITS支持学习的看法(例如,与人类教师相比,向AI提问的舒适程度)。
- 教师和利益相关者反馈:访谈或焦点小组,评估整合摩擦(例如,集成工具是否干扰课堂流程)。
- 对照比较:引入随机对照试验(或在RCT不可行时采用准实验设计)以全面评估系统有效性。
- “消融”研究:对于设计具有完整功能套件的系统,通过有和没有特定功能的实验条件来检查系统有效性。
- 人在环RCT:在导师级别(而不仅仅是学生级别)进行随机分配,以审查工具的引入如何改变导师的教学实践。
- 纵向追踪:在较长时期(例如一整个学期)追踪使用情况以消除“新奇效应”;追踪学习增益以确保它们持续存在。
- 偏见审计:用“对抗性输入”压力测试工具,检查文化和政治偏见。
- 人口统计学细分:按语言背景分析结果,以确保工具帮助不同能力水平的学习者,而不仅仅是高成就者。
挑战、伦理和实践意义
部署GenAI代理以促进技术增强辅导带来了必须解决的特定挑战,以确保这些工具负责任、公平且教育有效。虽然个性化、适应性辅导的潜力巨大,但实施必须应对技术限制和教学风险。
对话式辅导的一个主要技术挑战是生成式LLM的“幻觉”倾向,即产生看似合理但错误的信息(Zhang et al., 2025[40])。在苏格拉底情境中,导师引导学生进行推理链,AI引入的错误前提可能使整个学习过程脱轨。如果学生内化了这些错误,损害是巨大的。研究已经观察到学生在作业任务中复制AI引入的错误(Pardos and Bhandari, 2024[41])。
为减轻这一问题,系统越来越多地采用检索增强生成(RAG)将AI回复锚定在可信语料库中,如教科书(Li et al., 2025[32])。此外,公平性仍然是一个关键问题。LLM可能在语言或方言间表现出性能差距,可能对非母语者不利(Lai and Ngo, 2023[42])。此外,如果没有仔细校准,AI导师可能无意中偏向特定文化视角或论点,破坏有效辅导所需的中立性。
也许最重要的教学挑战是维持支持与独立之间的微妙平衡。一个有效担忧是过度依赖AI协助可能会减少心理努力并损害探究深度(Stadler, Bannert and Sailer, 2024[43])。如果AI导师过于指令性,或者学生被动接受AI的指导,方法的元认知益处——自我评估和批判性思维——就会丧失。
因此,设计者必须确保AI赋予学习者权力而非使其成为被动接受者。这涉及透明度——解释为什么提出问题——并明确提示学生验证信息,培养GenAI时代必需的元认知发展(Tankelevitch et al., 2024[44])。
与该领域的共识一致,AI导师应被视为增强而非取代人类教育者的工具(Li et al., 2025[45]; Cukurova, 2026[46])。这些AI导师的伦理保障应该是“人在环”方法,教师保留对AI指导的监督权(Alfredo et al., 2024[47]; Colonna, 2023[48]; OECD-Education International, 2023[26])。教师必须有权决定何时使用AI——例如,将其分配用于初步作业讨论,以便课堂时间可以保留用于更深入的分析(Strauß and Rummel, 2026[49])。这需要专业发展,以确保教师能够熟练解读AI输出并在系统逻辑偏离时进行干预。
除了特定的教学动态外,这些代理的更广泛部署需要严格遵守操作和伦理标准。正如Luckin和Holmes所论证的(Luckin, 2016[50]),技术创新必须与伦理护栏相结合。关键考虑因素包括:
- 数据隐私和治理:系统必须遵守GDPR或FERPA等法规。由于AI导师收集深层行为数据,需要严格的匿名化和访问控制来保护学生隐私(Colonna, 2023[48])。
- 基础设施和公平性:部署GPT-OSS和Qwen3等LLM计算成本高昂。为了防止数字鸿沟——只有富裕机构才能获得高质量GenAI驱动辅导——策略必须包括补贴访问或使用优化的低成本模型。
- 透明度和信任:透明地标记代理为AI是一个伦理要务。用户应被告知系统的局限性——特别是其幻觉可能性——以鼓励批判性评估而非盲目信任。
未来方向和研究路线图
生成式AI在教学代理中的出现只是教育技术更广泛变革的开始。本节概述了推进该领域的未来方向和研究路线图。它强调了几个有前景的途径:
- 教育者授权的创作工具和平台,使教育者能够在没有深厚技术知识的情况下轻松创建和定制AI驱动的辅导内容;
- 多模态GenAI代理,结合视觉、语音以及可能的其他感官输入,以创建更全面的学习体验;
- 多代理和协作AI系统,多个AI导师或AI学生同伴相互互动并与学习者互动,以模拟小组学习动态;
- 终身学习伙伴,在较长时间内(跨课程或年份)伴随和支持学习者,随学习者成长而适应;
- 跨语境自适应部署,确保这些代理可以在不同情境中(从正式课堂到非正式学习,跨越不同学科领域和年龄组)转变和有效。
我们还提出了未来研究方法,包括大规模试验和纵向研究,以验证和改进这些系统的影响。最后,我们强调GenAI代理是一项发展中技术,随着其发展将需要持续评估其有效性、可访问性以及对教学法的对齐。
首先,为了使生成式AI导师最有用和被广泛采用,教育者需要能够轻松创建和定制内容。依赖AI专家构建每个课程是不可扩展的。因此,一个关键发展领域是面向教师的AI辅助课程创作工具。例如,教师可能输入课程的学习目标和关键点,系统可以生成与该目标对齐的提示模板草稿或一系列问题。然后教师可以审查、完善和批准AI生成的内容。或者,教师可以演示一次期望的对话流程——要么通过与模拟学生对话,要么明确概述——AI导师可以采用该风格。此外,AI可以支持创建模拟或叙事学习活动。例如,如果教师请求一个场景,让学生与扮演历史人物的AI就给定主题进行辩论,系统可以生成初步脚本供教师后续修改。这类工具将大大降低跨不同学科和语言实施定制AI辅导的门槛。
这里的研究路径包括理解教师如何概念化AI行为,并设计与他们思维相映射的界面(例如,有些人可能更喜欢基于规则的界面,其他人可能想提供示例并让AI泛化——类似于编程演示)。与教育者共同设计至关重要;早期研究应让教师使用原型创作工具,并衡量结果,如他们开发新课程的速度、该课程对学生的有效性,以及教师对AI最终行为的控制水平和透明度感到舒适的程度。ARCHED框架是这一方向的一步,因为它在每个阶段都有人类监督的结构化AI参与教学设计(Li et al., 2025[21])。未来研究可以在ARCHED基础上,将类似原则应用于实时辅导内容创建。
未来研究的一个明确方向是超越文本扩展到多模态互动。人类通过丰富的模态混合——语音、姿势、书写、绘画等——交流和学习。未来的AI导师可能将通过做同样的事情来支持学生学习。GPT-4等模型已经具备一些多模态能力(例如,接受图像输入),并且正在研究将视觉理解与语言模型集成。一个未来的AI驱动教学代理可能观看学生在纸上解决物理问题(通过摄像头),从他们的书面工作或图表中诊断误解,然后提供口头指导。或者在虚拟实验室中,代理可能观察学生组装电路或进行模拟,并在正确时刻介入。视觉支持的代理可以通过“看到”检查学生的工作解决方案中的错误,就像老师扫一眼笔记本一样。同时,语音接口将允许在打字不方便的环境中更自然的使用——想象语言学习者与不仅能说话还能读取面部表情以判断情感(例如困惑)的AI练习对话。
此外,AR/VR中的具身代理可以提供沉浸式辅导——例如,一个全息科学导师出现在AR耳机中,在实验室中引导学生完成化学实验。具身可以利用物理环境:例如,在混合现实中,代理可以指向模型的各个部分或用虚拟对象演示。多模态代理可以被设计为丰富学生的学习体验,更好地与戴尔经验锥(Dale’s Cone of Experience, Dale, 1969[51])和科尔布体验学习循环(Kolb’s experiential learning cycle, Kolb, 1984[52])等理论保持一致,这些理论强调做中学和体验中学。这类方法的早期试验(如前面提到的将LLM与元宇宙集成的DALverse平台)显示了参与度和保留率的提高(Damasceno et al., 2024[29])。对研究人员来说,挑战是如何无缝集成模态,使AI能够连贯地解释和生成多感官数据。这可能涉及将专门模型(用于视觉、语音)与LLM相结合,或训练统一的多模态模型。它也提出了新问题:如何在这些更丰富的环境中评估学习?如何确保添加的模态真正改善学习而非仅仅是花招?随着这一研究路线的发展,这些将是需要回答的关键问题。
尽管如此,一个可能的近期场景是能够说话和聆听的导师(通过语音转文本和文本转语音集成已经可行),也许还可以动态使用简单图形或图表(例如,使用教师准备的课程材料中提供的数据绘制图表)。最终,多模态生成式代理的目标不仅是模仿人类导师的对话,而是模仿其完整教学存在——书写、绘图、演示和对非言语线索的回应。
另一个令人兴奋的前沿是使用多个代理来丰富教育互动。与其一个AI导师和一个学生,不如设想几个AI角色和一个或多个学生的场景。例如,多代理系统可能包括AI导师加上AI同伴学习者;人类学生然后可以参与小组对话。这可以模拟协作问题解决或苏格拉底辩论,让学生接触多样化观点。(Park et al., 2023[19])成功开发了相互互动以模拟类人社会行为的“生成式代理”。Li et al. (2024[14])等研究人员提出了用于教育支持的多
展望更远的未来,生成式AI代理有望突破阶段性、碎片化辅导的局限,进化为伴随用户全学习周期的终身学习伙伴,实现跨学段、跨领域、跨场景的持续性学习支持。不同于传统AI教学系统为数学、科学、写作等不同学科单独设置独立辅导模块,一体化的AI学习体系可构建并长期维护学习者的专属学习画像,完整记录个体的知识储备、能力优势、认知短板、学习习惯与兴趣偏好,形成动态迭代的个人学习数据库(Krinkin, 2026(即将出版)[20])。这一发展方向与个性化终身学习的现代教育理念高度契合,也与UALS等下一代自适应学习平台的核心设计理念相呼应,该平台依托10级分析体系与百组智能代理,实现了对学习者全流程、持续性的学习状态追踪。
终身AI学习伙伴可实现学习支持的连续性与递进性,彻底打破传统学习的场景割裂。例如,AI可记录学习者初中代数阶段的知识薄弱点,在高中物理、微积分等后续相关学科学习中主动关联前置知识,针对性强化薄弱环节,规避认知断层。这种持续性支持不仅覆盖K12、高等教育等正式校园学习阶段,还可延伸至职业培训、技能提升等终身发展场景,当学习者进入大学深造或职场进阶时,具备完整学习履历的AI伙伴可基于用户过往学习特征,自适应调整全新领域的辅导模式与学习节奏,实现无缝衔接的个性化指导。同时,依托UALS双学习理念架构,该伙伴可灵活适配课程导向的学术深度学习与能力导向的职业技能培养,兼顾正式学业教育与职场能力提升双重需求。
当然,终身学习伙伴的落地仍面临技术、教学法与伦理三重维度的核心难题。技术层面,如何安全、高效地长期存储、迭代更新海量学习者数据,保障长期画像建模的精准性与稳定性,是系统落地的基础难点;教学法层面,长期累积的学习者数据可能形成固有认知偏见,如何规避早期学习短板、行为特征固化为系统刻板判定,确保持续性学习支持带来能力累积增益,而非固化学习局限,是优化教学效果的关键;伦理层面,学习者长期学习数据的所有权、使用权、重置权亟待明确,需建立规范机制,避免系统依据早期学习表现对用户进行狭隘定位,限制学习者后续的发展可能性。
当前已有前沿研究为破解上述难题提供支撑,Tong和Hu (2024[54])提出的自适应教学系统自我优化机制,以及NEOLAF AI教育服务的神经符号架构(Tong et al., 2023[55]),实现了AI系统的自主迭代与动态适配,为终身导师的自适应升级提供了技术支撑。未来研究可依托UALS平台10级梯度分析能力,开展跨学段、跨学年的长期试点研究,追踪学习者的知识迁移、能力成长轨迹,验证长期学习画像、前置知识关联推送对学习效果的正向作用。除此之外,终身AI伙伴能够突破课堂学习的边界,培育用户自主探究的终身学习素养,通过主动挖掘用户兴趣偏好、推送适配的非正式学习资源、协助完成个性化项目探究,模糊正式教育与非正式学习的边界,持续激发学习者的探究好奇心与自主学习能力。
除长期化、终身化发展外,生成式AI教学代理的另一核心未来方向是实现全场景、全领域的跨语境自适应迁移,解决当前AI辅导系统领域适配性弱、场景迁移成本高的行业痛点。现阶段多数教育AI工具针对性强,适配单一学科、单一教学场景,针对新领域、新学情、新场景的调试成本极高,通用性与灵活性不足。未来的通用型AI教学导师将依托大模型的少样本学习、迁移学习能力,实现快速领域适配,仅需少量课程文本、学科问答样本即可完成新学科、新领域的快速部署,大幅降低教育AI的落地门槛。
跨语境自适应能力体现在学情、文化、场景三重适配维度。首先是学情层级适配,AI代理可通过精细化提示工程与层级化分析机制,针对小学、中学、大学、职场培训等不同层级的学习者,自适应调整语言难度、问题深度、辅导节奏,匹配不同认知水平用户的学习需求,这与UALS从极速浅层分析到全维度深度分析的10级智能代理分层服务逻辑高度契合,可根据用户需求灵活切换辅导深度。其次是文化与地域适配,通用型AI导师可嵌入本地化课程标准、地域文化案例,依托轻量化微调与本地知识库嵌入技术,无需全面重构模型即可适配不同地区的教育体系与教学特色,解决全球化AI教育工具的地域适配难题。
最后是场景模式适配,AI教学代理可根据正式课堂、课后自主学习、职场技能训练等不同场景,动态切换教学风格与辅导模式。在正式课堂场景中采用规范化、结构化的探究式辅导模式,贴合课堂教学秩序;在课后自主学习场景中采用轻量化、趣味化的引导模式,适配自主探究节奏;在职场培训场景中侧重实操性、应用性指导,聚焦能力落地。同时,依托UALS三大学习模式——自主探究学习、AI苏格拉底引导学习、场景化综合评估学习,可实现不同学习场景的全覆盖,适配发现式学习、精准辅导、能力测评等多元需求。长远来看,该方向的终极目标是打造媲美人类教师的通用型AI导师框架,可跨学科、跨年龄、跨场景灵活适配教学需求,依托持续的多领域训练与迁移学习研究,逐步实现教育AI的通用化、普惠化落地。
结论
从固定脚本化的传统AI教学代理到动态生成式苏格拉底AI导师的迭代演进,是教育技术领域兼具技术革新与教育理念升级的深刻变革。本章以苏格拉底操场(SPL)系统为核心研究载体,系统梳理了生成式AI赋能智能教学系统的发展脉络,证实这场变革并非简单的技术迭代,而是对个性化、探究式教育模式的全新重构。在“教学法优先”的核心原则指引下,生成式AI不再是单纯的技术工具,而是能够深度契合苏格拉底探究式教学理念、适配学习者个性化需求的动态对话伙伴,实现了先进人工智能技术与科学教育方法论的深度协同(Hu, Xu and Graesser, 2025[4]),UALS等新一代AI教育平台的落地应用,也进一步验证了多智能体协同、分层自适应教学模式的实践价值。
生成式AI教学代理的规模化落地,要求行业研究从概念验证、场景演示转向系统化、长效化的实证评估。当前领域研究需跳出技术新奇性的局限,通过大规模随机对照试验、长期纵向追踪研究,全面验证AI辅导对学习者的综合影响。评估维度不应局限于学科知识掌握度,更需聚焦元认知能力、自主学习策略、批判性思维、学习内驱力等核心素养的长效提升,探究AI工具的长期使用效果,规避技术新奇效应带来的短期虚假增益。同时,随着大模型技术的持续迭代升级,GPT-4及后续迭代模型的教育适配性需建立常态化复核机制,确保AI系统始终贴合教育目标,不会因模型升级产生教学偏差、逻辑冗余等问题。
长效评估体系的构建,必须将教育公平、伦理安全与教学有效性置于同等核心地位。事实准确性、数据隐私安全、教育公平性并非AI教育的附加要求,而是保障智能教学系统公信力的核心基石。研究与实践中可通过偏见审计、人在环监督机制、多维度伦理校验等保障手段,对接OECD、UNESCO、欧盟等国际教育与AI伦理规范,构建规范化的安全护栏。同时,依托UALS的无障碍适配、多语言支持、普惠化部署优势,推动AI教育工具适配多元化学习群体,兼顾不同学习能力、不同语言背景、不同地域学习者的需求,实现包容性、普惠性智能教育。随着多模态、多智能体、终身化AI教育模式的持续发展,无障碍适配、个性化伦理保障、场景化安全管控将成为系统优化的核心方向,持续提升用户与教育者对AI教学工具的信任度。
从早期AutoTutor模拟基础辅导对话的探索(Graesser et al., 2005[1]),到如今SPL、UALS等生成式AI教育系统实现深度苏格拉底式探究辅导,教育AI的发展逐步趋近个性化普惠教学的终极愿景。技术创新的核心价值不在于技术迭代本身,而在于依托AI的自适应、协同化、长效化能力,拆解优质教育资源的地域、师资壁垒,规模化复刻优质教学逻辑,让每一位学习者都能获得适配自身的个性化探究式辅导。实现这一愿景,必须坚守“教学法优先”的核心准则,杜绝技术滥用与过度智能化,始终以赋能学习者、辅助教育者、优化教学模式为核心目标。通过教育研究者、AI技术开发者、一线教师、政策制定者的跨学科协同合作,融合教育科学的严谨性、人类教学的共情性、人工智能的高效性,推动生成式AI教学代理良性、可持续发展,最终实现缩小教育差距、赋能终身学习、重构个性化教育体系的核心目标。
注释
1. 本文提及的下一代自适应学习平台UALS可通过公开链接访问:https://uals.skoonline.org/,该平台搭载10级智能分析体系、100组协同AI代理,支持双教学理念、三类学习模式与多元评估体系,实现全流程自适应AI教学辅导。
2. 结构化工具调用为AI教学代理精准交互的核心机制,典型调用范式示例:{“action”: “USE_CALCULATOR”, “input”: “2*5*3.14”},即系统可识别用户输入的数学运算任务,自动调用计算器工具完成精准计算,规避模型运算误差,保障教学内容准确性。
参考文献(略)
附件 3.A.教育 GenAI 代理的技术方面
本附录系统阐述了苏格拉底操场(SPL)中教育生成式人工智能(GenAI)代理的底层技术架构与运行机制。除核心的大语言模型(LLM)调用与提示工程设计外,本部分详细介绍系统后台支撑能力,包括领域专属评分体系、计算器等功能性工具插件;同时兼顾前端交互设计,涵盖实时对话渲染、交互式控制模块等关键内容——前端交互体验直接决定AI代理的响应质感与运行可靠性。整体围绕系统可扩展性、多模态适配能力与全流程运维监控体系,梳理各项技术基础设施的架构逻辑与集成方案,为平台流畅、稳定、可持续的教学服务提供技术支撑。

架构概述(GPT-4核心和模块)
SPL系统以GPT-4大语言模型为核心驱动,负责生成标准化、情境化的教学对话内容。模型通过API接口实现远程调用,系统向其传入封装完整的对话上下文与本轮互动教学目标的专属提示词,引导模型输出适配苏格拉底教学逻辑的辅导内容。在LLM核心外围,系统搭建了四大核心功能模块,分别为对话管理器、学习者模型、领域知识库与多元集成接口,整体架构如图3.4所示。
对话管理器是调控每轮对话质量的核心模块,主要负责整合多维上下文信息,包括历史对话记录、课程核心知识点、文本素材等内容,结合前文构建的教学设计与互动框架模板,动态生成适配当前教学场景的LLM提示词。该模块核心能力为动态提示注入机制:在请求GPT-4生成回复前,实时将学生作答内容、已识别的认知误区、外部权威知识等增量信息嵌入提示模板,实现对话的动态迭代与精准适配。以议论文写作教学场景为例,当学生完成气候变化主题论文初稿时,系统可通过知识检索组件植入权威科研文献片段,将AI反馈锚定在客观事实之上,有效约束大模型的幻觉问题。这种检索增强生成技术,是当前提升LLM内容真实性与专业性的主流方案,可将模型生成内容锚定于经过审核的权威知识体系中(Modran et al., 2024[10])。
学习者模型承担学习者全维度状态建模与进度追踪的核心功能,能够动态构建并更新用户学习画像。在SPL系统中,该模块可实时追踪学生的课程目标完成情况、高频认知误区,同时统计量化学习指标,包括答题准确率、作答时长、学习情感状态等多维数据。该模型本质上是对学习者最近发展区的动态记忆与智能研判,能够精准评估学生在适度支架辅助下可突破的认知难度层级。系统可基于学习数据动态调整教学节奏与内容难度:若学生连续精准掌握同类题型,系统将自动提升题目难度、推进全新教学话题;若持续出现认知错误,则锁定当前子知识点,切换差异化教学策略,规避认知断层。学习者建模与知识追踪的经典研究为该模块的设计提供了理论支撑(Gong, Beck and Heffernan, 2011[56]),同时本系统针对开放式非结构化教学对话场景,对传统知识追踪算法进行了适配优化,突破了传统结构化习题场景的应用局限。
领域知识库亦称为课程脚本仓库,是系统实现标准化、专业化教学的核心支撑,整体采用轻量化JSON配置文件架构实现课程内容封装。系统可为每一门学科、每一个知识领域配置独立的JSON脚本文件,统一收纳核心知识点、典型认知误区、示范习题、教学引导策略等标准化教学元数据。脚本中预设的“学习期望”与“认知误区”两大核心条目,可精准对应前文所述的分层教学目标与错误认知矫正机制,同时配套各知识点的提示引导方案、教学适配策略等辅助信息,构成AI可实时调用的轻量化领域专家模型。
在GPT-4生成教学回复的过程中,系统会选择性嵌入或追加结构化课程脚本信息,例如推送学生未掌握的知识目标摘要,隐性引导AI推进针对性教学,确保对话贴合课程进度。这种“LLM生成灵活性+结构化脚本规范性”的混合架构,有效解决了纯端到端大模型教学的核心痛点,规避了AI对话偏离主题、脱离课程目标、教学逻辑松散等问题,为开放式对话教学提供了标准化边界约束。该架构设计借鉴了GIFT通用智能辅导框架(Sottilare, Graesser and Sinatra, 2018[53])、AutoTutor智能教学系统(Graesser et al., 2005[1])等经典智能教学系统(ITS)的设计理念,延续了对错认知、知识体系的显式建模逻辑。相较于传统预编程式ITS,本系统的创新点在于,将高难度的对话生成、语义理解工作交由大模型完成,结构化课程脚本仅作为教学校验节点与规范边界,兼顾了教学灵活性与专业性。
现代大模型基础设施的核心优势之一,是依托扩展上下文窗口与外置记忆存储机制,实现长期对话语境的完整留存。GPT-4版本支持最高8000令牌及以上的超长上下文窗口,可完整记录单轮辅导会话中的全部对话内容,全程留存前期对话细节,彻底解决了传统聊天机器人上下文遗忘、对话割裂的问题,大幅提升了长时教学会话的连贯性与情境适配性。
针对跨会话、跨周期的长期记忆留存需求,系统搭建了独立的外置记忆存储机制。单次教学会话结束后,GPT-4将自动梳理对话核心内容、知识点掌握情况、学习成果与现存短板,生成精简的会话摘要并归档至学习者数据库。当学生再次发起学习会话时,系统自动调取历史摘要并前置嵌入初始对话,为AI提供完整的长期学习语境支撑。这种跨周期的记忆延续机制,是前文所述AI终身学习伙伴理念的落地实现(Krinkin, 2026(即将出版)[20]),为持续性、累积式个性化教学提供了技术基础。
记忆系统同时支撑学习者最近发展区的动态追踪。系统通过挖掘分析用户互动行为数据,包括错题频次、知识点耗时、作答准确率等核心指标,智能研判学生的认知边界与进阶潜力,精准定位下一阶段的适配学习内容。例如,当学生可熟练完成基础性问答,但在综合性、高阶性问题中频繁受阻时,AI将主动调整教学重心,聚焦高阶思维能力的引导与训练,始终将教学难度维持在“有挑战但可突破”的最优认知区间。
为保障难度调控的稳定性与精准性,系统将核心调控规则前置部署于对话管理器中,脱离LLM自主推理的不确定性,形成刚性调控逻辑:若学生在单一概念上连续出现两次错误,系统自动降级难度,回归基础子知识点开展巩固教学;若学生高准确率、高稳定性完成答题,则逐级提升难度、推进下一知识模块。刚性规则与柔性生成对话相结合的模式,有效规避了大模型随机推理带来的教学节奏混乱问题,保障个性化教学的稳定性。
单一LLM的生成能力存在固有局限,因此系统通过模块化外部工具集成,拓展AI代理的教学服务边界,弥补模型在精准计算、专业评估、事实校验等方面的不足。在作文辅导、学术写作等典型场景中,系统可接入专业化写作评估工具,依托自然语言处理服务,从文本连贯性、语法规范性、论证力度、逻辑结构等多维度完成文稿量化评分与质性分析。学生提交作文段落或完整初稿后,系统自动调用评估工具生成测评结果,并将数据反馈至LLM提示词中,辅助AI生成精准、具体、可落地的优化建议,实现“问题定位—精准反馈—针对性指导”的闭环教学。
当前SPL系统已完成语法校验工具与事实校验工具的模块化集成。语法校验工具依托成熟的第三方API,可精准识别学生作答文本中的语法漏洞、句式错误与表达问题;同时系统遵循“内容优先、形式后置”的教学原则,优先解决学生的知识认知问题,在不干扰学生思维过程的前提下,适时、适度纠正语言表达问题。事实校验工具可联动权威知识库与搜索引擎,对师生对话中的各类事实性表述进行实时核验,一旦发现存疑或错误信息,AI将以引导式提问替代直接纠错,启发学生自主验证、主动思辨,培养严谨的治学思维。
各类外部工具的模块化集成为智能教学提供了核心安全护栏,大幅提升辅导内容的事实准确性与反馈丰富度。先进教育AI原型系统已普遍采用该技术逻辑,通过LLM规划代理智能识别场景需求,按需调用几何绘图、数理计算器等专项工具,适配多学科教学场景(Zhu et al., 2025[57])。系统整体采用标准化函数调用协议与JSON格式输入输出机制,由大模型生成结构化工具调用指令,后端中间件完成指令执行与结果回传,依托OpenAI函数调用API与自定义中间件双重方案,实现工具调用的高效、稳定联动。综上,SPL的技术栈并非单一的大模型服务,而是多类AI工具、功能性组件、规则引擎的有机整合,通过多模块协同,构建连贯、专业、可靠的个性化辅导体系。
大参数量大语言模型的推理延迟,是实时交互式教学场景中亟待解决的核心实践问题。师生用户对AI辅导系统的实时性、流畅性要求较高,过长的响应卡顿会直接打断教学对话节奏,破坏沉浸式学习体验。受模型体量、服务器负载、提示词长度等因素影响,GPT-4的单次推理响应时常存在数秒延迟,即使是5秒级别的卡顿,也会显著影响实时对话的自然度。为解决该问题,SPL系统从提示工程、前端交互、后端部署三个维度搭建了完整的延迟优化方案。
在提示工程层面,系统精简冗余指令,将通用化系统指令一次性配置、长效复用,避免每轮对话重复加载无效内容,最大限度压缩提示词长度,降低模型推理负载。在前端交互层面,系统配置动态视觉反馈机制,通过打字动画、虚拟形象思考特效等交互样式,向用户反馈系统运行状态,消除用户对系统卡顿、宕机的疑虑。针对长文本回复场景,系统启用流式输出机制,依托LLM API的流式传输能力,让学生可实时阅读已生成的文本内容,无需等待完整回复生成,高度贴合自然对话的交互逻辑。
在后端部署层面,系统采用高性能服务器集群部署方案,同时引入模型蒸馏技术,轻量化模型可用于低难度、高频次的基础互动场景,保障响应速度;完整参数的GPT-4模型则留存用于复杂推理、高阶探究、专业评估等高难度教学任务,实现“速度与精度”的动态平衡。随着生成式模型技术的持续迭代,模型推理延迟将持续优化,但在当前技术阶段,时延调控与性能平衡仍是教育AI系统设计的核心考量因素。
所有AI系统均存在运行误差与输出缺陷,其中大模型幻觉问题表现为生成内容逻辑通顺但事实错误,是影响教学可靠性的关键隐患(Zhang et al., 2025[40])。为保障教学质量,SPL系统搭建了“事前预防、事中校验、事后兜底”的多层级错误防控体系,通过提示词锚定、事实检索、内容校验、教学兜底等多重机制,最大限度降低幻觉与错误输出的负面影响。
事前预防主要依托检索增强生成技术,将模型生成内容锚定于权威知识库,从源头减少事实性幻觉的产生(Modran et al., 2024[10])。事中校验阶段,系统配置轻量化独立校验器,针对不同题型与内容类型开展专项核验:数理类题目依托独立运算程序校验结果准确性,概念定义类内容依托权威知识库进行关键词与逻辑核验。若校验器识别出潜在错误,系统将优先自动修正内容后再推送至用户;无法自主修正时则启动不确定性兜底逻辑。
在AI无法精准作答的场景中,系统摒弃绝对化断言输出,转换为启发式、探究式提问,将模型的不确定性转化为师生协同探究的教学契机,引导学生共同拆解问题、梳理思路,避免错误知识输出误导学习。除幻觉问题外,系统可主动识别模型格式错乱、内容违规、对话偏离等异常输出,触发标准化兜底回复,引导用户重新表述问题、调整学习内容,保障对话持续推进。
同时,系统对每一次互动记录、异常报错、兜底触发事件进行全量留存,研发团队定期复盘日志数据,针对性优化提示词策略、补充边界场景规则、迭代模型适配方案,实现系统的持续优化与长效迭代。
技术基础设施的落地效果最终体现在前端交互层面,前端界面是师生与AI教学代理的核心交互载体。SPL系统采用轻量化聊天式交互界面,对话内容清晰区分学生与AI导师发言主体,搭配差异化视觉设计:导师回复展示于虚拟形象旁的对话气泡中,学生作答内容对称排布,界面简洁直观、贴合用户使用习惯。针对核心教学知识点、专业术语、关键结论,系统支持文本高亮、加粗、变色等突出显示效果,强化学生重点记忆;同时可按需内嵌表格、统计图等可视化素材,直观呈现学生测验数据、学习进度、能力变化等学习信息,提升教学可视化水平。
系统前端采用模块化架构设计,具备良好的第三方平台适配性,可无缝对接主流校园学习管理系统(LMS)。平台严格遵循LTI学习工具互操作标准,可作为外部教学工具嵌入Moodle、Canvas等主流教育平台,通过安全身份认证机制完成师生身份核验、班级信息匹配,同时支持学习成绩、会话总结、任务完成状态等教学数据的双向同步。目前SPL原型系统已完成全套集成接口的预留设计,可在后续迭代中快速落地全量LMS适配功能。
系统配套研发了教师监控仪表盘,构建教师协同监管的教学模式(Echeverria et al., 2023[58])。仪表盘可实时展示AI的提问内容、学生作答情况、对话完整记录,支持教师随时介入干预、调整教学节奏,同时可回溯历史会话数据,开展课后学情分析。系统基于WebSockets协议实现事件实时广播,教师端可实时同步课堂对话流,实现对AI辅助教学过程的动态监管与精准把控。
面向真实校园规模化部署场景,系统从用户承载与内容适配两个维度实现高可扩展性设计。在用户承载层面,系统搭载负载均衡机制与动态模型实例化能力,可适配大规模并发教学场景,保障多用户同时在线互动的稳定性。在内容扩展层面,系统具备良好的领域通用性,GPT-4核心模型可适配数学、历史、语言等多学科教学需求,仅需针对全新学科领域配置专属JSON课程脚本与领域资源库,即可快速完成新场景落地,无需重构底层技术架构。
为降低教育者的使用门槛,系统远期目标是搭建可视化脚本编辑工具,支持教师通过图形化界面、标准化表单完成知识点、误区、教学策略的编辑配置,系统自动生成合规的JSON脚本文件,替代传统手动编码模式,实现零代码课程定制。现阶段系统已实现半自动化脚本生成能力,大幅降低课程拓展的技术成本。
全维度系统监控是保障平台稳定运行、持续迭代的核心支撑。系统搭建完善的数据分析与异常告警机制,可自动统计高频教学难点、学生集中求助场景、AI次优输出案例等核心数据,精准定位系统短板与优化方向;针对模型违规输出、工具调用失败、系统宕机等异常事件,实现实时告警与快速修复。在科研部署场景中,所有教学会话均在用户授权后留存归档,研发团队定期开展质量核验与数据复盘,持续优化提示词策略、迭代模型能力、补充边界场景,逐步提升系统教学专业性与稳定性。同时,平台全程监控系统运行时长、服务可用性、工具调用成功率等核心运维指标,保障系统长效稳定服务。
综上所述,以SPL为代表的教育生成式教学代理,依托多层级、模块化、可迭代的复杂技术架构,实现了AI技术与教学逻辑的深度融合。GPT-4大模型为系统提供了强大的自然语言生成与开放式对话能力,而外围配套的结构化课程脚本、长效记忆机制、多类工具插件、错误兜底体系与前端交互架构,共同约束并优化了模型输出效果,确保教学对话兼具灵活性、准确性、专业性与情境适配性。
通过与学习管理系统、校园终端设备等主流教育生态的深度集成,系统大幅提升了落地实用性与场景适配性。时延优化、弹性容错、人性化交互等技术设计,有效保障了师生的流畅使用体验,构建起稳定、可信、高效的AI辅助教学体系。随着智能教学系统从科研原型逐步走向规模化课堂应用,动态提示工程、多模块协同架构、教师监管机制、全流程运维监控等技术设计,将持续决定生成式AI嵌入常态化教学的落地效果与应用价值,为个性化、普惠化、智能化教育的落地提供坚实的技术支撑。
—
本章完