第九章:生成式人工智能作为教学助理
引言
最近教育领域对生成人工智能(GenAI)的关注大多将其视为学生或教师通过设计为助手的商业现成聊天机器人单独使用的工具。这一作用具有相当大的价值(参见 Gašević 和 Yan,2026[1];Li 和 Hu,2026[2]),但 GenAI 可以以其他几种方式使用,如本报告所示。本章探讨 GenAI 在支持教师和助教 (TA) 方面的作用。助教是学院和大学内的基础支持结构,弥合了学生和学术人员之间的差距,并帮助维持广泛学科的教学质量。通过引导讨论部分、评分作业、回答问题和提供个性化指导,助教在塑造学生体验课程的方式方面发挥着至关重要的作用。这种中介人和导师的双重角色强调了助教所做工作的重要性,不仅在管理课程后勤方面,而且在促进学生学习、参与和成功方面。随着高等教育的发展——面临着日益增加的入学压力、预算限制以及向在线或混合授课的转变——助教的作用可能会扩大。与此同时,助教本身也是学生,需要平衡这些教学责任和自己的学术活动,这可能会导致时间冲突、对学习者的支持不均匀和倦怠。这些挑战提出了重要问题,即大学如何可持续地利用助教提供的好处,同时解决人类在时间、专业知识和可扩展性方面的真正限制。
GenAI 的最新进展为补充助教的努力提供了一条充满希望的途径,同时保留了支撑优秀教学的人为因素。 GenAI 驱动的“助教”由大型语言模型 (LLM) 和其他先进技术提供支持,有潜力处理重复性的管理任务,提供有针对性的学习支持,并以人类助教无法做到的方式向学生提供即时反馈。通过研究助教不断变化的角色,并探索人工智能如何丰富和扩展他们的能力,本章旨在强调当前的实践和新视野,以提供更公平、更容易获得和更有影响力的教学支持。我们最后讨论了影响,包括对政策的影响。Ryan S. Baker、Xiner Liu、Mamta Shah、Maciej Pankiewicz、Yoon Jeon Kim、Yunseo Lee、切尔西波特宾夕法尼亚大学,美国
助教
助教角色
高等教育中的助教 (TA)(在存在此职位的国家/地区)通常是研究生(硕士和博士)或高年级本科生(学士),他们支持主要教师讲授课程内容并协助学生。助教的职责可能因机构和学科的不同而有所不同,但一般包括促进小组讨论、回答学生问题以及辅助主讲教师创造有效学习环境的努力(Park,2004[3])。近年来,随着越来越多的课程倾向于部分或全部转移到网上,助教在管理讨论论坛、回答学生问题和支持讨论方面也发挥着重要作用(Wadams 和 Schick-Makaroff, 2022[4])。通过处理部分教学和行政工作量,助教在使大型或复杂课程更易于管理方面发挥着关键作用,从而增强了学术人员和学生的整体教育体验。
助教的起源可以追溯到十九世纪末,当时不断增长的学生入学人数和不断扩大的研究期望促使大学寻找扩大教学能力的方法(Chism,1998[5])。在这些早期阶段,助教经常充当更高级学术人员的非正式助手,协助完成评分或实验室监督等任务,作为他们自己在学术界学徒生涯的一部分。随着时间的推移,尤其是二战后,高等教育系统迅速扩张,助教的角色变得越来越正式。大学开始创建结构化的项目,提供更明确的工作职责、培训和专业发展机会,反映出人们认识到助教可以显着提高教学和学习。这一演变为现代助教角色奠定了基础,研究生和高年级本科生被系统地融入教育过程(Park,2004[3])。
助教执行一系列任务,共同为高等教育环境中的教师和学生提供支持。他们的职责可以大致分为教学支持和学生参与,尽管这两个领域自然重叠(Park,2004[3])。通过承担这些角色,助教帮助营造一个促进理解、参与和持续反馈的环境——有效学习的关键组成部分(Hattie 和 Timperley,2007[6];Chi 和 Wylie,2014[7])。
在教学支持方面,助教经常主持讨论部分、教程或实验室会议,充当连接理论和实践的促进者(Park,2004[3])。在这些规模较小且互动性更强的环境中,助教阐明课程材料、展示实用技巧并鼓励学生参与。通过根据特定学生群体的需求调整教学方法,助教有助于维持充满活力和包容性的课堂氛围。助教角色的另一个关键要素是评估学生的作业。助教通常在首席讲师的监督下对作业、测验和考试进行评分(Marshman 等人,2018[8])。这个过程通常包括审查提交的内容、提供建设性反馈和突出需要改进的领域——理想情况下,引导学生发展和展示更深入的理解(Marshman 等人,2018[8])。对学生作业进行评分不仅可以减轻教师的工作量,还可以为助教提供评估学术表现的宝贵的、由教师支撑的经验,帮助助教加深对学生思维的理解(Karim、Maries 和 Singh,2018[9])。
至于学生对学习过程的参与度,在许多现代课程中——尤其是那些具有混合或完全在线组件的课程——助教充当讨论论坛上的关键联系点(Wadams 和 Schick-Makaroff,2022[4])。通过回答问题、促进对话以及分享讲师的澄清,他们帮助维持一个活跃且支持性的在线学习社区。这项工作通常延伸到调节点对点的交流,确保讨论保持主题性且相互尊重。此外,助教经常定期举行办公时间并与学生会面,让学生寻求深入的解释、审查反馈或讨论学术挑战(Park,2004[3])。这些机制通常提供超出教师及时和按需提供的学习支持,特别是对于活跃研究的高级学术人员或大型课程。
助教为高等教育机构、高级学术人员和学生提供一系列好处。大学经常发现,使用助教是管理大量课程招生的一种经济有效的方式,同时仍然为学生提供个性化支持,当大学预算面临压力时,这是管理人员持续感兴趣的话题。对于更高级的学术人员来说,助教可以减轻一些与教学、评分和行政职责相关的工作量,从而提供巨大的优势。通过委派讨论促进、作业反馈和日常课程管理等任务,教师可以投入更多时间来开发创新课程、推进他们的研究议程以及指导更高级别的学生(包括助教)。此外,助教经常引入不同的观点或新颖的教学方法,鼓励高级学术人员和助教共同完善教学策略的协作环境(Begley 等人,2019[10])。最后,学生也从助教的参与中受益匪浅。在许多情况下,助教可以在正常上课时间之外回答问题,并且可以异步访问他们在在线讨论论坛上的支持,为需要额外帮助的学生提供了灵活的选择。助教与学生经历的相对接近(无论是年龄、学术经历还是共同学科)也可以在办公时间和非正式互动中营造出类似同伴指导的氛围。因此,助教的更强的相关性和学生认为他们更容易理解(Kendall 和 Schussler,2012[11])可以缓解焦虑并培养社区意识,最终增强整体学习体验。
然而,针对当前教学助理的实践,已注意到若干挑战。在教学支持方面,例如许多TA可能缺乏教学法培训或技能(Nicklow、Marikunte和Chevalier,2007[12])。这种正式准备不足的情况可能削弱其教学质量,因为他们可能不确定如何清晰地呈现信息。此外,TA有时采用浅层次的评分方式,侧重于相对简单化的正确性方面,而非试图提供引导学生走向更深层概念理解的反馈(Marshman等,2018[8])。这些问题因TA通常拥有比全职学术人员更少的主题专业知识而加剧(例如参见Karim等,2018[9]),这限制了他们回答复杂问题或提供高级指导的能力。
此外,TA经常面临工作量与时间限制方面的挑战。许多TA必须在教学职责与个人学业义务(如课程作业、研究项目及备考)之间取得平衡(Park,2004[3])。一些TA可能发现难以在课堂准备、评分或向学生提供实质性反馈上投入必要的时间。这种过载还可能导致高度压力和疲惫,降低其作为TA的效能,同时损害他们的其他工作与个人成就(Berta和Pembridge,2019[13])。这因提供给TA的不均衡培训与院系支持而进一步恶化。一些讲师让TA深度参与设计课程计划、评分量规或教学材料,而另一些可能只提供最少的培训和指导(Begley等,2019[10])。此外,许多TA无法获得除讲师以外的教学导师。这种支持缺失可能使TA对期望或最佳实践感到不确定,使他们更难在无需投入大量时间的情况下支持学生。
因此,尽管TA在支持学习与参与方面发挥着关键作用,并有助于在资深学术人员与学生之间架起桥梁,但在若干方面,当前实践对TA或学生而言均非最优。
人工智能教学助理(AI TA)及其使用综述
生成式人工智能(GenAI)技术能否改善TA和学生的状况?GenAI模型的出现引发了对潜在教育益处的广泛热情。一个日益受到关注的领域是人工智能教学助理(AI Teaching Assistant,简称AI TA)的创建——这些工具能够扩展人类TA的能力。AI教学助理使用计算方法——在许多近期案例中采用GenAI(Sajja等,2024[14];Yetişensoy和Karaduman,2024[15];Liu等,forthcoming[16]),但在此之前是机器学习和上一代自然语言处理(NLP)(Khosravi等,2021[17];Shermis和Burstein,2003[18])——来执行通常属于人类TA职责范围的任务,尽管在许多情况下超越了人类TA可行的范围。其范围包括简化常规行政任务、提供针对性学习支持或快速形成性评估,以及为人类TA和讲师提供有关学生的信息和洞察,提升教学交付的整体效能。虽然它们有时承担过去由人类执行的任务,但这些系统的目的并非取代人类教育者,而是提供全天候支持,并释放TA和讲师的时间,使其能够专注于教学工作中更复杂、更关键且更具影响力的方面。
在过去的几十年里,教育技术中人工智能的应用已从简单自动化工具——如基本测验生成器和评分脚本(参见Brooks,2023[19]中的讨论)——演变为能够处理语言并考虑情境的先进AI系统,使它们能够实时响应学生的问题和需求。上一代智能辅导系统和问答系统可以提供复杂支持(Nye、Graesser和Hu,2014[20];Goel和Polepeddi,2018[21]),但编写成本极高(Aleven等,2006[22]),往往需要高度专注于适应性的单一方面(Baker,2016[23])。当代GenAI的使用(有时与上一代机器学习相结合)创造了在功能和复杂性上质的飞跃的潜力,且开发成本大大降低。
这些技术在与讲师互补时,可以承担重复性任务——如回答常见问题及学生作业评估的部分环节——从而为学习者提供即时、全天候的支持,并消除TA或讲师不可用时经常出现的瓶颈——例如,对于与讲师处于不同时区的在线学习者。同时,人类TA和讲师可以将他们的专业知识分配给更高层次的教学活动,如促进深入讨论、提供指导,以及为特殊情况和学习挑战提供定制化反馈。这种协同最终帮助机构保持规模化的高质量教育,解决了教学的劳动密集型问题,并最终支持讲师找到时间与学习者进行高价值的个人互动。在下一节中,我们将讨论AI TA支持学习者、人类TA和讲师的一些方式。
基于人工智能的教学助理(AI TA)的主要功能与用例
行政和后勤支持是人类TA当前职责的一个领域,实现自动化相对容易且争议较小。通过自动化更多行政流程(如课程注册或作业完成监控),讲师可以将更多时间投入到教学规划和个性化学生参与中(Ahmad等,2022[24])。AI TA还可以管理课程通信,发送关于作业、考试和活动的及时提醒,确保学生保持知情并最大限度减少错过截止日期的风险(Pardo等,2018[25])。简化这些任务可以让人类讲师和TA专注于更高层次的教学职责,如课程开发和个性化反馈。除了常规行政任务外,AI系统还可以通过监控学生参与情况并及时提醒讲师注意潜在的参与度和表现问题(Wise和Jung,2019[26];Khosravi等,2021[17])来支持课程后勤,以及从课程论坛讨论中为讲师提炼洞察。
AI TA的另一个潜在应用领域是教学支持。AI教学助理可以提供针对学生个人需求定制的补充解释或资源。例如,如果学生表示对某个特定主题感到困惑,这些系统可以提供针对性材料,如文字解释、简短视频教程、互动模块或推荐阅读(Sajja等,2024[14];Essel等,2022[27];Yetişensoy和Karaduman,2024[15])。这样的系统可以为特定学生定制学习,比即使是最尽职的人类教学助理所能做到的更为细致。此外,基于聊天机器人的AI TA可以通过跟进讨论,以静态资源无法实现的方式支持学生。此外,正如当前的GenAI可以为学习者推荐资源一样,它也可以协助教育者进行内容策展和课程规划,建议如何更有效地传达主题(Karpouzis等,2024[28])。
此外,AI TA可以支持讲师评估学生学习进展,特别是在形成性评估方面。通过AI进行终结性评估已在某些应用中有所使用,但仍需达到更高的可靠性和公平性标准(Bulut和Beiting-Parrish,2024[29])。用于为讲师提供信息或支持学习者的形成性评估可以安全使用,因为其赌注较低。使用自动化评估有着悠久的历史;数十年的工作使用自动化测验和选择题项目评估学习者(Brooks,2023[19]),上一代NLP实现了简答题评分(Gao等,2024[30])和自动化作文评分(Shermis和Burstein,2003[18])。先前的工作还通过程序模板等方法实现了新题目的生成(Kurdi等,2019[31])。然而,生成式人工智能的出现使得以复杂、定制的方式生成新题目成为可能(Yadav和Tseng,2023[32];IIITD等,2024[33];Sajja等,2024[14]),并能够对学生创作的复杂作品提供更详细、更丰富的反馈(Chiang等,2024[34];IIITD等,2024[33];Stahl、Biermann和Wachsmuth,2024[35];Teng等,2024[36])。自动化通知工具随后可以向学生提供个性化更新,同时支持表现和自我调节(Lim等,2021[37])。通过使提供详细反馈变得更加及时可行,学生可能会修正他们的理解并以符合课程目标的方式进行调整(Graham,2023[38])。
嵌入课程平台的AI教学助理可以有效地作为学生的第一接触点,及时解答关于教学大纲、作业截止日期和其他后勤问题的常见问题(Liu等,forthcoming[16])。通过参考结构化知识库,这些系统还可以回答与内容相关的查询,提供补充解释或澄清(Liu和M’Hiri,2024[39];Maiti和Goel,2024[40];Miroyan等,2025[41];Teng等,2024[36];Liu等,forthcoming[16])。问题可以在外部平台(Alsafari等,2024[42];Teng等,2024[36])、课程讨论区(Liu等,forthcoming[16];Miroyan等,2025[41];Haaben,2024(未发表手稿)[43])、学习管理系统(LMS)(Maiti和Goel,2024[40])或在学习活动本身的情境中提出(Lee等,2023[44])。这些工具可以为讲师和人类TA节省大量时间(Sinha,2024[45];Miroyan等,2025[41])。
更重要的是,这些工具的即时、全天候可用性支持可能在常规办公时间外需要帮助的学习者;例如,一项将AI TA嵌入讨论区的研究发现,与之前的(仅有人类TA支持)学期相比,学生在有AI TA的周末收到回复的频率显著更高(Liu等,forthcoming[16])。虽然这样的系统无法回应所有学生查询,但在许多情况下可以提供支持。在其他需要更细致解读或情境的查询中——如复杂的概念误解或特殊的个人情况——AI TA可以将问题升级给人类TA,从而确保学生获得适当和充分的支持。这种分诊功能可以帮助管理涌入问题的流量,减少人类TA和讲师必须处理的简单查询数量。因此,教育者可以腾出更多时间提供个性化反馈,引导更高层次的讨论,并与学生进行有意义的学术互动。虽然这种类型的问答功能在LLM出现之前就已存在,但与现在相对容易部署的情况相比,它需要大量的工程工作(例如Goel和Polepeddi,2018[21])。
将这些类型的进步从一次性研究项目转变为使大量学习者受益的可扩展解决方案的关键步骤之一,是确保它们与现有教育基础设施无缝集成。迄今为止,许多此类AI工具需要学习者和讲师使用独立平台,而非直接集成到他们的主要学习管理系统(LMS)或讨论区中。这种缺乏集成或互操作性会造成用户体验的碎片化,需要额外的登录、重复的数据录入,并使跨多个系统跟踪学生进度变得更加困难。相比之下,与广泛使用的LMS(如Canvas、Moodle、Blackboard)和讨论区平台(Piazza、Discourse、phpBB、vBulletin、Flarum)的兼容性将使AI TA能够无缝访问课程材料、参与记录和学生表现数据。这种互操作性不仅简化了用户体验,还支持更丰富的分析和更有效、个性化的干预,最终加强了教学和学习过程。
使这些系统能够大规模使用的另一个关键步骤,将是努力设计这些人机交互功能,以促进忙碌的人类TA和讲师的使用。目前,将课程资源集成的过程在不同工具之间复杂度不一,不同讲师之间的采用程度可能差异很大(Maiti和Goel,2024[40])。有几种方法可以实现这一点,包括共享文件夹、作为模拟学生访问学习管理系统的权限,或用于上传资源的工具——但无论选择哪种方法,都必须对人类来说低付出。还应易于持续更新这些资源,因为课程材料和教学大纲的变更往往会在学期内和定期开设课程的跨学期中发生。
此外,与AI TA协作的人类TA和讲师需要入职甚至培训。他们需要充分了解系统如何运作、能做什么及其局限性,以确保他们在课程中有效地实施。通过清晰传达AI TA应处理哪些查询或任务与需要人类专业知识处理的任务,机构可以在保持质量控制的同时最大化效率。随着时间推移,将持续改进和反馈循环纳入其中可以进一步细化这些边界。例如,平台应支持人类TA和讲师定期审查AI TA对学生询问的回答。通过简短调查或挖掘论坛讨论收集的学生和讲师反馈,也可以突出AI TA可能表现不佳或产生混淆或不准确信息的领域。支持讲师检查和完善系统将有助于确保内容保持准确、相关并与教育目标一致,减少讲师挫败感,并增加长期持续使用的可能性。
案例分析:大学中的JeepyTA平台
JeepyTA是一个课程特定的、由AI驱动的教学助理示例,旨在与现有课堂和在线实践相集成。JeepyTA由宾夕法尼亚大学(UPenn)的学习分析中心开发,于2023年秋季推出(Liu等,forthcoming[16]),利用大型语言模型(LLM)的多轮对话架构,且不绑定于特定模型——可以配置为在多种LLM上运行(例如GPT、Llama或DeepSeek)。在使用JeepyTA的课程中,近期使用的是OpenAI GPT模型(从GPT-3.5 Turbo开始,迁移到GPT-4、GPT-4-Turbo和GPT-4o)。
JeepyTA已在各种场景中使用:回复后勤问题、根据提供的课程材料在讨论区进行情境回应、为书面作业和编程问题提供针对性反馈,以及作为头脑风暴伙伴。截至2025年春季,JeepyTA已在美国三所高等教育机构的14门课程的16个学期中部署(2025年后期在新加坡和哥伦比亚也有部署)。这种广泛采用反映了人们对AI系统的日益增长兴趣,这些系统可以将人类讲师和TA从重复性后勤职责中解放出来,同时仍能为学习者提供响应式、全天候的支持。
为确保课程一致性,JeepyTA使用讲师选择的参考材料进行初始化,包括教学大纲、教科书、阅读材料和过去的讲师反馈。这些资源通过检索增强生成(RAG)工作流嵌入系统的知识库:新上传的文档被转换为嵌入向量,使JeepyTA能够通过语义搜索检索情境相关信息。这样做,JeepyTA可以回答管理查询——例如从教学大纲中回答日期相关问题——同时利用情境阅读来激发关于课程特定主题的深入讨论。此外,通过与讲师的合作,在几个案例中,JeepyTA的提示已通过迭代完善,以更好地满足特定学习目标。单独的模型被用于自动化决策,决定回复是立即出现还是等待讲师批准,从而对JeepyTA在论坛讨论中的参与提供更精细的控制。最后,JeepyTA的行为可以按任务类别进行定制,使讲师能够灵活选择它响应哪些主题或讨论区类别,以及何种程度的人工监督(人在回路)。
在各课程中,JeepyTA已集成到开源Flarum平台中,作为论坛用户出现,并明确标记为AI教学助理。通过渐进式网络应用(PWA),论坛可在移动设备上访问,让学生和讲师随时参与。除了传统的电子邮件通知外,移动应用用户可以接收推送通知——例如当JeepyTA回复或特别提及他们时——确保及时更新并促进讨论区内更快速的互动。
JeepyTA的主要功能之一是回答有关课程的后勤问题。在学期开始时,JeepyTA可以处理注册相关询问,包括先修要求、加退选截止日期和更改课程注册的选项。当学生需要学业便利安排时,JeepyTA将他们引导至官方大学指南和相关支持服务。它还提供有关上课时间、教室位置以及假期或特殊活动变更的信息。当一门课程有多个分班时,JeepyTA帮助学生确认他们需要参加哪个班级。
为支持课程作业,JeepyTA澄清作业提交指南,指定所需的文件格式、提交门户和截止日期。JeepyTA还会在课程需要时协助解决在线学习平台的技术方面问题。它帮助学生登录讲师使用的外部平台(例如用于视频讨论的平台),并提供登录代码、平台访问链接和使用说明等信息。如果学生遇到提交错误或其他技术问题,JeepyTA在许多情况下无需讲师介入即可提供指导。
JeepyTA通过根据评分量规、加权组成部分和参与要求解释成绩计算方式,帮助学生理解评分政策。它还协助解读讲师和TA的反馈,并引导学生了解重新提交、上诉或成绩争议的流程(见图9.1)。当学生需要访问课程材料时,JeepyTA提供讲座幻灯片、阅读资料库和虚拟会议链接的链接,确保他们拥有必要的资源。
通过最近的更新,JeepyTA可以记住讲师关于重复主题的回复和公告。如果学生询问时间表变更、作业截止日期或政策更新,JeepyTA会提供最新信息。这减少了混淆并使学生保持知情,而无需讲师重复自己。
值得注意的是,JeepyTA回答后勤问题的能力取决于讲师选择提供的信息。它不是基于一般知识生成回复,而是从讲师输入的课程特定细节中提取。如果未提供某个细节,JeepyTA会将学生引导至人类TA(如果该课程有TA的话)和讲师或官方课程文件,而不是猜测或给出不完整的信息。
JeepyTA在回答后勤问题方面的表现并不总是完美的,因为一些学生询问可能超出课程材料所涵盖的范围。因此,讲师可以选择编辑JeepyTA的回复,而不是仅在完全接受或丢弃之间选择。此选项在与允许讲师在回复对学生可见之前先审查JeepyTA回复的功能结合使用时特别有用(如上文所述)。这种灵活性使讲师能够保留有用的部分,进行快速编辑,并为学生提供准确信息,同时减少工作量。
图9.1 JeepyTA引导学生完成部分作业

来源:作者自制。
在几门课程中,JeepyTA根据作业指定的评分量规为学生论文提供反馈。这包括高层次概念要素和写作方面。在高层次概念要素方面,JeepyTA根据作业目标评估论文,例如学生是否恰当地讨论了利益相关群体的需求,学生是否以课堂上讨论的理论来论证,或者是否具体详细地阐述了所提方案的局限性(见图9.2)。当学生提交草稿时,JeepyTA承认他们做得好的地方并强调他们的优势。
JeepyTA还就写作的更多机械方面提供反馈,如论证清晰度、证据使用、结构和写作质量(见图9.2)。此外,JeepyTA还会评论较低层次的细节,如语言使用、表述不清、语法错误和冗长。在这些情况下,它会建议可以保留学生原始意图的修改。
GPT模型被训练为提供适用于多种场景的通用回复,这可能使其默认反馈显得模糊或过于笼统。为防止这种情况,JeepyTA被指示”提供可操作的洞察而非浅薄建议”。提示工程中的这个细节有助于让学生收到能够改进其修订的具体指导。
如果学生需要澄清,他们可以提出后续问题,JeepyTA会根据这些问题完善其指导。讲师还可以调整JeepyTA的反馈设置,将重点放在写作的特定方面或强调学生普遍最困难的领域。
在让JeepyTA提供论文反馈之前,其回复首先在一组样本论文上进行测试,输出与讲师一起审查。此步骤有助于确认反馈与课程的 pedagogical goals(教学目标)一致。必要时,根据讲师在审查过程中的建议完善提示。此过程有助于JeepyTA提供清晰、与作业相关且专注于讲师认为最重要的方面的评论。它还创造了发现LLM默认知识库产生不准确信息的情况的机会,例如在网络上关于特定技术点的内容反映不正确理解的情况。
在某些情况下,提示指定了特定语气来塑造反馈风格。例如,JeepyTA可以被指示提供简洁直接的反馈或采取更鼓励和支持的语气。这使反馈能够与讲师和TA通常与学生交流写作的方式保持一致。此外,在某些情况下,过去的反馈以及来自匹配对的无身份识别学生论文也被作为JeepyTA的参考。JeepyTA不使用过去论文的内容作为反馈来源,而是查看这些示例以遵循讲师和TA强调的结构、详细程度和关键重点领域。这有助于通过反映课程先前迭代中的期望和优先事项,使反馈对学生更有用。
图9.2 JeepyTA为学生论文作业的第一步——论文计划书提供反馈

来源:作者自制。
回复学生对阅读材料/讲座的反思/问题
JeepyTA还能够回复学生对课程阅读材料和讲座的反思和问题,提供额外澄清、激发进一步思考,并连接课程材料中的思想。当学生分享反思时,JeepyTA通过强化阅读材料中的关键思想或将其见解与更广泛的课程主题联系起来来承认他们的贡献。如果学生提出关于概念、理论或方法的问题,JeepyTA通过总结相关论点、解释术语或指向阅读材料中解决该问题的部分来提供回复(见图9.3)。当反思引入有趣的观点或批评时,JeepyTA可能会提出后续问题以鼓励进一步讨论。为保持JeepyTA回复与课程内容之间的一致性,JeepyTA被特别指示首先参考课程材料,在回复时根据与学生查询的相似度得分选择特定材料。JeepyTA还被提示在回复中使用讲师在学期开始前定义的具体课程语言。如果学生的查询与课程不太相关,JeepyTA可能会被指示依靠其知识库来回复。
讲师或TA可以在学期内任何时候修改JeepyTA回复的可见性设置。如果需要,JeepyTA的回复可以被标记为在与学生分享之前需要讲师审查。此选项可以在实施期间随时开启或关闭。它也可用于选定类别,例如仅用于回答后勤问题。这有助于防止提供不正确或误导性信息,这在网络误解高度存在因此也在LLM知识库中的学科领域尤其是一个问题。讲师或TA可以审查被标记的回复。如果回复不准确,他们可以丢弃它并直接回复。如果回复大部分正确但需要完善,他们可以在发布前编辑它。当回复准确且结构良好时,讲师或TA可以原样批准它。这一额外层次使JeepyTA能够提供及时支持,同时确保学生收到的信息准确、相关并与课程目标一致。
图9.3 JeepyTA解释有关算法的一个关键细节

注:SMOTE是一种用于数据预处理的算法。
来源:作者自制。
对于涉及编程(但并非专注于学习编程)的课程,JeepyTA还通过分析学生代码和识别潜在错误来为做作业的学生提供调试支持。当学生提交代码片段或描述他们遇到的问题时,JeepyTA会审查逻辑、语法和结构以查明常见错误。然后它建议纠正或改进以解决错误(见图9.4)。
JeepyTA通常被鼓励使用其现有编程知识来解决编码问题,同时遵循课程特定的约定或实践。例如,在教育数据挖掘课程中,需要学生级别的交叉验证,因为这种方法评估模型对新学生的泛化能力。通用的LLM聊天机器人可能会默认推荐简单的训练-测试划分,这是一种在其他背景下可以接受但在本课程中不是所需方法的技巧。为防止这种情况,JeepyTA被指示根据课程材料、作业要求和讲师指南优先提供调试支持,而不是依赖可能不适合课程背景的广泛使用技术。在解决编程错误时,它参考课程的首选方法并解释为什么使用它们以及它们与其他方法的区别。
在代码产生意外输出的情况下,JeepyTA提供故障排除策略,如添加打印语句、检查变量值或将复杂函数分解为更小、可测试的部分。如果学生描述问题而不是提交代码,JeepyTA会根据问题性质建议调试技术并引导他们了解潜在原因和解决方案。
如果学生模糊地描述问题或提供不完整的上下文,JeepyTA会在提供建议之前提出后续问题来澄清问题。例如,如果学生说”代码不工作了”而没有指定错误消息或预期输出,JeepyTA会提示他们提供更多细节,如收到的错误消息、代码的预期功能或他们已经尝试的步骤。
在提供编程代码支持时,JeepyTA的提示被设计为不简单地提供正确代码,而是专注于帮助学生了解如何自行诊断和修复错误。提示设计鼓励学生从自己的调试过程中学习,这为他们创造了建立信心的机会,培养他们阅读错误、跟踪代码和独立解决问题的能力,而不是依赖获得确切修复。在两个学期的两门课程中提供了调试支持,但在某些情况下识别错误的有效性有限。一个可能的原因是,它在两个实施中都没有访问学生正在使用的数据集,这使得JeepyTA难以验证数据结构、变量值或特定于数据集的错误。另一方面,在其他情况下,它捕获了不寻常的错误(例如学生使用了符号\而不是|)和拼写错误,这些在冗长的程序中可能难以被讲师和人类TA发现(见图9.4)。即使JeepyTA无法查明问题的确切原因,它也帮助学生澄清了问题并建议了通用调试策略。这仍然减少了讲师或TA需要花费在引导学生完成故障排除初始步骤上的时间。
图9.4 JeepyTA解释学生在解决编程问题时遇到的错误并给出诊断建议

来源:作者自制。
JeepyTA也被应用于生成讨论区对话的摘要。当2024年春季首次引入此用例时,摘要仅提供给讲师和TA,让他们了解学生讨论的概况。截至2025年春季,在某些课程中,这些摘要可供论坛上的所有学生查看。每周讨论结束后,JeepyTA总结关键主题,将讨论分组为有意义的主题和反复出现的论点,并从讨论区中识别重要问题。这样做时,JeepyTA会credited提供具体观点的学生,以便让讲师和TA了解具体学生参与情况以及整体趋势(见图9.5)。
这些摘要的目的不是取代阅读或参与讨论,而是提供额外的支持层来组织和反思所讨论的内容。仍然期望学生参与完整对话,但摘要可以帮助识别模式,突出协议和分歧领域,并揭示可能需要进一步讨论的问题。换言之,摘要功能不是取代直接参与,而是作为一种工具,使对话的整体方向更容易获取。
图9.5 JeepyTA在论坛内总结每周讨论

来源:作者自制。
在2024年春季开设的”游戏与学习”课程中,JeepyTA被用作两个游戏日志作业中的头脑风暴伙伴,学生与JeepyTA协商提出经典游戏和Minecraft的教育用途(Shah等,2024[46])。游戏日志是一种结构化反思作业,学生记录和分析他们的游戏体验,通过审视经典和当代视频游戏的设计、叙事和教育潜力来批判性地参与。这些日志帮助学生通过对游戏进行直接和间接体验来发展游戏知识,提供使他们能够提出有意义的教学应用的基线理解。这种结构化反思还为学生准备了游戏的基础知识,他们可以在与JeepyTA协商时加以利用——因此简化了劳动密集型的游戏分析和教育整合过程。虽然最近的倡议旨在使商业娱乐游戏的教育再利用更容易实现(Foster和Shah,2020[47]),但该过程仍然需要大量人力。这对游戏学习新手学生和资源有限的讲师提出了挑战,无法支持学生通过直接体验(如玩游戏、通过试错学习)或间接体验(如观看YouTube视频、向同事学习)进行实验。JeepyTA提供了一个解决方案,使具有不同技术水平、教学法和内容知识水平的用户能够产生想法,帮助他们探索如何将游戏适应于特定教育情境和学习目标。学生可以在与JeepyTA对话中培养对游戏的熟悉感并加以使用(见图9.6)。
图9.6 JeepyTA在“游戏与学习“课程中支持头脑风暴和想法生成

来源:作者自制。
在2024年秋季开设的”教学与学习文化基础”课程中,JeepyTA通过角色化身与学生互动,讨论与他们教学和学习文化体验相关的场景和故事。
JeepyTA的角色化身提示由三个主要组成部分:角色描述、情境和说明。角色描述部分定义角色的姓名和角色(如Felipe,一位教师教育者)、角色运作的背景(如教授小学教育专业学生),以及揭示其知识来源的个人和文化背景,如家庭语言、家庭活动、文化仪式和爱好(Gonzalez、Moll和Amanti,2006[48])。情境部分包含角色在互动中的角色(如提供反馈、回答问题、指导)、讨论的任务或主题(如审查特定主题的草稿)和对话的参与者(如角色与职前教师互动)。最后,说明部分提供有关语气(如正式、非正式、支持性、批判性)、回复所需详细程度(如带有个人经历的详细反馈)以及要包含的具体元素(如相关示例)的信息。
对于在论坛上定义的每个角色,使用角色的姓名创建一个单独的子论坛类别。在这些类别中,JeepyTA作为相应角色回应。学生被告知角色化身并被指示,JeepyTA将根据类别名称所示的角色发布。
由于这门课程的主要目标是将职前新手教师置于文化相关和持续的teaching pedagogies(Ladson-Billings,1995[49];Paris,2012[50])中,角色描述故意强调文化和语言背景,以避免生成不围绕特定学习者群体的通用回复。因此,这些角色化身是基于四位属于历史上弱势群体的个人的生活经验开发的,团队对这些个人进行了访谈(如墨西哥裔美国人、老挝裔美国人)。这些人还审查了角色描述草案,以确保他们的身份被准确描绘并避免种族本质化(Omi和Winant,2018[51])。
例如,一个名为”Claire”的角色,认同为老挝裔美国人,分享了与食物、精神性和家庭历史相关的个人故事,为职前教师提供具体示例,培养他们对老挝学习者的更深入理解。此外,这些角色化身指导职前教师了解将知识来源纳入课堂环境的切实方式。例如,”Felipe”角色建议了使课堂材料与墨西哥裔家庭保持一致的具体策略,如纳入家谱活动和介绍家庭手工艺项目(见图9.7)。这些方法提供了将多元文化观点与课堂教学联系起来切实可行且文化敏感的策略。
图9.7 JeepyTA扮演墨西哥裔美国人角色“Felipe”,将特定角色带入建议中

来源:作者自制。
2025年春季正在试点的一个用例是基于指定阅读材料生成讨论提示以开始每周讨论。目标是提供一个基础以进行有意义的讨论,同时保持与课程目标的相关性。
在生成讨论提示时,JeepyTA从本周阅读材料中提取核心论点、方法和辩论。它识别反复出现的主题、未解决的问题或对比观点,并以鼓励有意义讨论的方式构建它们。如果期望学生将阅读材料与自己的研究联系起来,JeepyTA会包含促使反思个人经历或未来应用的问题。如果目标是探索方法论问题,它会专注于阅读材料中呈现的方法的优势、局限性和假设(见图9.8)。
JeepyTA建议的一些提示可能不会立即有用。例如,它生成了一些问题,这些问题过于宽泛,更像是整个课程的水平而非特定一周的内容。生成的其他讨论问题可能过于复杂,需要大量背景知识或额外解释才能让学生参与。例如,过于详细的方法论批评可能难以在讨论区的范围内解决。因此,讲师和TA在让学生看到之前已审查了所有讨论提示。JeepyTA的建议提供了一个起点,使讲师和TA能够完善措辞、调整重点或简化过于技术性的问题以提高可理解性。因此,JeepyTA不会取代讲师或TA在组织讨论方面的专业知识,而是通过提供一个有助于构建每周论坛的初步草稿来简化流程。
图9.8 JeepyTA建议讨论问题以在“量化民族志与认识论网络分析“课程中开始关于编码定性数据的每周讨论

来源:作者自制。
JeepyTA评估
JeepyTA于2023年秋季首次实施,涵盖了上述用例。为了了解学生对虚拟教学助理的看法,我们分发了经大学机构审查委员会批准为豁免的学期末自愿调查,并明确说明参与是可选的,不会影响成绩。学生提供知情同意后回答了13道选择题。调查询问了JeepyTA表现的具体方面,包括它响应问题的速度和准确性、沟通的清晰度和专业性,以及与人类TA相比支持学生学习、发展和动力的能力。响应选项从1(”人类TA明显更好”)到5(”AI TA明显更好”)。我们使用双样本t检验来检查每个问题的平均分数是否与中性中点3不同。这使我们能够衡量学生是否认为JeepyTA比人类TA更好或更差。结果显示,学生在几个方面将JeepyTA评为与人类TA相当,包括回复的速度和清晰度、回复的准确性和专业性、支持学习而不直接给出答案的能力,以及反馈的整体有用性和质量。然而,在三个领域它的评分较低:提供有用想法、支持学生发展和激励学生。
我们还评估了JeepyTA对学生获得回复的时间的影响。在相隔一年开设的两门相同的课程中,由同一机构同一教授教授且涉及可比较的学生群体,学生的查询响应时间出现了差异。在较早的学期,当没有使用JeepyTA时,讲师和TA发布了153条回复,中位响应时间为7.09小时。在随后的2023年秋季学期引入JeepyTA后,课程工作人员发布了136条回复,中位响应时间降至2.23小时,具有统计学显著性。
在JeepyTA尝试回答学生询问的89条帖子中,有22条回复获得了批准。AI生成回复大约需要40秒,课程工作人员在平均38分钟内批准。由于JeepyTA能够处理这些查询,即使手动编写的回复也更快。在JeepyTA学期,人类回复的中位时间为4.14小时,比之前学期的7.09小时中位时间在统计上显著更快。这表明JeepyTA提高了即使是纯人类回复的效率,可能是因为讲师和TA有更多时间处理值得他们更多关注的任务。
JeepyTA的另一个预期目的是在标准工作时间之外支持讲师和TA。在引入之前的学期,课程工作人员在常规美国工作时间之外(下午5点之后和上午9点之前)发布了62%的回复。在JeepyTA可用的学期,这一比例为60%,没有统计学显著性差异。然而,在周末发布的回复比例似乎存在差异。在之前的学期,讲师在周末发布了10%的所有回复。引入JeepyTA后,这一数字增加到占总回复数(包括JeepyTA发布并经讲师批准或编辑的帖子)的29%。这一增长具有统计学显著性,表明在引入JeepyTA后,课程工作人员能够更好地将工作时间集中在周末。
目前正在进行研究以研究JeepyTA对学生论文反馈的影响(3b)。在我们的初步工作中,我们发现,随着学期的推移,在收到JeepyTA反馈后,学生的作业成绩(根据独立评分员)统计上显著提高——从平均64%的学生在最终提交中获得A或A+提高到95%的学生获得A或A+。在后续工作中,我们正在调查学生是否专门修复了JeepyTA在该论文中识别的问题,以及他们是否在后续论文中犯同样的错误(包括在另一门也提供JeepyTA的课程中)。
关于JeepyTA头脑风暴支持功能(3f)的研究(Shah等,2024[46])表明,JeepyTA帮助学生产生更多想法(平均每个学生2.78个,而学生主导的构思为1.7个),并增加了完全形成的详细概念的产生。然而,这伴随着重要的权衡:JeepyTA驱动的想法往往显示出主题重叠,常见建议如”团队合作”出现在多个学生的工作中,而学生驱动的想法表现出更大的多样性(参见Doshi和Hauser,2024[52])。在分析学生对使用JeepyTA过程的描述时,研究人员识别出五种不同模式:36%的学生认为建议有见地且与自己的想法一致,18%承认JeepyTA在想法生成中的作用但没有说明这样做是否有帮助,18%引用了使用JeepyTA但没有说明其使用与他们的提议想法如何/是否相关,18%没有提及JeepyTA,13%批判性地评估并建立在JeepyTA的建议之上。值得注意的是,68%的学生提出了多种跨越21世纪学习所需知识类型(Kereluik等,2013[53])的教育应用:元知识(协作、解决问题)、基础知识(数学、历史、计算机科学)和人文知识(数字公民、道德意识)。特别是当学生整合了阅读材料、游戏体验和领域专业知识时,出现了特别新颖的建议,表明当学生已经拥有可以构建的基础知识时,JeepyTA作为头脑风暴工具效果最佳(Nasiar,forthcoming[54])。
其他人工智能增强TA案例研究
例如,在印度理工学院坎普尔分校,研究人员为一门计算机科学入门课程试点AI增强TA,学生与讲师的比例通常太高,人类讲师或TA无法大规模提供个人指导(Ahmed,2025[55])。针对这种情况,团队将AI代理集成到Prutor,这是一个基于网络的编程平台,学生提交C编程作业的解决方案。当学生的程序未能通过讲师定义的测试用例时,他们可以点击平台内的”获取帮助”按钮来请求协助。此操作触发反馈请求,编译四个关键输入并通过内部API将其发送到GPT-4 Turbo:问题描述、学生的错误代码、测试用例结果以及学生描述困惑或提出特定问题的可选消息。利用这些信息,GPT-4 Turbo生成针对性反馈,链接到学生代码中的特定行,突出潜在错误的确切位置并解释可能出错的地方。输出被路由到集中仪表板,人类TA可以在其中审查AI的草稿回复,进行编辑、添加注释或在通过同一界面将最终反馈发送给学生之前完全拒绝。AI代理针对另外两种条件进行评估:一种是人类TA在没有任何AI支持的情况下提供所有反馈,另一种是GPT-4 Turbo生成的反馈直接发送给学生而无需人工审查。研究人员检查了这些类型的反馈方法如何影响反馈质量(通过专家评估衡量)、TA效率(通过系统日志记录的反应时间衡量)和学生表现(通过最终代码提交是否通过所有讲师定义的测试用例衡量)。此外,学生使用平台上的内置评分工具对每条反馈的帮助性、清晰度和及时性进行评分。虽然AI生成的反馈通常受到学生的积极评价——特别是因其详细解释——但这些积极看法并未一致地带来表现改善。收到AI辅助或完全自动化反馈的学生并不显著更可能成功完成作业,在许多情况下,人工TA反馈导致更快、更有效的解决问题。
研究人员观察到的一个问题是,一些使用AI生成反馈的TA即使在输出包含不准确或幻觉的情况下也转发了它,而没有进行必要的更正。这似乎反映了某些TA过度依赖AI草稿而非批判性评估其质量的倾向。相比之下,没有AI支持的TA通常提供的回复突出了下一步或精确定位了错误的具体来源。因此,在某些情况下,人工TA组的学生能够更有效地解决问题,尽管他们收到的反馈通常更短且不那么详细。
另一个例子来自捷克,那里部署了一个基于GPT-3的对话聊天机器人Alex,用于大学级英语课程(Polakova和Klimova,2024[56])。Alex是一个基于网络的应用程序,结合了多个AI模型:GPT-3用于生成自然语言回复,而Gramformer和T5用于检测和纠正语法错误。在每次聊天会话开始时,GPT-3根据预先选择的每周主题生成特定主题的开场问题。然后学生用英语自由回复。他们的输入由Gramformer和T5处理以识别语法错误。当检测到错误时,聊天机器人进入纠正阶段,在此期间GPT-3提供句子的更正版本以及自然语言解释。聊天机器人还允许用户将反馈评级为”好”或”差”。在四周内,学生与Alex进行模拟对话会话并获得实时反馈。虽然每个会话的主题以固定开场开始,但用户可以将对话引向任何方向。为了约束互动类型,用户每天限制一次会话,每周最多三次,每次会话需要最少1000个字符的typed input。完成四周计划后,学生填写了关于他们经历的问卷调查。对学生反馈的分析显示,学习者对聊天机器人的几个方面给予了积极回应。学生指出,聊天机器人提出的问题清晰、易于理解,回复迅速,这有助于保持对话的自然节奏。许多人还感谢能够在课堂外练习的灵活性。访问会话练习的选项帮助他们建立了信心。根据调查,88%的学生表示使用聊天机器人没有感到压力,几位评论说体验就像与真人聊天一样。在学习收益方面,侧重于语法和词汇的前后测显示了可测量的改进。中上级学生将测试成绩从约59%提高到75%,而高级学生从80%提高到90%。
同时,学生还报告了聊天机器人的几个限制,影响了他们的整体体验。一些参与者在技术方面遇到了问题,如系统滞后和聊天机器人的不完整回复,这中断了对话流程。其他人指出,某些回复感觉重复或变化太小,这降低了后期会话的有用性。调查结果还显示,聊天机器人未能提高动力或鼓励持续使用:74%的学生表示使用聊天机器人后没有更受激励学习英语,79%表示他们宁愿使用Duolingo等其他工具或与母语人士交谈。
尽管设计和教学目标不同,这些例子与JeepyTA的目标一致,即提供课程一致、可扩展的支持。尽管这些由AI驱动的教学助理与JeepyTA在功能、支持课程、分配任务以及学习环境区域基础设施方面有所不同,但可以注意到类似的收益和挑战。
反思:作为教学助理的生成式人工智能的含义和政策建议
生成式人工智能(GenAI)在教育中的出现标志着教育专业景观的转变,分散了一些传统教学角色并促使重新思考教学的含义。从历史上看,教育专业知识集中在讲师和(在较小程度上)人类TA身上,他们提供指导、反馈和评估。然而,随着GenAI系统越来越能够辅导、搭建学习脚手架并实时响应学生需求,这些角色的边界正在被重新划定。
与GenAI构建的AI TA并不是要取代人类专业知识,而是要求我们重新思考教学工作的分配方式——不仅在讲师和人类TA之间,而且在整个AI增强系统中。这种转变反映了Shaffer、Nash和Ruis(2015[57])所描述的应对新工具和技术的专业知识的重新配置。正如他们所论证的,专业化不是静态的;当新的认知和工作方式出现时,它会演变。在教育领域,AI的日益增长意味着讲师必须发展新能力——不仅在教学内容方面,而且在编排AI增强学习环境、解释AI生成的洞察以及确保AI反馈与教学目标一致方面。因此,政策应强调培训讲师和人类TA有效地与AI合作。
同样关键的是,确保GenAI集成不会推动教学法发展,而是以有意义的方式支持教学。技术教学法内容知识(TPACK)框架(Koehler,2009[58])为理解这一挑战提供了有用的视角。教育者必须考虑GenAI如何与内容知识(教什么)和教学策略(如何教)相互作用。如果没有深思熟虑的集成,AI有可能将教育进一步推向效率至上模式的风险,即快速反馈和自动化评估取代了对复杂思想的深入参与,而非找到更深层学习和更多自动化活动之间的最佳组合(Mishra、Warr和Islam,2023[59])。将效率和参与置于有意义理解之上,可能在短期内提高学生作业质量和学生体验,但可能不利于学生的长期利益。
Mishra及其同事的工作还强调,需要超越仅仅是采用AI工具,走向将其有意义地整合到学习体验中。AI TA的存在本身并不会改善教育;其有效性取决于它们如何与更广泛的学习目标保持一致。教育者必须在塑造AI在课程中的功能方面发挥积极作用,确保它补充和增强以人为中心的教学实践,而不是取代它们。因此,我们建议不要以取代人类和完全自动化所有学习活动的方式设计AI教学助理,也应避免采用会创造裁员人类TA压力的削减成本措施。除了降低教学质量外,减少对教学助理的资助也会减少依靠教学助理职位作为进入学术界途径的经济弱势个人机会,最终减少有才华的学者进入研究和学术的渠道。
Henriksen和Mishra(2024[60])关于实践智慧的工作进一步强化了这一视角,强调经验丰富的教育者带来的是AI无法复制的一种专业知识——一种根植于伦理决策、情境理解和反思实践的专业知识。随着AI转变教育的知识本质,教师必须确保人类判断力、适应性和社会情感洞察力保持在教学的核心。这突出了教育者需要批判性地对待GenAI,利用其优势同时保持教学和指导的核心人文元素。
因此,在这种情况下的再专业化不仅仅是让教育者为AI整合的课堂做好准备——而是确保人类和AI系统协调工作,推进学生学习体验和成果。正如之前的技术变革重塑了教学职业一样,GenAI需要重新设想教师准备、评估设计和专业协作。目标不仅仅是整合AI,而是在AI增强教育生态系统中定义新的专业知识模式——在这个模式中,人类和AI代理共同支持有意义的学习体验,同时保持对公平和效能的承诺。
高等教育中的评估实践服务于多个目的:它们告知学生他们的进展,为讲师提供指导教学的可行洞察,并认证学习者的能力。AI教学助理(AI TA)的出现,如JeepyTA,为形成性评估增加了新机会,同时为终结性评估创造了可能性,值得一些谨慎。在这两种情况下,仔细的设计和政策护栏对于确保AI TA增强而非削弱教育过程是必要的。
AI TA的一个主要好处是支持形成性反馈,在这种反馈中,快速、具体和个性化的指导可以促进更深层次的学习。这种反馈可以即时、全天候提供。深夜学习、远程学习或兼顾其他责任的学生通常无法参加常规办公时间或等待TA有空。AI TA可以通过提供即时、全天候的反馈来填补这一空白,减轻人类TA的压力,使支持更加公平。
历史上,自动化评估(如测验、简答题评分)帮助识别学生误解并鼓励针对性练习。生成式人工智能现在通过支持更复杂的任务扩展了这些可能性——从论文草稿到编程项目。一般来说,AI TA可以评估比典型人类TA更广泛的能力范围,支持评估从评估学生知道什么转向他们的概念理解和他们解决问题过程的能力。重要的是,使用AI进行评估还打开了通过更广泛的作品类型评估学生学习的可能性——包括注释、反思、同伴反馈、对话和其他形式证据——实现更全面、更细致的学习观,超越传统措施。
它们还可以提供复杂、多维度的评估。正如前面讨论的JeepyTA平台所示,AI TA可以提供关于论文组织、论证清晰度和概念严谨性的反馈,参考课程量规和标准以与讲师目标保持一致。这种及时、可操作的评论可以帮助学习者更快地迭代,从基本正确性检查转向更高层次的思考和反思(Hattie和Timperley,2007[6];Chi和Wylie,2014[7])。如果这些系统被仔细设计为与课程特定材料和量规保持一致(如JeepyTA已被初始化所做的那样),则可以降低讲师不同意的误导性反馈风险——尽管它仍然发生,就像人类TA也可能提供讲师不同意的反馈一样。此外,角色化身的使用(如上所述)或仔细设计的提示可以让学生从不同角度获得反馈,这在某些学科领域非常相关,但对于单个人类TA或讲师来说很难提供。
随着AI TA承担回答常见问题、审查初始草稿或提供量规一致建议等耗时的任务,人类TA和讲师越来越能够将时间重新分配给更具教学意义和以关系为中心的活动。这些包括引领挑战学生批判性思考的深入讨论,直接与个人或小组合作支持他们的学业进步,与学生会面支持他们的学业和职业发展,以及开发促进学生自主性和协作的活动。学术人员现在可以将更多精力投入到综合学生提交中的表现模式、识别新兴误解以及根据观察到的趋势和学生需求对作业或评估进行持续改进。这些更高层次的教学实践对于AI系统来说仍然难以复制,尽管它们可以以各种方式支持这些任务。因此,AI TA并不是取代人类,而是为他们创造空间,让他们专注于在情境中解释学生思考、应用主题专业知识以及行使教学判断。
AI TA提供形成性反馈的另一个可能担忧是过度脚手架,即学习者如此严重地依赖AI生成的建议,以至于他们的最终作品不再代表独立工作。特别是如果学生可以获得多轮反馈,或者获得低层次的写作建议,当今生成式AI的复杂性可能会模糊学生自身努力与AI提供内容之间的界限。为避免此类问题,需要仔细考虑设计,这可以通过政策支持建立关于不同情况下多少脚手架适当的指南以及在保持脚手架收益同时避免过度脚手架的方法的研究来支持。尽管如此,总体而言,通过AI TA提供形成性反馈的好处——如果设计得当——似乎大于风险,政策应鼓励高等教育以能够改善学生学习的方式使用AI TA进行形成性反馈。
对于更多终结性评估(如分配作业最终分数)存在更大的担忧。自动化作文评分的历史可以追溯到几十年前(Shermis和Burstein,2003[18]),提供一致性和快速周转,但经常因专注于肤浅的文本特征而受到批评。尽管如此,自动化作文评分的实例为如何在心理测量学上验证自动化评分并适当使用提供了许多经验教训,支持高等教育机构以较低人力成本提供高质量一致评分。更先进、基于生成式AI的方法可以比大多数早期方法更详细地分析内容,但可能容易出现系统性偏见、评分缺乏透明度、将不准确但广泛被相信的误解视为真实,甚至在某些情况下对学生原始作品中不存在的信息“产生幻觉”。对于高赌注决策(如课程成绩),即使是小错误率也可能对学生结果和公平感知产生影响。此外,将AI纳入终结性评分可能会放大现有的公平担忧。如果AI TA的底层模型是在反映文化或语言偏见的数据上训练的,来自弱势背景的学生可能会在不知不觉中被惩罚。因此,生成式人工智能在终结性评分中的存在需要跨不同学生群体进行强有力的验证,并考虑在评估中谁的观点是中心(Lee,1998[61]),甚至在评估公平性评估中(Randall,2023[62])。政策制定者和机构领导者必须建立政策,确保任何基于AI的终结性评分使用都得到透明程序、记录可靠性指标(包括证据表明存在有限或没有算法偏见(Baker、Hawn和Lee,2023[63]))以及学生(和讲师)质疑和上诉自动评分的能力的支持。
关于AI辅助何时可接受以及AI驱动的贡献多少才算过多的决定,将因课程情境、学科标准以及学生在专业知识发展中所处的阶段而异。在计算机科学或商业等领域,协作解决问题与工具使用是核心,适当的是根据他们有效利用AI达成正确解决方案的能力来评估更高级别课程中的学生。相比之下,在强调基础知识掌握程度的个别课程中,不受约束的AI辅助可能会破坏所评估的能力。因此,可能适合在学科层面或在特定标准课程背景下制定指南,说明哪些任务应包含AI支持,以及哪些类型的形成性评估和支持是合理的。
总体而言,生成式人工智能在形成性评估方面具有相当大的潜力,如果以足够的谨慎对待并保留人类监督,在终结性评估方面也有一定可能性。鼓励适当使用的政策设计对学生和讲师都有潜在益处。
AI TA的简单存在可以在支持公平性方面发挥重要作用。许多学生在需要时难以获得学术帮助,不是因为他们缺乏动力,而是因为结构性障碍使获取困难。一些学生有工作或照护责任,使他们无法参加办公时间。其他人处于不同时区,无法在常规课堂时间外联系讲师或TA。AI TA可以通过在任何时间即时回复课程相关问题直接消除一些这些障碍,这使得原本可能在需要时难以获得帮助的学生更容易获得学术支持。如果设计正确(如果这种设计工作成为鼓励开发和使用的投标请求和其他工具中的标准的一部分),AI TA在避免无意识偏见方面也可以更有效,在历史上弱势背景的学生可能收到与其他学生不同和更低质量反馈的情况下。当AI TA建立在多语言大型语言模型上时,还可以以多种语言提供内容,提高对一些国际学生的反馈和支持的可访问性。
同样,AI TA可以缓解影响人类TA的一些公平问题。大规模课程对教学助理造成巨大需求,他们必须将时间分配给评分、回复学生问题和支持课程行政。许多教学助理在管理自己的课程作业、研究和职业发展时承担这些责任。他们面临的时间限制不仅影响他们自己的学习,还会影响他们可以在反馈中提供的详细程度或他们可以单独支持的学生数量。AI TA可以通过处理常见询问和生成结构化作业反馈来减轻一些这些压力。因此,在适当的情况下采用AI TA的政策可以对公平性产生相当快速和可观的益处,对学生和教学助理都是如此。
然而,采用AI TA也可能造成公平担忧。Holstein和Doroudi(2021[64])的研究表明,教育技术通常强化现有不公平,使已经拥有强大学术技能的学生受益,而让其他人落后。也就是说,关于大型语言模型的最新研究表明了一种更复杂的动态:LLM可能为知识较少的用户提供更大的相对收益,这种模式有时被称为GPS效应(Chiang等,2024[34])。就像GPS系统对不熟悉路线的人比有经验的司机提供更多支持一样,LLM可以比帮助专家更有效地搭建新手脚手架。这表明,一旦获取渠道得到保障,AI TA可能会不成比例地惠及先验知识较少的人——可能缩小成就差距而不是扩大。当然,获取渠道本身仍然是一个关键障碍,特别是在数字素养、语言流利度和可靠连接方面。此外,AI系统可能编码文化、语言或认识论偏见从而有利于主流规范的风险仍然存在。在JeepyTA中,通过角色化身纳入特定文化观点和知识来源的努力是我们解决这一担忧的首次尝试。同样重要的是,确保AI TA不仅仅使具有较高数字素养和较强学术基础的学生受益。因此,重要的是政策要求有证据表明AI TA对所有学习者是公平的——不仅是支持发展,而且是将公平性验证作为评估的一部分跨学习者进行。
结论
本章考察了人工智能教学助理,特别是由生成式人工智能驱动的教学助理,如何扩展和支持人类TA和讲师在高等教育中的传统角色。我们首先考虑了人类TA发挥的基础作用,以及他们经常遇到的物流和教学挑战,如平衡工作量与自己的学业承诺。在此背景下,我们回顾了AI TA的出现——这些工具旨在自动化常规行政任务、提供实时学生支持,并以补充和扩展人类能力的方式大规模提供及时的形成性反馈。我们不是将AI TA视为人类TA的替代品,而是倡导一种增强模式——在这种模式中,AI工具提供人类讲师和TA单独无法提供的支持和反馈:即时、个性化、详细且全天候可用。
为了将这些想法具体化,我们讨论了JeepyTA——由宾夕法尼亚大学学习分析中心开发的生成式AI系统。JeepyTA部署在多所研究生水平课程和多所机构中,并集成到课程讨论区,支持各种教学需求。这些包括回答后勤查询、提供论文形成性反馈、协助学生调试代码、激发创意构思、总结讨论帖子以及建议新的讨论提示以促进更深入的参与。通过将课程材料和评分量规嵌入基于LLM的系统,JeepyTA展示了AI TA如何能够大规模提供情境感知且与课程一致的回答。在整个章节中,我们还讨论了关键的设计和实施考量——如提示设计、需要人类监督和审查、伦理和偏见考量以及与政策的一致性。这些因素对于确保AI TA负责任、透明地运作并服务于公平的学习成果至关重要。
最终,这里记录的经验表明,精心设计的AI TA可以减轻人类TA和学术人员的压力,增强学生参与度,并可能改善学习体验的质量。重要的是,它们的有效性不仅取决于生成式AI的技术复杂性,还取决于与教学实践的仔细整合。当深思熟虑地部署时,人工智能教学助理可以帮助机构创建更具可扩展性、响应性和个性化的教育生态系统——以新的有意义的方式支持学生、TA和讲师。