第一章：探索生成式人工智能在教育中的有效应用：概述

第一节：什么是生成式人工智能？（What is generative AI?）
第二节：GenAI的总体采用情况如何？（What is the general uptake of GenAI?）
第三节：学生如何使用GenAI？（How do students use GenAI?）
第四节：教师如何使用GenAI？（How do teachers use GenAI?）
第五节：GenAI何时能改善学习成果？（When does GenAI improve learning outcomes?）
第六节：教育GenAI工具是什么样的？（What do educational GenAI tools look like?）
第七节：GenAI如何提升教育系统和机构的效能？（How could GenAI enhance the effectiveness of education systems and institutions?）
第八节：结论（Concluding remarks）
附录1.A：各国生成式人工智能教育战略和框架示例

本报告探讨了生成式人工智能 (GenAI)，这是一项变革性技术，自 2022 年 OpenAI 的 ChatGPT 推出以来，它使人工智能成为公众关注的焦点，包括学生和教育政策制定者。与早期的教育人工智能系统不同，GenAI 可供教育机构以外的学生使用，无论是否得到教师、学校领导和政策制定者的支持。这给教育带来了重大机遇和复杂挑战。在澄清 GenAI 的含义后，本章概述了 OECD 人群（包括学生和教师）对 GenAI 的接受情况。然后，它总结了 OECD 2026 年数字教育展望中的知识和信息：关于 GenAI 对学生学习影响的研究证据、教育 GenAI 的示例，以及改进机构和系统层面工作流程的可能用途。

教育中的生成式人工智能

第一节：什么是生成式人工智能？

在 assistive technologies 中嵌入人工智能，例如为有特殊需求的学生使用，用于在智能辅导系统中适应个人学习需求，对评估进行评分，或预测学生是否有辍学风险（OECD, 2021[1]）。

一个重要的区分应在于通用人工智能工具与专业人工智能工具（在我们的案例中主要是教育类）之间：通用系统用途广泛，设计用于多种目的，包括教育目的，而专业教育工具则仅为教育目的而设计（见表1.1）。

表1.1 人工智能不同类别的示例

	非生成式	生成式
通用	笔记工具（图像转文字）语音转文字、文字转语音人工智能翻译软件	ChatGPT、Deepseek、Gemini 等聊天机器人图像、视频或声音生成器
教育	智能辅导系统（如 Assistments、Lalilo、PILA）早期预警系统模拟系统（AR/VR）	GenAI 辅导工具（如 Gauth、Khanmigo、Question AI、Socratic Playground）人工智能教师助理（如 JeepyTA、Coteach、CoTutor）

通用型GenAI工具的特殊之处是什么？

通用型GenAI工具通常能针对问题提供相关且情境化的答案，并具有澄清和提出后续问题的能力。这些能力在早期（非生成式）自然语言处理中是不可能实现的。这些工具在超大规模的数据集上进行训练，超过了人类手动检索的能力。此外，它们具有灵活性，可应用于许多不同的学科。与大多数教育人工智能不同，通用型GenAI工具通常提供免费版本，使学生和教师即使在没有大学或学校提供的情况下也能使用，前提是他们有合适的设备和网络连接。即使在离线状态下，小型语言模型也可以运行，尽管性能较低（Isotani, 2026[2]）。

一系列众所周知的缺点也是当前GenAI系统特有的，并与其技术本质相关。由于基于概率模型，它们可能会“幻觉”，即产生看似合理但错误的答案，或在输出中编造细节。它们不会产生一致的结果。例如，多次重复相同的任务会产生（至少略有）不同的答案或产物，这有时是个问题。这是由于定期的系统更新及其概率性质所致。由于在可用数据集上进行训练，它们的答案和其他产物往往再现了这些数据集中代表的观点和视角，而这些观点和视角主要基于英语文化（和西方文化）。例如，除非另有提示，否则它们通常会在生成内容中使用西方姓名或例子。此外，尽管看起来具有智能，GenAI工具并不能“理解”它们处理的输入或生成的内容。因此，它们的输出通常需要人类监督和审查，通常比专业的非生成式人工智能系统需要更多。

虽然超出了本报告的范围，GenAI也带来了一系列社会挑战。许多观察者对其环境足迹表示担忧，尽管这仍然难以衡量和与其他数字技术进行比较。人工智能生成的信息和数据的传播可能会降低未来生成内容的质量（因为它们进入了训练数据集），并放大我们当前知识的一些局限性。这将使批判性思维以及元认知和高阶思维技能的发展比以往更加重要。GenAI可能如何改变社会、劳动力市场和经济，其完整影响仍在显现。

第二节：GenAI的总体采用情况如何？

大多数人通过基于大型语言模型（LLM）的聊天机器人体验GenAI，如 OpenAI 的 ChatGPT、Google 的 Gemini、Microsoft Copilot、Anthropic 的 Claude、Mistral 的 LeChat 以及 Deepseek 的 Deepseek-R1。截至2025年4月，根据网站流量数据，聊天机器人主导了GenAI工具的公众使用，占前60个GenAI平台每月流量的95%。ChatGPT仅占每月访问量的约78%，低于2023年4月的89%（Liu, Huang and Wang, 2025[3]）。图像生成工具占GenAI网站流量的2.4%，视频和音频工具占1.9%，productivity 和商业工具占不到0.5%。虽然这些份额仍然很小，但自2023年以来这些系统的使用量显著增长，与GenAI整体增长趋势一致。平台之间的竞争也在加剧，Deepseek和Perplexity等新进入者自2023年以来获得了市场份额。Liu、Huang和Wang（2025[3]）表明，GenAI工具的使用已经扩展和深化。例如，在2024年至2025年期间，ChatGPT的独立用户数量增长了42%，每位用户的访问量增加了50%，平均会话持续时间从7分钟翻倍至15分钟——导致其流量翻倍（增长113%）。

这种增长主要由高收入国家用户推动。2025年，他们占GenAI使用的60%（相比2024年的55%），中等收入国家占39%，低收入国家不到1%（见Liu和Wang (2024[4])的2024年数据）。这反映了OECD成员以及巴西、中国和印度等加入国和关键伙伴国的强劲采用。但这也指向了基于采用和使用差距的数字鸿沟正在扩大。部分差距可能是由于测量问题，因为低连接度地区的用户可能无法通过互联网访问平台，并在设备上运行离线版本。图1.1显示了2025年和2024年使用ChatGPT的互联网用户份额，从而提供了GenAI工具在人群中的采用情况估计，同时承认平均值掩盖了年轻一代中更高的使用率。

图1.1 2024-2025年ChatGPT用户占互联网用户的份额增长

2024年至2025年，OECD、加入国和关键伙伴国的ChatGPT用户占互联网用户的份额有所增加

ChatGPT在许多国家的使用都有增长。注意：ChatGPT在中国一般无法访问。虽然ChatGPT仍然是最大的GenAI聊天机器人服务，但当地替代聊天机器人在其原产国/地区往往更受欢迎。该图突出显示了GenAI聊天机器人在几乎所有国家的使用增长。

来源： Liu, Yan; Huang, Jingyun; Wang, He (2025). Who on Earth Is Using Generative AI? Global Trends and Shifts in 2025 (English). Policy Research Working Paper; Digital; Washington, D.C. : World Bank Group.

学生使用GenAI是否常见？

虽然目前没有关于不同教育阶段学生使用GenAI的权威比较数据，但几项国内和国际调查提供了关于学生使用这些工具的广泛程度及其教育目的的初步图景。

在瑞士，2024年对8-18岁学生进行的一项具有统计学代表性的调查显示，使用情况因年龄存在显著差异。约8%的小学生表示每周至少使用一次GenAI工具，初中生约为30%，普通高中生约为一半，职业高中生约为40%。在家使用遵循类似的年龄模式（分别约为9%、33%、54%）（Oggenfuss and Wolter, 2024[5]）。包括低于每周至少一次的使用，约70%的瑞士普通高中学生使用GenAI，其他瑞士学生的使用情况与密集用户有着相似的年龄/学校模式。

在爱沙尼亚，一项对约16,000名学生的全国性调查发现，2024年74%的初中生和90%的高中生报告使用人工智能工具支持学习，ChatGPT是遥遥领先的工具（70%的学生使用）（Granström and Oppi, 2025[6]）。除了国家案例研究，一项针对七个国家（德国、希腊、葡萄牙、罗马尼亚、西班牙、土耳其和英国）7,000多名12-17岁学生的跨国欧洲调查显示，学生对生成式人工智能的使用率很高。例如，48%声明在2024年使用过ChatGPT，其中近一半是由教师指导使用的（Vodafone Foundation, 2025[7]）。

高等教育学生的GenAI使用似乎与上述年龄模式一致，尽管尚无具有统计学代表性的调查提供这方面的信息。尽管如此，一些研究已经调查了大量高等教育学生（并重新加权了他们的答案以使其更具代表性）。在法国，2023年对约4,500名学生进行的一项研究报告称，55%的高等教育学生使用GenAI工具（Compilatio, 2023[8]）。2025年，这一比例增加到82%（Pascal et al., 2025[9]）。在德国，一项对23,000多名高等教育学生的调查显示，2025年94%使用人工智能，其中65%每天或每周使用（Hüsch, Horstmann and Breiter, 2025[10]）。2024年一项针对16个国家3,000名高等教育学生的国际调查也发现，86%在学习中使用人工智能，其中54%每天或每周使用（Rong and Chun, 2024[11]）。

证据表明，自2022年以来，学生对生成式人工智能的使用已从边缘迅速走向主流。以美国高中生为例说明了这一趋势——美国是少数几个随时间推移进行多项调查的地方之一。2023年进行的调查已经表明GenAI的广泛暴露，约25-33%的中学生报告使用GenAI做学校作业（Center for Digital Thriving, Common Sense Media and Hopelab, 2024[12]）。2024年，可比调查表明显著加速，近50%的初中和高中学生报告使用人工智能工具，特别是用于家庭作业支持、创意生成和解释困难概念（Impact Research, 2024[13]）。2025年，约68%的15-17岁青少年报告使用ChatGPT等人工智能聊天机器人（Pew Research Center, 2025[14]）。

上述2024年至2025年之间GenAI参与度的增加（Liu, Huang and Wang, 2025[3]）也可能是由年轻年龄组推动的。2024年，与普通互联网用户相比，年轻群体和受教育程度较高的人推动了这些工具流量的实质性份额，信号显示青少年和年轻人中的早期和集中使用（Liu and Wang, 2024[4]）。没有理由相信他们对这一份额的贡献减少了。2024年的早期实验者可能在2025年已转变为常规用户，这是可能的甚至很可能的。

简而言之，学生确实使用GenAI——在小学教育中程度较小，在初中教育中比例适中，但在高中和高等教育中大多数似乎定期使用。虽然学生的GenAI采用因国家而异，但总体趋势表明GenAI使用在OECD国家中广泛增长。

第三节：学生如何使用GenAI？

许多学生显然将GenAI工具用于学术目的。然而，他们的主要动机往往集中在便利性和效率上，而不是深层学习。当被问及为什么使用GenAI时，根据多项研究，学生的典型回答是他们想要“认知支持”，如信息、解释和摘要，或“生产支持”，如创意生成、起草，以及可能更有问题的是解决方案生成。

例如，在爱沙尼亚，6-12年级学生最常报告使用GenAI是为了获得更好的成绩、使教育任务更容易和节省时间。这些用途通常不支持学生学习。常见用途包括回答家庭作业问题和生成创意。初中生更常报告进行事实核查，而高中生往往报告总结特定主题和为演示文稿创建视觉效果（Granström and Oppi, 2025[6]）。在大多数这些情况下，主要动机是效率和便利（而不是深层学习）。

同样，在前面提到的七国欧洲调查中，最常见的校外、非指导性学习用途是获取信息（56%）和获取术语和概念的解释（45%）。近三分之一（31%）报告使用人工智能提供任务的完整解决方案，而较少（20%）将其用于自我调节功能，如制定个性化学习计划或跟踪进度（图1.2）。这些模式与对荷兰学生进行深入定性访谈的结果一致（Topali, Ortega-Arranz and Molenaar, 2026[15]）。

图1.2 欧洲学生如何利用人工智能学习？（2024年）

当你在校外学习且没有老师指导时，你现在使用人工智能应用程序做什么？

德国	西班牙	希腊	土耳其	葡萄牙	英国	罗马尼亚	欧洲平均
56%	45%	70%	60%	50%	40%	30%	20%
31%	29%	20%	–	–	–	–	–

提供信息
解释——向我解释术语和概念
提供任务的完整解决方案
互动——使用引导我学习体验的互动和适应性内容
构建/计划——创建个性化学习计划并跟踪我的进度

注意：基础：所有参与者；n = 7,000；显示时不含“不知道/宁愿不说”答案。可多选。

在高等教育中，学生似乎主要使用GenAI工具搜索信息，以及进行编辑、总结、改写等语言任务，较小程度用于起草（Rong and Chun, 2024[11]）。Hüsch、Horstmann和Breiter（2025[10]）提供了最详细的用途分类，显示出大体相似的图景，学生主要将其用于“认知”方面的通用搜索、创意生成和文献研究，以及“生产”方面的总结和起草（每周或每日用户约22%）（见图1.3）。有趣的是，约33%的学生将GenAI用作“学习伙伴”。

综合来看，现有证据表明，越来越多的学生将GenAI用于一般搜索、理解力和起草，包括将其作为完成任务和家庭作业的捷径。高等教育和高中教育的用途似乎没有很大不同，往往反映了这些不同阶段学生对学习的期望。

图1.3 德国：高等教育学生学习和使用人工智能的目的和频率（2025年）

CHE大学排名学生调查2025年的结果

	从不	偶尔（约每学期一次）	每月	每周	每日
用于一般研究/了解主题概况	15%	19%	19%	33%	13%
用于头脑风暴/创意生成/灵感	23%	18%	20%	26%	10%
作为学习伙伴/导师（如用于讨论课程内容、回答技术问题）	35%	15%	15%	21%	10%
用于总结文本/文档	34%	20%	19%	19%	7%
用于翻译（如DeepL）	36%	34%	17%	18%	8%
用于文本生成	23%	18%	16%	6%	–
用于文献研究	36%	24%	17%	14%	5%
用于编程/帮助创建代码	51%	14%	12%	13%	5%
用作学习系统，提供有关我学习进展的反馈	78%	7%	5%	–	–
用于图像生成	68%	17%	8%	–	–
用于一般学习信息（如组织、课程选择）	83%	7%	–	–	–

注意：N=23,288。该调查包括工程学科以及心理学、教育学、日耳曼语研究和罗曼语研究的学生。学生分布在171个不同的高等教育机构（大学、应用科学大学和合作教育机构），包括六所奥地利大学。调查对象为本科课程第三学期至超过标准学期两个学期的学生。

第四节：教师如何使用GenAI？

OECD教学和学习国际调查（TALIS）2024提供了具有代表性的比较信息，了解初中教育教师如何使用人工智能（OECD, 2025[16]）。在OECD国家中，平均36%的初中教师报告在2024年调查前的12个月内在工作中使用过人工智能，各国之间存在很大差异。新加坡和阿联酋约75%的教师报告使用人工智能，而法国和日本则不到20%。

图1.4 教师在教学中使用人工智能及对人工智能的看法（2024年）

同意以下声明的初中教师百分比

法国

阿联酋

法国

法语区（比利时）

越南

阿塞拜疆

冰岛

新西兰*

新加坡

韩国

–

在过去12个月内在教学中使用过人工智能
人工智能帮助教师自动化行政任务
人工智能使教师能够根据不同学生的能力调整学习材料
人工智能帮助教师编写或改进课程计划
人工智能放大偏见以强化学生的错误观念
人工智能做出不正确或不适当的推荐
人工智能使学生能够将他人的工作冒充为自己的工作
人工智能使用的好处

* 由于较高的无回应偏差风险，估算应谨慎解释。

来源：OECD，TALIS 2024数据库，表1.59、1.61和1.62。

虽然调查没有询问他们使用的是人工智能（各种）还是GenAI，但教师报告的任务表明大多数用途涉及GenAI工具。教师主要将人工智能用于准备和生产力任务：平均68%报告使用它来有效地了解和总结他们教授的主题，64%使用它来生成课程计划。在人工智能用户中，平均25%报告使用它来审查学生参与或表现的数据，26%使用它来评估或评分学生作业（图1.4）。

此外，平均40%的教师“同意”或“强烈同意”人工智能帮助他们单独支持学生。约50%同意人工智能有助于创建或改进课程计划，尽管同意度从法国的18%到越南的91%不等。平均而言，七成的教师认为人工智能可能使学生将他人的工作冒充为自己的工作。约四成的教师同意人工智能可能放大偏见、强化学生的错误观念，或损害数据隐私和安全。

至于尚未使用人工智能的教师，他们报告感到被日益增长的在教育中整合数字工具的期望所淹没，这被视为在教学中使用人工智能的障碍。这在不同系统之间差异显著，从巴西、智利、哥斯达黎加、意大利、摩洛哥、土耳其和阿联酋的不到20%，到克罗地亚、比利时法语区、日本和塞尔维亚的超过50%不等。平均而言，四分之三的教师报告他们缺乏使用人工智能教学的知识或技能。这些教师中约一半也认为人工智能不应在教学中使用。在学校政策方面，十分之一的教师报告说他们的学校禁止在教学中使用人工智能。

其他教育水平的教师使用GenAI工具的情况如何？

TALIS 2024允许在有限数量的参与国中比较其他水平的教师使用人工智能情况。在这些教育系统中，小学教师总体上比初中教师使用人工智能的可能性较小，在澳大利亚和比利时法语区观察到特别大的差距。在小学教育中使用人工智能的教师往往更有可能将其应用于有针对性的教学实践，特别是支持有特殊教育需求的学生和调整课程材料的难度以适应学生的学习需求，在法国和荷兰观察到特别大的差异。这可能表明他们使用 assistive AI 技术（针对有特殊需求的学生）和适应性学习系统，这些可能涉及也可能不涉及GenAI（OECD, 2021[1]）。

国内调查和国家研究在GenAI用途方面大体证实了TALIS描绘的情况。例如，在爱沙尼亚，一项对约4,000名教师的调查发现，53%报告在工作中使用人工智能工具，小学和初中教师（66%）的使用率高于高中教师（50%）（Granström and Oppi, 2025[17]）。使用生成式人工智能的教师主要这样做是为了提高工作效率，如准备材料、支持计划或简化常规任务，而不是用于深层转型或个性化教学实践。使用的最强预测因素是教师自我报告的准备度，包括信心、工具获取和机构支持，以及他们认为GenAI为教学提供明确实际利益的信念。相比之下，不使用主要是由于技能不足、缺乏信心、培训机会有限或对教育价值的不确定性。年龄显示与使用有小的正相关，而教学年限在考虑准备度和感知有用性后并不重要，这表明爱沙尼亚的GenAI采用更多地由能力建设和对日常教学相关性的感知驱动，而非由资历驱动。

澳大利亚（AHISA, 2023[18]; Collie and Martin, 2025[19]）、意大利（INDIRE, 2025[20]）、斯洛文尼亚（Licardo et al., 2025[21]）和美国（Diliberti et al., 2024[22]）的研究提供了相同类型用途的变化，主要用于准备工作（生成工作表、课程计划、活动）。它们还提供了不同学科使用差异：例如在美国，英语和“社会研究”教师更有可能使用这些工具，可能是因为与其他一些学科相比，他们更有可能设计或调整课程（Diliberti et al., 2024[22]）。

在高等教育中，GenAI的采用可能更大，因为研究和教学中广泛使用GenAI工具（Guellec and Vincent-Lancrin, 2026[23]）。在法国，对30,000名高等教育学生、教师和学术人员的调查发现，2025年80%的高等教育教师已经使用过GenAI工具，主要用于帮助他们起草和准备课程（49%）或起草学生评估（26%），较少用于支持他们纠正（13%）或评分（8%）学生作业（Pascal et al., 2025[9]）。一项针对52个高等教育机构1,700名教师的国际研究报告称，68%使用人工智能。其中，75%使用GenAI创建教学材料，24%生成学生作业反馈（Rong and Chun, 2025[24]）。有趣的是，两项调查都表明高等教育教师很少将GenAI作为实际教学的一部分或要求学生使用GenAI。不幸的是，使用频率的数据仍然有限。

总之，教师使用GenAI的情况因国家和他们所教的教育水平而异。虽然在查看TALIS 2024数据时，GenAI在初中教育中的使用似乎比小学教育更突出，但爱沙尼亚的研究表明，小学教师比中学教师更频繁地使用这些工具。教师使用这些工具的频率与学生相同或更少，但不会更多。在爱沙尼亚再次强调，2025年50%的高中生使用GenAI工具，而90%的学生使用——在美国，同时对学生和教师进行调查的唯一研究发现常规使用水平相似（本科生总体使用水平略高）（Impact Research, 2024）。在高等教育中，教师和学生的常规用户比例似乎相似。无论教育水平如何，教师报告主要将GenAI工具用于相同的原因：协助生成课程计划、教学活动和教学/学习材料，有时也用于向学生提供反馈。

第五节：GenAI何时能改善学习成果？

鉴于学生广泛使用GenAI工具，包括在校外环境和没有教师指导的情况下，以及较小程度地由教师自己使用，教育领域的重要问题包括：使用GenAI如何影响学习？以及如何利用GenAI工具来增强学习？《OECD数字教育展望2026》的第一部分探讨了这些问题，这些问题在整份报告中进一步展开。

使用通用工具会自动增强学生学习吗？

Gasevic和Yan（2026[25]）提供了关于使用GenAI进行教学和学习的 emerging research概述，并强调根据其使用方式，GenAI工具可能削弱或增强学习。在某些情况下，使用GenAI可能是欺骗性的。例如，GenAI系统可能提高学生工作的表面质量（即他们在教育任务中的表现）而不改善他们的实际学习（他们的知识和技能习得）——这是多项研究中说明的一个悖论。

土耳其一项对9、10和11年级1,000名高中生进行的数学研究，在六个90分钟的课程中检查了三种练习条件：1）使用他们的课程笔记和教科书（如常）；2）使用通用LLM聊天机器人（“GPT基础版”）；3）使用教育LLM聊天机器人（“GPT导师版”）。教育LLM被配置（或微调）以避免提供直接答案并支持学习（但在这种情况下没有迹象表明它是一个适应性学习工具）。这项随机对照试验分析了学生在练习期间的结果，并注意到使用GenAI工具的学生正确回答练习题的比例远高于独立工作的学生，使用教育聊天机器人的学生表现更高。然而，当在闭卷环境中评估他们的知识时，表现增益消失了：使用通用GPT的学生比独立学习的学生得分更低（Bastani et al., 2024[26]）（图1.5）。使用教育聊天机器人的学生表现与自学的同龄人大致相同。虽然他们增强了GenAI技能，但人们会期望有效的数字学习工具能增强学习，而不仅仅是练习表现，这暗示了自我声明的“教育”GenAI工具可能的性能不足。

图1.5 成功使用GenAI完成任务并不会自动导致学习

土耳其：高中生独自练习或使用GenAI工具练习时的数学考试和练习结果比较

	GPT导师练习	GPT基础版练习	无GenAI练习
练习结果	127%	48%	0%
考试成绩	-17%	-40%	0%

注意：在这项随机对照试验中，使用GPT-4提高了学生练习数学题时的表现——尤其是辅导版本。然而，在闭卷考试期间，使用基础版（或通用版）GPT-4的学生比从未使用过的学生表现差17%。

其他研究在不同情况下显示类似结果，尽管统计功效较弱。它们的目的是更多地解释为什么使用通用工具时的增强表现不一定导致学习。两项研究分析了中国高等教育学生使用通用LLM修改他们用英语写的论文（未使用GenAI工具）的元认知过程。在第一次随机对照试验（Fan et al., 2025[27]）中，学生被分配以四种不同方式修改论文：1）独自；2）有人类专家建议；3）使用检查表（和数字工具）；4）使用通用LLM。他们发现各条件之间的动机没有统计学显著差异，尽管有外部支持的三组动机略有增加。在任务表现方面，使用GenAI工具的组得分最高，但通过知识测试测量的知识增益没有改善。在元认知过程或自我调节学习方面，使用GenAI的组完成的元认知任务较少，特别是评估和定向。另一项研究比较了通过寻求人类建议或使用通用LLM修改论文的学生之间的差异（Chen et al., 2025[28]）。他们发现与人类专家互动的学生以线性方式寻求帮助，遵循“寻求帮助”理论的模型：诊断他们需要什么帮助、请求帮助、评估收到的帮助、迭代，然后实施最终帮助。他们表明，当与通用聊天机器人互动时，一些学生倾向于直接请求帮助并立即实施收到的解决方案。他们通常会跳过诊断、评估和迭代阶段。作者将其称为“元认知懒惰”，这是一种描述“认知卸载”的方式。

另一项研究值得一提的是，因为它为上述发现提供了神经科学视角（Kosmyna et al., 2025[29]）。在美国，来自5所大学的学生被要求在三种工作条件下写一篇20分钟的论文：自己写（“仅大脑”）、使用搜索引擎，或使用通用GenAI工具（ChatGPT）。之后在实际论文写作后一小时内，LLM组只有12%能引用论文中的内容（精确回忆），而其他两组为89%。尽管LLM组的论文评价很好，但LLM组总结论文观点的能力较低，归属感较低，论文内容相似度更高。大脑成像表明他们的执行任务从生成内容转变为监督AI生成的内容，神经连接和参与度较低。他们还表明，先独自写作然后使用LLM保持了更高水平的激活和回忆。相比之下，那些从LLM开始然后继续独自完成的学生激活和回忆水平较低。这些发现表明，在使用GenAI之前初始认知激活至关重要。

这些证据强调，使用通用LLM的一部分学生可能会走捷径，避免学习和持久知识与技能习得所需的生产性挣扎和认知努力。这与Beghetto（2026[30]）所说的“快速”而非更具生产性的“慢速”和迭代使用GenAI相符，以及Vinchon等人（2023[31]）的“懒惰”使用GenAI的概念。

使用教育GenAI工具是否可能增强学习成果？

虽然证据表明GenAI工具有时以牺牲持久技能和知识发展为代价来提高学生表现，但这并不意味着积极成果是不可能的。事实上，本展望的多章也强调了一些有希望的结果（Gašević and Yan, 2026[25]; Li and Hu, 2026[32]; Strauß and Rummel, 2026[33]; Cukurova, 2026[34]; Topali, Ortega-Arranz and Molenaar, 2026[15]; Baker et al., 2026[35]）。应考虑两种类型的教育GenAI用途。一些基于LLM的GenAI工具被重新用于教育。它们要么被“微调”，即根据教育相关数据进行部分再训练，要么通过一系列关于如何回答用户请求的指令和提示进行“配置”。

例如，在美国，一个由斯坦福开发的名为“Tutor CoPilot”的GenAI工具，基于对优秀教师提供反馈的民族学观察对GPT4进行了微调（Wang et al., 2024[36]）。该工具集成到一个在线辅导平台中，实时协助在美国工作的900名导师（而非教师）辅导1,800名服务不足的学生。干预使学生通过率平均提高了4%，其中经验较少的导师获益最大（9%）以及之前被评为较低质量的导师（7%）。使用该工具对更有效、更有经验的导师影响较小。鉴于辅导作为一种学习策略的有效性，这项可靠的研究显示了GenAI工具支持导师（也许还有经验较少的教师）的希望。其他有希望的用途也在开发中以使教学更有效（Demszky, 2026[37]）。

图1.6 教育GenAI辅导可以优于课堂学习

2023年美国高等教育入门物理课程为期两周的随机对照试验结果

基线知识	学习增益
家庭学习（带GenAI）	更高
课堂学习	基准

注意：N=316。这是一项随机对照试验的结果，比较使用主动学习教学方法（无论是在课堂还是在线与GenAI导师）讲授的学生平均课后测试表现。两组之间的所有差异都具有统计学显著性，两组之间效应量为0.63的大效应。GenAI辅导组的学生也报告了比课堂组同龄人显著更高的动机和参与度。

图1.7 使用GenAI可以增强人类创造力和写作质量

在没有GenAI支持和收到1个或5个GenAI创意的人之间，创意写作输出的比较

创意故事	写作质量(1)	写作质量(2)
5个GenAI创意	0.31	0.21
1个GenAI创意	0.37	0.12
新颖性	0.47	0.38
写得好	0.38	0.22
不无聊	0.20	0.06
有用性	0.54	0.19
改变期望	0.25	0.14
有趣	-0.11	-0.06

注意：故事是由人类在收到来自GenAI的创意后撰写的，没有创意、1个创意或最多5个创意。按照惯例，效应量低于0.2表示影响小，0.2到0.6之间表示中等影响。

GenAI能否通过向学生提供反馈来改善学习成果？

GenAI为实现快速和可扩展地向学生生成反馈提供了强有力的希望。良好的形成性评估依赖于频繁、及时、有针对性和个性化的学生作业反馈。鉴于课堂规模，教师并非总能向所有学生提供详细、个性化的反馈，这使得人工智能生成的反馈成为改善学习成果的可行驱动因素。Gašević和Yan（2026[25]）回顾了关于GenAI生成反馈的研究文献，认为GenAI可以支持教师提供更好的反馈，尽管它不能替代人类反馈。

将LLM生成的反馈（通常基于评分标准和优秀答案示例进行配置）与人类反馈进行比较的研究文献发现，人工智能生成的反馈质量与人类反馈相当，同时承认人类反馈的缺点。Heinrich等人（2025[45]）在政治学简答题评分方面没有发现太大差异。Chevalier、Orzech和Stankov（2024[46]）发现收到基于GPT-4的反馈的学生与始终收到人类导师反馈的学生具有相似的学习收益，人工智能反馈涵盖所有形式人工智能的元分析也显示了这一点（Kaliisa et al., 2025[47]）。Dai等人（2024[48]）比较了人类和GenAI生成的反馈在任务正确性、学习策略、自我调节和自我方面的质量。平均而言，GenAI在书面论文上产生的反馈比人类教育者更易读、风格更优美。人类反馈往往更简洁。GenAI在提供过程和自我调节反馈的频率上也略优于人类，这两者支持更深层的学习和学习者自主性。尽管在形成性反馈方面表现相当，人类和GenAI可能对学生作业的优缺点达成较低的一致性（Dai et al., 2024[48]），因此也影响学生作业的评分（Chevalier, Orzech and Stankov, 2024[46]）。

这种同等表现是否意味着应该将学生作业的形成性反馈委托给GenAI？不一定。反馈只有在被认真对待并付诸行动时才有效，这部分取决于其质量，也取决于其可信度和“激励”维度。正如Gašević和Yan（2026[25]）所指出的，可比表现并不意味着教学可互换性。日益增长的人工智能反馈学生感知研究文献发现，学生认为人类反馈更可信、更有意义，这使其更有可能影响他们的动机、评价判断和信任——这些都是GenAI系统难以

因此，专家共识指向反馈的混合方法。GenAI和人类导师之间表现的差异创造了新的机会，能够互补并增强教师的反馈供给效能。一方面，GenAI可以针对学生作业生成初步反馈，为教师打磨、优化自身反馈内容提供参考依据；另一方面，依托成熟的高质量反馈研究成果，GenAI可对现有反馈内容的质量进行专业评估。针对数字平台完成的学习任务，GenAI还能够捕捉并输出教师通常无法获取的学习过程性反馈，填补传统反馈的盲区。归根结底，人类教师的审核、校准与完善，是保障AI反馈具备可信度、真正落地赋能学生学习的核心关键。

关于GenAI对教学和学习影响的初步收获

总体而言，通用GenAI工具的应用存在固有风险，若学生借助工具规避学习任务本身所需的认知投入，将完全背离教育任务的设计初衷。但从学习科学视角来看，学习者的成长往往需要“支架式支持”——即一种可随着学习者能力熟练度提升而逐步撤除的辅助支撑。当GenAI工具以合规的教学方式应用于课堂时，可有效承担学习支架的功能（Strauß and Rummel, 2026[33]）。这也充分凸显了培育教师AI教学应用能力的重要性，教师需具备将GenAI合理融入教学设计与作业布置的专业素养。

诸多实证研究证实，规范使用通用GenAI工具能够助力学生培育GenAI素养。当前，全球各国已陆续出台相关战略政策推进该项素养教育，经济合作与发展组织（OECD）、欧盟委员会也联合发布人工智能素养框架，为各国教育实践提供指导支撑（European Commission and OECD, 2025[49]）。

即便教师未主动将GenAI纳入教学体系，学生依旧可能自主使用各类GenAI工具，倒逼教师重构教学模式与作业体系，确保教学活动即便在学生自主使用GenAI工具的场景下，仍能产生正向学习成效。目前，学界关于此类教学改革的系统性研究仍较为匮乏，但少量前沿研究已形成有效参考。Kosar等人（2024[50]）针对计算机科学课程开展教学重构实践，核心改革举措包含三项：一是优化作业设计，规避GenAI聊天机器人直接作答的可能性；二是依托课堂实验时段，组织学生对编写代码进行口头答辩，通过设问考察学生核心知识理解程度；三是将期中考试调整为聚焦概念认知的闭卷笔试。实践结果显示，在该教学模式下，是否使用GenAI工具的学生群体，最终学习成果无显著差异。未来，学界需系统梳理全球各类GenAI教学重构实践，推动优质教学经验的共享与普及。

专栏1.1 各国如何支持GenAI素养？

当前多数国家将学生GenAI素养纳入人工智能素养整体框架，归属于数字能力、综合通用技能的核心范畴。教育体系普遍不单独开设GenAI专项课程，而是采用融合式培育模式，将GenAI素养培育贯穿各学段、各学科教学，部分国家则针对性嵌入重点学科教学体系。从跨国对比视角来看，全球人工智能素养教育的核心重心已从单纯的工具使用、提示词编写，逐步延伸至生成式模型的局限性与风险认知层面。

比利时（佛兰芒社区）将人工智能学习目标纳入基础教育培养体系，重点培育学生的提示词编写能力与数字信息批判性评估能力。捷克将生成式人工智能知识纳入各学科必修数字能力模块，并配套完善的方法论指导材料，保障教学落地。法国依托Pix公共教育平台搭建专项培育体系，设置提示词设计、系统运行原理、数据安全等模块化课程，夯实学生GenAI素养。美国亚利桑那州出台专项发展路线图，精准对接各州学术课程标准，将生成式人工智能素养目标深度融入各学科课程，杜绝碎片化、附加式教学。

部分国家聚焦计算机科学领域，重点落地GenAI素养教学。立陶宛将生成式人工智能应用知识纳入高中信息学核心课程。爱尔兰规划分层培育体系，自2026年起，在初中数字媒体与素养短期课程中普及GenAI基础内容，同时将相关主题纳入高中选修计算机科学课程。

2025年欧洲学校网络调查数据显示，20个受访欧洲国家中，有19个国家将教师GenAI素养提升列为教育发展优先任务（European Schoolnet, 2025[51]）。教师GenAI素养核心包含两大维度：一是教学应用能力，即借助GenAI完成教学筹备、课堂实施等工作；二是技术认知能力，即对GenAI技术原理、优势与风险的高层次认知。

综上，GenAI可有效优化学生作业的形成性评估与反馈质量，但其核心价值是辅助人类教师开展教学工作，而非完全替代人工反馈。师生互动、人际联结是教育教学的核心内核，即便AI反馈在内容质量上趋近人类反馈，其可信度、激励性与情感温度仍无法等同。

当前学界研究多聚焦通用GenAI工具，未来需重点针对教育专用GenAI工具的应用成效开展深入探索。教育专用GenAI工具的育人潜力更为突出，但其落地应用必须以实证成效为底线，需充分验证其对学生学习成果提升、教师教学能力优化的实际价值，方可大规模推广。

第六节：教育GenAI工具是什么样的？

通用GenAI工具在明确的教学目标指引下，能够辅助开展教育教学活动，但现有实证证据表明，相较于通用工具，专为教育场景研发的专用GenAI工具，对优化教师教学模式、提升学生学习成效的赋能效果更为显著。基于此，本节重点探讨核心问题：标准化、专业化的教育GenAI工具具备哪些核心特征与功能？

从基础准则来看，合格的教育GenAI工具必须满足通用合规要求：生成内容安全适龄、严格保护用户隐私与数据安全、具备可解释性与运行透明度，同时最大限度规避算法偏见（OECD, 2023[52]; OECD, 2023[53]）。在合规基础之上，教育GenAI工具需具备核心育人属性，能够切实助力教师提升教学效率、帮助学生夯实知识、弥补学业差距。本报告结合各类原型工具与落地实践案例，系统阐释教育GenAI工具的核心形态与应用价值。

GenAI导师如何支持个性化学习？

适应性学习系统是当前教育领域应用最广泛的数字化教学工具，也是人工智能个性化教学理念的核心落地载体。该类系统的核心运行逻辑为：先精准测评学生的知识储备、技能水平与认知误区，据此诊断适配学生能力的习题类型，再根据学生实时答题表现动态调整题目难度梯度（OECD, 2021[1]）。大量干预研究证实，传统适应性学习系统能够有效助力学生学业提升，智能辅导系统可通过精准反馈引导学生纠错精进，而非简单判定答案对错。但传统基于固定规则的AI导师存在明显短板，无法适配学生突发的、非常规的提问与输入，极大限制了辅导互动的丰富度与灵活性。以大语言模型（LLM）为核心的GenAI技术，有效突破了这一局限，构建出更具趣味性、多元化的智能辅导体系。

多项针对传统智能导师与大语言模型新型智能辅导系统的对比研究（Hu, Xu and Graesser, 2025[54]），清晰勾勒出GenAI教学代理的应用愿景。Li和Hu（2026[32]）的研究表明，大语言模型具备生成流畅、情境化对话的核心能力，能够动态适配学生学情画像、跨学科开展辅导工作，为智能辅导系统升级迭代提供全新可能。相较于传统工具，GenAI导师的辅导模式更为灵活，可实时响应学生的新奇问题、复杂场景，通过类人化的专业解读、针对性的追问引导、多轮次深度对话，为学生搭建完整的思维支架。同时，结合检索增强生成（RAG）、模型微调等技术，GenAI导师可实时整合最新知识内容，保障辅导内容的时效性与专业性。

GenAI导师落地应用的核心挑战，在于保障其互动模式符合教育教学规律，达到成熟非生成式智能辅导系统的教学专业性。依托对话记忆、专属记忆模块等功能，GenAI导师可动态迭代学生学情画像，实时调整辅导难度、复盘学生过往认知误区，始终为学生维持适配的挑战难度，契合学习科学核心规律。同时，GenAI导师可灵活切换多元教学角色，适配不同教学场景需求：作为专属导师，提供精准的学业知识指导；作为成长教练，为学生提供学习动机与心态支撑；作为学习同伴，以轻量化、非正式的互动模式开展同伴式辅导。当前学界正持续探索其陪伴育人功能，助力学生全学科、全方位成长。

GenAI导师核心依托苏格拉底式提问法开展支架式教学，通过层层递进的结构化问题，引导学生自主推导、建构知识体系，而非直接灌输标准答案。该教学模式深度契合维果茨基的“支架式教学”与“最近发展区”理论，即依托适度超纲的学习支撑，助力学生突破能力边界，且随着学生能力提升逐步撤除辅助支撑（Vygotsky, 1978[55]）。GenAI导师是苏格拉底式教学的优质载体，可生成多层次、多维度的追问内容，且能根据学生作答实时调整提问方式与难度，实现精准化引导。Li和Hu（2026[32]）以“苏格拉底互动平台”为案例，系统阐释了GenAI导师的应用潜力与底层技术支撑逻辑。

GenAI如何支持协作学习？

优质的协作学习成效，必须依托科学的教学设计原则。Strauß和Rummel（2026[33]）的研究指出，通用GenAI系统无法自发支撑高效的小组协作学习，如同单纯具备知识储备的个体，无法天然推动团队协作落地。想要发挥GenAI的协作赋能价值，需依托精准的功能定位，针对性干预小组互动环节。学界明确了GenAI在协作学习中的六大核心角色：第一，作为小组专属信息库，提供专业知识支撑；第二，作为数据监测终端，采集小组协作过程、互动状态与学习成果数据；第三，作为反思辅助工具，生成对比案例等拓展材料，助力小组复盘总结；第四，作为外部促进者，平衡组员参与度，调动全员积极参与；第五，作为对话研讨伙伴，以苏格拉底式提问推动小组深度探究、夯实学科知识；第六，作为专项组员，为小组提供特定领域的专业支撑。

通过多元角色的灵活切换，GenAI可全方位赋能小组协作学习：在认知层面，输出专业知识、弥补团队认知短板；在社交层面，监督组员平等参与，保障全员发声；在元认知层面，引导学生复盘协作过程，主动优化协作模式与学习方法。

现有少量针对GenAI协作学习的实证研究显示，其能够产生中小程度的正向育人成效，但核心前提不容忽视：GenAI仅为工具载体，无法自主主导协作学习过程，教学研究者与一线教师才是协作模式的核心设计者与主导者。GenAI的各类协作赋能角色，均需要从业者依托计算机辅助协作学习的成熟研究成果，通过工具配置、模型微调予以实现，通用大语言模型无法自发适配协作学习场景。尽管如此，GenAI技术的兴起仍为计算机辅助协作学习开辟了全新路径，只要贴合成熟的教学理论与实践经验，便可持续释放育人价值。

GenAI如何支持教师并保持他们的主体性？

如前文所述，当前已有大量教师借助通用GenAI工具完成教案撰写、学习资源开发等工作，有效提升了教学工作效率。相关实证研究进一步验证了其生产力赋能价值：一项针对英格兰68所中学259名教师的随机对照试验显示，接受GenAI专业应用指导的教师，课程与资源筹备时间平均缩减31%，周均备课时长从81.5分钟降至56.2分钟，且备课质量、资源专业性未出现任何下降（Roy et al., 2024[56]）。

但教师使用GenAI同样面临“认知卸载”“元认知惰性”等风险。教育系统与教师群体需明确GenAI的适用场景、使用边界与应用尺度，若过度依赖工具、将大量教学辅助任务全权交由GenAI完成，将阻碍教师自身专业能力迭代，同时弱化师生互动联结。已有研究证实，学生更偏好接收人类教师的反馈，即便部分学生认可GenAI反馈的内容质量，仍更信任人类教师的专业指导（Gašević and Yan, 2026[25]; Cukurova, 2026[34]）。基于此，核心研究问题应运而生：如何通过优化教育GenAI工具设计，在提升教学效率的同时，坚守教师的教学主体性与专业自主性？

Cukurova（2026[34]）构建了人机交互理论框架，将GenAI与教师的协作模式划分为三类。一是替代模式（全自动化模式），即AI工具独立承接教师的单项或多项教学任务，该模式可节省教师工作时间、提升基础生产力，但易导致教师专业能力停滞、教学自主性弱化，同时消解教育的人文属性，因此教学任务的自动化取舍需要审慎考量。二是互补模式，即AI工具放大教师教学优势、辅助完成基础工作，教师全程掌握教学主导权，该模式可高效提升工作效率，但无法实现教师专业能力的迭代升级。三是增强模式，即人机双向互动、相互校验、彼此完善，教师与AI针对教学方案、教学设计开展双向评估与优化，最终形成优于单一主体的教学成果，实现人机协同成长、共同精进。

Cukurova（2026[34]）通过多类实践案例证实，增强式人机交互模式为教师专业发展提供了全新可能。Reza等人（2024[57]）联合10名数学教师开展工具研发，打造适配适应性学习平台的GenAI内容开发工具。教师可通过提示词调试，实时观测参数微调对学生反馈效果的影响，实现教学内容的快速迭代优化。该工具将教师内容开发工作量缩减50%，将原本数月的开发周期压缩至数小时，赋能成效显著。但当前GenAI的交互赋能仍存在短板，具备教学决策纠错、教学假设质疑、基于教育理论输出优化方案的高阶AI工具仍处于研发阶段，亟需依托教学认知建模、人机交互界面设计的技术突破，完善工具功能。

教育GenAI工具的研发设计理念，直接决定其育人价值与应用边界。Topali、Ortega-Arranz和Molenaar（2026[15]）系统阐释了面向教师的人本化GenAI工具设计流程，核心核心为全流程用户参与：在研发初期全面调研师生使用需求、功能诉求，在原型开发、迭代优化的全阶段引入师生参与评审。该设计模式不仅能保障工具功能贴合教学实际，更能充分尊重师生在工具使用、教学实践中的主体地位。

基于人本化理念研发的原型工具，支持教师实时监控师生AI互动全过程，可自主设定GenAI的运行规则与应答模式。例如，教师可根据学生批判性思维培育需求，自主调整工具“幻觉概率”，适配不同学段、不同学情的培育目标。对学生而言，工具仅呈现通用AI聊天机器人的交互形态，操作便捷、适配日常学习。教师普遍认可该工具在挖掘学生学情、推送个性化反馈方面的优势，能够有效丰富教学洞察、优化分层教学，同时全程掌握教学主导权。但部分教师也提出顾虑，工具的精细化设置与管控，可能增加教学操作复杂度、额外消耗工作精力。这也印证了优质AI教学融合的核心要求：必须坚守教师主导原则，由教师定义教学模式、设定工具运行参数、承担教育解释责任，让GenAI始终在教师划定的框架内发挥辅助作用。

当前已有多款合规的教育GenAI工具落地高等教育场景，全面赋能教师、助教与学生的教学学习活动。Baker等人（2026[35]）立足捷克、印度的教育实践，以美国研发的智能助教工具JeepyTA为典型案例，系统阐释其多元应用功能：一是解答课程报名、时间节点、考核要求等后勤咨询问题；二是依托教师预设的教学目标与评分标准，为学生论文提供精准反馈；三是响应学生课程阅读、课堂学习的疑问与反思，补充解读内容、引导深度思考、串联课程知识点；四是针对非编程核心课程，提供代码调试辅助；五是生成课堂讨论话题、汇总论坛互动内容，按需向师生展示复盘信息；六是辅助学生开展论文选题、头脑风暴，全方位支撑课程学习。

为坚守教师教学自主性、实现工具可控化应用，JeepyTA设置了灵活的权限管控机制。授课教师或助教可自主设置回复模式，选择AI自动推送反馈或人工审核后发布，有效规避AI错误信息、误导性内容影响学生，尤其适配知识库信息偏差较多的学科领域。针对AI生成内容，工作人员可分层处理：不准确内容直接舍弃、人工重新作答；内容合规但有待完善的内容，优化修订后发布；优质合规内容可直接推送。多层级的人工审核机制，让工具既能快速响应师生需求，又能保障输出内容的准确性、适配性与教学契合度。

现阶段JeepyTA的成效研究仍在持续推进，但现有数据已证实其显著的赋能价值：工具将学生咨询响应中位时长从7小时压缩至2小时，在保留人工监督的前提下大幅提升服务效率、优化学生学习体验。学生测评结果显示，JeepyTA在回复清晰度、内容准确性、专业性层面可媲美人工助教，仅在学习激励、高阶思维指导方面存在短板。在论文反馈场景中，该工具依托精细化提示词设计与教师目标适配，将课程优秀论文占比从64%提升至95%，显著优化了学生作业修改质量。同时，工具应用的潜在风险也不容忽视，包括头脑风暴环节的思维同质化、学生工具依赖、机构弱化人工教学的潜在倾向等。

综合各类实证案例可得出结论：在坚守人工监督、师生主体地位的核心前提下，教育GenAI工具能够有效放大教师教学效能、优化教学质量、提升工作生产力，实现技术与教育的良性融合。

第七节：GenAI如何提升教育系统和机构的效能？

GenAI工具的教育赋能价值，不仅体现在直接优化教与学的核心环节，还能够助力教育机构、教育系统简化工作流程、提升整体运营效能，间接完善教育生态。本节从三大维度切入，系统阐释GenAI的系统化赋能作用：一是优化高等教育机构后台运营流程，涵盖学位认证、课程体系设计、学业咨询指导等环节（Pardos and Borchers, 2026[58]）；二是革新标准化测评体系的研发与落地模式（von Davier, 2026[59]）；三是拓展教育科研的创新路径与研究边界（Guellec and Vincent-Lancrin, 2026[23]）。

GenAI如何支持更有效的机构内部和跨机构路径？

高等教育发展的核心痛点之一，是不同院校、不同学科的课程体系难以高效衔接，国内外院校间的学分、学位等值认定流程繁琐、效率低下。而学分互认、学位等值认定是保障学生跨校、跨学科流动、避免教育资源浪费的核心基础。当前，各国主要通过国家学位框架、通用学分体系、院校合作协议、交换项目等方式，简化学生跨机构学习路径。但在实际落地过程中，课程审核、学分判定、等值认证等工作仍高度依赖人工完成，需要教师、招生人员逐一审核课程大纲、对比培养方案，耗时费力且标准不统一。优化此类流程，既能提升教育系统整体运行效率，也能为学生提供灵活多元的学习路径，有效提升学业完成率与学位获取率，该问题同样适用于中等教育多轨道、多课程选择的办学场景。

Pardos和Borchers（2026[58]）的研究表明，GenAI底层技术可通过解析课程文本信息、学生选课数据，精准挖掘院校内部、跨院校之间的课程关联，为学分等值认定提供数据支撑。AI模型可精准识别院校内相似课程、衔接课程，同时精准匹配跨校可置换课程与培养方案，其等值判定结果可趋近人工专业判定，甚至挖掘人工忽略的等值可能性。该技术的落地效果，核心取决于判定结果的可视化呈现方式与行业信任度。同时，模型可基于学生学情与发展目标，为学生推荐适配的院校、专业与学习路径，辅助学业规划。

与此同时，GenAI正在重塑学业咨询工作模式。在教育系统与高等院校中，学业顾问主要负责为学生提供选课、职业规划等专业指导。Lekan和Pardos（2025[60]）研发的GPT智能模型，可前置收集大一学生的课程偏好、职业发展诉求，自动生成个性化学业规划建议与适配理由，供顾问在面对面咨询前审核参考。实践结果显示，学业顾问对AI生成建议的认可度较高，33%的AI规划建议可被完全采纳，在保障顾问专业自主性、维系师生沟通关系的前提下，大幅减轻了咨询工作压力、提升服务效率。

该技术可延伸应用于教育资源管理领域，依托动态更新的分类标准，自动完成开放教育资源、适应性学习内容的标签标注，提升教育资源的检索效率与适配度，保障各类资源精准对接本土课程教学需求。

GenAI如何支持标准化评估的开发？

当前GenAI已广泛应用于标准化测评的研发、落地与优化全流程，包含高风险正式测评场景。Pardos和Borchers（2026[58]）、von Davier（2026[59]）的研究指出，大语言模型可依托现有课程标准、教学材料，自动化生成选择题、简答题等各类测评题目，尤其适配专家初步搭建测评框架后的精细化开发工作。Bhandari等人（2026[61]）的实证研究发现，ChatGPT生成的代数试题，心理测量指标与人工命题高度持平，且在区分不同能力层级学生的表现上略优于人工试题。这证实，在规范管控的前提下，GenAI可生成高质量测评内容，既能大幅降低命题成本、提升测评研发效率，也能有效解决传统题库题目曝光率过高、适配性下降的行业痛点。但现阶段GenAI仍存在幻觉问题，所有AI生成试题均需工作人员逐一审核校验，方可投入正式使用。

GenAI同时为标准化测评创新提供全新可能。von Davier（2026[59]）以多邻国英语测试为例，阐释了GenAI赋能的新型测评模式，打造了两类传统技术无法实现的测评题型。一是交互式写作测评，AI机器人可在考生写作过程中实时提供修改建议、拓展写作思路，实现过程性测评；二是口语自动化测评，依托GenAI对话技术，在自然口语交互过程中，实时评估考生口语表达能力。在高风险测评场景中，GenAI仅为整体测评架构的核心模块之一，需结合其他AI工具与人工审核，保障测评结果的精准公正。

此外，GenAI模型可用于标准化试题的质量评估与参数校准。Liu等人（2025[62]）提出多智能体AI测评模式，通过整合多类大语言模型构建“模拟考生”体系，生成与真实学生心理测量特征高度契合的作答数据。通过在少量真实学生数据基础上，补充AI模拟作答数据，可有效完善测评样本、降低研发成本、加速试题验证迭代进程，为标准化测评优化提供全新路径。

GenAI如何加强教育研究？

GenAI已全面渗透科研领域，广泛应用于论文撰写、文献梳理、数据分析、假设生成、实验落地等科研全流程。Guellec和Vincent-Lancrin（2026[23]）结合自然科学科研实践，系统阐释了GenAI的科研赋能价值，其典型成果包括完成2亿种蛋白质三维结构解析等重大科研突破。但GenAI科研应用仍高度依赖人工监督，同时存在降低科研原创性、加剧科研产出过载等潜在风险。

高质量的教育发展，必须依托扎实的教育科研与实证证据支撑。尽管目前学界尚未系统梳理GenAI在教育科研中的应用现状，但教育研究者已普遍借助GenAI开展论文撰写、文本编辑、文献综述等基础科研工作。在此基础上，三大核心应用场景极具发展潜力。第一，隐私安全化数据分析。教育系统沉淀了海量行政与学情数据，但受隐私保护法规限制，大量数据无法深度挖掘利用。GenAI可生成隐私安全的合成数据集，完整复刻原始数据的统计特征，同时实现零隐私泄露风险，激活数据科研价值。第二，模拟数据补充。针对调研回收率低、真实样本不足的研究场景，可在合规前提下，依托AI模拟数据补充样本短板，完善研究数据体系。第三，多智能体科研模型应用。GenAI驱动的多代理人工智能模型，为跨学科教育研究提供全新工具，可解决传统研究难以覆盖的复杂科研问题，拓宽教育研究边界。

第八节：结论

现有新兴实证证据表明，GenAI技术具备全方位提升教育质量与育人效能的巨大潜力，同时也会给学生学习成长、教师专业发展带来全新风险与挑战。相较于传统非生成式人工智能，GenAI的教育颠覆性更强，核心原因在于通用GenAI工具的全民可及性——学生可自主在校外使用各类GenAI工具完成学业任务，即便学校未主动引入AI教学工具，校外工具的普及也会彻底颠覆传统教育模式与学习逻辑，倒逼所有教育利益相关方主动探索GenAI的教育适配路径。

当前全球多数国家已将GenAI素养纳入课程培育体系，作为学生数字素养的核心模块。培育学生GenAI素养的核心目标，是适配未来职场与社会发展需求，让学生具备AI时代的核心生存与发展能力。在编程等重点领域，学生的职场竞争力直接取决于GenAI工具的规范应用能力，而学科核心原理、基础逻辑的掌握仍是根本前提。同时，人工智能生成内容将全面渗透数字生活，全民都需建立对GenAI运行逻辑、优势短板、应用边界的基础认知。

推理能力、批判性思维、创新能力、共情能力、求知欲与判断力等核心综合素养，依旧是青少年教育的核心重点，此类素养的培育无需完全依托技术，但GenAI可作为优质工具，助力师生高效达成培育目标。现有证据证实，贴合教育规律、适配教学理论的教育专用GenAI工具，可显著优化学习成效；同时，教师依托成熟教学策略、规范应用通用GenAI工具，同样能够实现优质育人效果。简言之，只要工具合规、应用场景精准、教学目标清晰，GenAI便可适配教育全流程、发挥正向赋能作用。

GenAI工具可全面赋能教师、助教、学业顾问等各类教育从业者，大幅提升工作生产力，在保障工作质量的前提下缩减重复性工作时长。但与学生群体一致，教育从业者使用GenAI也面临认知卸载、能力退化的风险。当前教育GenAI的研发与研究，核心聚焦如何在赋能增效的同时，坚守用户自主性、保障专业能力持续发展、明确人类对教学成果的最终责任。主流优化路径包含两类：一是依托人本化设计理念，联动终端用户共同参与工具研发迭代；二是赋予教育从业者自主调控权限，可根据本土教学场景、育人目标灵活适配工具功能。

以作业形成性反馈为例，该项工作是教师核心且耗时的教学任务，也是GenAI赋能的典型场景。研究表明，GenAI生成反馈的稳定性、一致性略低于传统非生成式AI反馈，但综合优劣来看，其整体质量可媲美甚至超越人工反馈。但学界共识始终统一：学生对人类反馈的认可度、信任度与接受度更高，人工反馈的情感价值、激励作用与育人温度无法被替代。因此，最优发展路径为：以GenAI辅助、补充教师反馈工作，由教师全程审核、校准、兜底，承担最终教学责任，实现人机协同的优质反馈体系。

目前，关于教育GenAI工具的有效性对比、通用GenAI工具的课堂融合模式研究仍处于起步阶段，实证体系尚未完善。各国陆续启动的AI教育试点项目（专栏1.2），将持续输出优质实践经验，凸显了国际合作、教育科研深耕对GenAI教育落地的重要价值。

整体来看，当前GenAI教育应用的实证研究体量有限，且现有成果多基于短期干预实验，缺乏长期、持续、常态化的应用研究支撑，未来需加大科研投入、深化国际合作，完善实证体系。

结合GenAI的教育应用规律与实证成果，其合规落地、高效赋能的核心要点如下：

依托GenAI完成教育任务，不必然产生学习成效，工具应用需服务于学习本质；
扎实掌握各学科基础知识、核心技能，具备无工具辅助的独立学习与答题能力，是AI时代教育的核心基础，不可替代；
通用或教育专用GenAI工具，均需在教师的专业化教学设计下使用，精准对标特定育人目标；
教师及各类教育从业者需持续坚守专业判断，主动审核、优化、核验AI生成内容，对教学成果与育人质量全权负责；
GenAI研发人员需依托成熟的教育研究与教学理论开展工具开发，联动教师、学生、家长、教育工会等多方利益相关者参与设计迭代；
深化GenAI教学应用的国际科研合作，精准界定工具的教学应用场景，系统评估其对师生学习发展、心理健康的影响，最大化释放技术育人价值。

专栏1.2 各国如何支持GenAI工具在教育中的采用？

除出台专项战略、指导规范（详见附件1.A.1）外，各国纷纷启动创新试点项目，推动GenAI技术落地校园教学场景。目前GenAI的课堂常态化应用数据仍较为有限，但业内专家普遍认为，试点项目是当前AI教育落地的核心路径。各国通过试点探索GenAI的多元教学用途、验证工具育人价值、排查应用风险、积累落地经验，为规模化推广奠定基础。

此类试点项目多采用协同推进模式，涵盖区域联动、国家统筹、国际合作、政企合作等多种形式，主要分为两大类型：一是聚焦教育专用GenAI工具的针对性研发；二是依托现有工具开展课堂教学实践优化。

在工具落地应用层面，多国已形成成熟实践。韩国将GenAI智能辅导工具纳入官方数字教育资源，面向全校师生开放，工具对标国家课程标准，可实现多学科自适应练习、学情误区诊断、个性化反馈、交互式答疑等功能，同时为教师推送精准学情数据，支撑分层教学。

爱沙尼亚启动2025-2026年度“AI飞跃计划”，以系统化模式推进高中AI教育落地，统筹基础设施建设、课程迭代、教师培训、校企合作四大板块。项目已面向全体教师开放通用GenAI工具，同时为高中生免费提供适配教育场景、遵循教学规律、支持本土语言交互的专用大语言模型聊天工具。

希腊依托“希腊OpenAI合作计划”（2025年启动），在普通高中试点落地ChatGPT教育版工具，配套开展教师专项培训，持续监测AI教学应用的育人成效与潜在问题。

其余各国聚焦细分场景开展试点优化。斯洛伐克试点AI教学助理工具，辅助教师完成课程设计、学业测评工作；芬兰重点测试GenAI工具在教师赋能、教学反馈优化中的应用价值；日本、加拿大、澳大利亚等国家开展地方级试点，聚焦写作辅助、反馈生成、教师减负等场景；法国研发国家级教育主权AI系统，一方面辅助教师完成课程规划，另一方面搭建通用咨询聊天机器人，为130万名教师提供人事、行政问题解答，让人工资源聚焦个性化、复杂化的教育工作。

在教育GenAI工具研发层面，英美两国的实践极具参考价值。

英国（英格兰）教育部搭建“教育内容资源库”，整合官方课程标准、优质教案、匿名学生测评数据，为教育GenAI模型训练提供合规、高质量、本土化的数据支撑，研发适配本土中小学教学体系的专用AI工具。同时，官方出台AI工具安全应用规范，明确研发标准与落地要求，大幅提升工具的校园适配度与推广可行性。

荷兰依托国家人工智能实验室（NOLAI），构建政府、高校、科技企业、中小学四方协同的研发机制，联合设计、迭代适配本土教育体系的GenAI工具及各类人工智能教育产品，实现技术研发与教学实践的深度绑定（Molenaar and Sleegers, 2023[63]; Topali, Ortega-Arranz and Molenaar, 2026[15]）。

注释

1. OECD关于人工智能（AI）的建议将AI定义如下：”人工智能系统是一种基于机器的系统，为了明确的或隐含的目标，从其接收的输入中推断出如何生成输出，如预测、内容、推荐或决策，这些输出可以影响物理或虚拟环境。不同的人工智能系统在部署后的自主性和适应性水平上有所不同。”（OECD-LEGAL-0449）。

2. 对比学生群体与全民群体的AI使用数据可印证上述结论：2023年法国高等教育学生GenAI工具使用率约为55%，而2023年法国全民使用率仅为23%，2024年升至32%（Ifop, 2024[74]）。

参考文献（略）

附录 1.A：各国生成式人工智能教育战略和框架示例

自 2022 年末生成式人工智能（GenAI）工具正式面向公众发布以来，经合组织（OECD）各成员国纷纷对原有人工智能总体战略进行拓展、更新，部分国家还出台了专门针对生成式人工智能的全新政策文件。综合各国政策动向，相关举措主要围绕三大方向推进：制定并更新长期发展战略、配套落地实操规范与保障措施；出台专项方案，应对 GenAI 带来的各类挑战；推进课程融合、师生数字素养与专业能力建设。其中课程整合、素养培育相关案例详见专栏 1.1、专栏 1.2，本附件重点梳理各国出台的战略文件与实操指南。

多数 OECD 国家原本就已布局国家级人工智能、数字教育相关战略。2023 年起，大量国家对原有框架进行修订，或是专门出台面向教育领域的生成式人工智能专项文件（OECD, 2023 [52]；Boeskens and Meyer, 2025 [75]）。

目前各国最主流的政策举措，是制定国家或区域层面的统一使用指南。这类文件普遍聚焦伦理规范、合规使用、学术诚信、数据保护，同时明确师生在使用 GenAI 过程中的权责边界。

在 2025 年一项欧洲范围调查中，23 个受访国家反馈如下：比利时法语区、克罗地亚、捷克、芬兰、法国、匈牙利、爱尔兰、意大利、挪威、土耳其这 10 个 OECD 及伙伴国，已将生成式人工智能正式纳入现有或规划中的国家教育战略；希腊、拉脱维亚、立陶宛、卢森堡、荷兰、葡萄牙、斯洛伐克、斯洛文尼亚、瑞士共 9 个国家，正在编制或计划推出教育领域 GenAI 使用相关政策（European Schoolnet, 2025 [51]）。

报告同时指出，欧盟各国的人工智能相关政策正逐步与《欧盟人工智能法案》接轨，尽管该法案在教育领域的具体影响仍在评估阶段。各国并未出台 “一刀切” 的全面禁令，而是采取针对性管控模式：部分国家针对测评等特定场景、特定工具作出限制，也有国家依托校园设备管理规则间接管控 GenAI 访问权限。整体来看，各国指南均倡导依靠教育者专业判断合规使用技术，而非简单禁止（European Schoolnet, 2025 [51]）。

一、专项 GenAI 战略与实操指南

澳大利亚

《学校生成式人工智能框架》确立六大核心原则，涵盖多元视角、非歧视、隐私数据保护、人工监督等内容，同时针对文本、图像类生成工具在课堂中的应用作出明确规范，区别于该国早期人工智能相关政策。

日本

日本政府发布校园生成式人工智能使用指南，明确禁止向大语言模型（LLM）录入个人及敏感信息，提前预判模型数据复用、二次训练带来的各类风险。

英国（威尔士）

发布《教育中的生成式人工智能：机遇与考量》，聚焦 GenAI 本身的应用规范，并配套专项指引，防范深度伪造、合成媒体等 AI 衍生风险。

二、纳入通用 AI 战略的相关举措

芬兰

芬兰国家教育机构发布《教育人工智能使用建议》，内容包含 GenAI 相关实操规范与政策解读。

立陶宛

拟定《校园人工智能安全实施建议》，规划国家级合规 AI 工具清单，并配套教师能力建设框架。

法国

2025 年出台《教育人工智能操作框架》，明确校园内 GenAI 的使用条件，划定数据保护、信息透明度、教学责任等相关要求。

意大利

2025 年发布《教育机构人工智能应用指南》，以安全使用、理性采纳为核心，指导 AI 技术融入教学与校园管理流程。

爱尔兰

2025 年推出《校园人工智能指南》，并同步更新 2024 版国家人工智能战略，明确教育场景下 GenAI 的合规使用原则。

拉脱维亚

《中小学人工智能使用指南》正式将生成式工具纳入管理范围，并着重强调批判性思维的培养。

卢森堡

以 “AI 指南针（KI Kompass）” 作为国家级参考框架，统筹战略规划、教学实践与行业交流。

荷兰

2024 年发布《生成式人工智能发展愿景》，2025 年推出《荷兰数字化战略 —— 共同加速》跨部门规划；教育领域专项规范由 Kennisnet 机构制定《教育与校园生成式人工智能使用协议》。

挪威

《学前教育与学校数字能力和基础设施战略》纳入 GenAI 相关内容，并配套国家级使用指南与能力培养方案。

斯洛伐克

《人工智能教育融合战略规划》设置两大专项方向：研发面向教师的人工智能辅助工具、打造个性化学习应用。

西班牙

2024 年发布《教育人工智能使用指南》，覆盖 GenAI 及其他各类 AI 工具，同时设置违规工具拦截机制。

土耳其

《2025-2029 年教育人工智能政策与行动计划》，全面规范 GenAI 的使用范围、访问权限、伦理准则与能力建设工作。

美国

联邦层面于 2025 年签署人工智能教育相关行政命令，成立白宫人工智能教育工作组，统筹全美中小学、高等教育的 AI 融合工作。政策鼓励人工智能全面融入课程体系、开展教师系统化培训，并设立年度人工智能创新赛事；同时推动公私合作，开发聚焦基础 AI 素养与批判性思维的线上学习资源。

三、国际组织发布的通用指南

欧盟委员会

除人工智能素养相关工作外，欧盟委员会于 2022 年先后发布《教育与研究领域人工智能及数据使用专家指南》、《教学学习人工智能伦理指南》，相关文件将结合 GenAI 发展现状，于 2026 年完成修订。

联合国教科文组织（UNESCO）

2024—2025 年先后出台多项文件：包括《教育与研究领域生成式人工智能指南（2025）》，以及面向教育从业者的《教师人工智能能力框架（2024）》。

联合国儿童基金会（UNICEF）

2025 年 12 月更新人工智能相关指导文件，针对 GenAI 快速发展、AI 生成不良内容等新问题作出回应，文件提出十大原则，保障人工智能安全应用、守护儿童权益与身心健康。

经合组织 & 教育国际

2023 年，经合组织联合国际教师工会联合会 “教育国际” 发布联合文件《人工智能在教育领域：机遇、指南与保障 —— 高效且公平的应用》，文件涵盖全品类人工智能（含生成式人工智能），为各国教育主管部门与教师工会提供交流参考依据。

第一章：探索生成式人工智能在教育中的有效应用：概述

目录

教育中的生成式人工智能

第一节：什么是生成式人工智能？

第二节：GenAI的总体采用情况如何？

第三节：学生如何使用GenAI？

第四节：教师如何使用GenAI？

第五节：GenAI何时能改善学习成果？

第六节：教育GenAI工具是什么样的？

第七节：GenAI如何提升教育系统和机构的效能？

第八节：结论

参考文献（略）

附录 1.A：各国生成式人工智能教育战略和框架示例

发送评论编辑评论

第一章：探索生成式人工智能在教育中的有效应用：概述

目录

教育中的生成式人工智能

第一节：什么是生成式人工智能？

第二节：GenAI的总体采用情况如何？

第三节：学生如何使用GenAI？

第四节：教师如何使用GenAI？

第五节：GenAI何时能改善学习成果？

第六节：教育GenAI工具是什么样的？

第七节：GenAI如何提升教育系统和机构的效能？

第八节：结论

参考文献（略）

附录 1.A：各国生成式人工智能教育战略和框架示例

发送评论 编辑评论

发送评论编辑评论