随着教育数字化转型迈入“深水区”,人工智能大模型正以“通用能力+垂直深耕”的双擎之力,重塑从备课、学习、评价到管理的全教学链路。然而,面对市场上层出不穷的教育大模型,教育工作者普遍存在一个核心困惑:哪款模型真正懂教育?

为回答这一问题,近日,互联网教育智能技术及应用国家工程研究中心发布国内首份教育大模型专项评测报告,对国外代表性大模型GPT-5及国内5款主流大模型(讯飞星火X1、豆包1.6-seed-thinking、DeepSeek-V3.2-EXP、GLM4.6-thinking、Qwen3-235B-A22B,分别命名为M1至M5)从教育基础能力、场景应用、学科答题、教育安全四大维度展开全面“体检”。

评测结果证明:国产模型在教育理解、生成与交互方面整体占优,显示出对本土教育体系的深度适配。其中,讯飞星火X1(M1)在多项评测中的综合领先表现,展现了国产大模型在教育垂直领域的深厚潜力。

评测体系:四大能力维度,构建教育AI“体检表”

本次评测体系以教育基础能力为底座,延伸至教育场景应用能力、学科答题能力与教育安全能力,形成层次分明、覆盖全面的评估框架:

教育基础能力涵盖教育理解、生成、交互、问答与推理五大核心,是模型能否“读懂教学”的基础;教育场景应用能力覆盖辅助教学、学习、评价、考试、管理、育人、研修七大场景,体现模型在实际教育流程中的适用性;学科答题能力聚焦K12阶段八大学科,检验模型在具体学科知识上的掌握程度;教育安全能力则从内容安全、抗指令干扰、未成年人保护等方面筑牢防线,确保AI教育应用的合规与可靠。

AI+教育进入“深水区”:大模型能否真正赋能教与学?-黑板洞察

核心发现:国产模型表现亮眼,讯飞星火综合领先

在教育基础能力方面,国内模型整体占优。其中,在教育理解、教育生成与多轮交互等关键维度上,国产模型展现出更强的人文关怀与教学洞察力。其中,M1在结构化理解教材、精准解读教学目标、生成实用教学内容等方面表现突出,显示出对教育场景的深度适配。

相比之下,GPT-5在知识问答与逻辑推理上略胜一筹,但在教学连贯性与个性化生成方面稍显逊色。

AI+教育进入“深水区”:大模型能否真正赋能教与学?-黑板洞察

在教育场景应用方面,考试环节仍是行业短板。

七大场景中,辅助评价、管理与研修技术成熟度较高,多数模型得分接近90%;而在辅助考试环节,各模型普遍表现较弱(75%-85%),反映出高准确性、高规范性的考试场景仍是技术攻坚的难点。

AI+教育进入“深水区”:大模型能否真正赋能教与学?-黑板洞察

五个典型任务(教案生成、步骤化批改、启发式答疑、辅助出题及辅助心理健康引导)中,M1表现均衡且领先:在教案生成方面,M1以91.98分居首,其中教学方式合理性达93.49分;在辅助出题方面,M1在知识匹配、难度控制、内容正确性上均表现优异;在步骤批改方面,M1在错因定位精准度分析与步骤批改细致度中得分超95分,具备落地推广条件;在启发式答疑方面,M1在知识准确性、内容有用性与引导性上领先;在心理健康引导方面,M1与M2实力接近,均在情绪识别与内容适配方面表现突出。

AI+教育进入“深水区”:大模型能否真正赋能教与学?-黑板洞察

在学科答题能力方面,八大学科的综合评测中,M1在英语、数学、物理、历史四科中位列第一,呈现“多学科强势、无明显短板”的特点。GPT-5在英语、化学、地理方面表现优异,但在语文、生物学科上较弱,属于“偏科型强模型”。

AI+教育进入“深水区”:大模型能否真正赋能教与学?-黑板洞察

典型场景解读:AI如何赋能真实教学?

AI技术从实验室走向课堂,关键在于能否真正解决教学中的实际问题。本次评测聚焦的五大典型任务——教案生成、步骤化批改、启发式答疑、辅助出题及心理健康引导,正是教育大模型从“可用”走向“好用”的核心突破口。这些场景不仅覆盖了教学的核心环节,也直接关系到教师的“教”与学生的“学”的效率与质量提升。

教案生成任务是辅助教学的核心场景之一,能够有效提升老师的备课效率,缩短备课时间。以搭载了讯飞星火大模型X1的星火教师助手为例,它以对话式、生成式的自然交互,为教师智能生成科学系统的单元教学规划、创新引领的教学设计、贴合情境的教学课件等内容。根据科大讯飞官方数据,教师教学设计效率提升61%,课件制作效率提升64%。

而针对“步骤化批改”这一典型任务,则要从错误表象追溯至知识薄弱点或思维偏差,即从“判对错”到“找原因”,为师生提供“错在哪一步”“为何会错”的深度解析。通过评测发现,多数模型在步骤批改错因分析任务中的表现已达到较高水平,其中M1在多个维度的得分甚至超过95分,这也充分说明该模型已具备落地推广此任务的成熟条件。

AI+教育进入“深水区”:大模型能否真正赋能教与学?-黑板洞察

AI在步骤批改错因分析上的高水平也为作业数字化改革和个性化作业提供了思路。以M1为例,将其集成于智能批阅机上,基于OCR识别功能,即可进行快速扫描识别试卷,进行分步骤批改与错因定位,将极大满足在日常作业、周测、月考等多种教学场景下,师生对于快速反馈、精准诊断和减负增效的迫切需求。

辅助出题场景是辅助教学任务中最基础、最关键的场景之一,其核心价值在于打破传统“一刀切”的命题模式,通过精准对接学生的个性化学习需求,为教学过程提供科学、高效的习题与考试支持。

在大模型初步落地阶段,启发式答疑是最早进入推广试用的核心应用场景。在K12教育领域,针对低年龄段学生(如小学1-6年级),这类对话模式展现出独特价值:结合数字人技术,学生可通过与AI虚拟形象的自然交互,在轻松的沟通氛围中获得学习引导,辅助知识理解与问题解决。

辅助心理健康引导作为教育场景中“育分”与“育人”协同的关键环节,其重要性体现在对学生心理问题的“早干预、广覆盖、轻负担”,而大模型能通过技术特性填补传统心理健康引导的短板,形成独特应用价值。基于大模型研发的AI多模态筛查数字虚拟人,如科大讯飞的“AI心理伙伴”,可以融合语音、语言、表情、心率等18种信息,全面评估青少年的心理健康状态,定量分析是否存在心理危机,并通过语音、文字、视频等方式直接对青少年进行心理疏导。

启示与展望:教育大模型的未来之路

本次评测显示,国内外大模型技术已进入“技术趋同、场景分化”的发展阶段。国产模型在教育理解、生成与交互方面整体占优,尤其在教案设计、步骤批改、启发答疑等教学核心环节上表现突出,显示出对本土教育体系的深度适配。

本次评测也揭示了一个核心趋势:在教育这场关乎“人”的成长实践中,真正有价值的大模型,不仅是知识库,更是理解者、引导者与支持者。教育不需要最“强”的AI,而是最“懂教育”的AI。

国产模型如M1等在教育教学场景中的优异表现,让我们看到AI与教育深度融合的可能。随着技术迭代与教育理解的共同进化,“最懂教学的AI”正在走来——它不是要取代教师,而是成为教育生态中一名值得信赖的“AI同事”。