STEM Faculty Perspectives on Generative AI in Higher Education¶
会议: AAAI 2026
arXiv: 2603.04001
代码: 无
领域: AI教育 / 社会科学
关键词: 生成式AI, 高等教育, STEM教学, 焦点小组, 教学策略
一句话总结¶
通过对美国一所大型公立大学 29 名 STEM 教师的焦点小组研究,揭示教师如何在教学中整合 GenAI、观察到的学生学习益处与挑战,以及所需的制度支持——发现 GenAI 将教师劳动从内容创建转向专家审核,且可能掩盖学生能力不足。
研究背景与动机¶
- 领域现状:GenAI 工具在高等教育中的采用主要是学生驱动的,迫使教师被动应对。部分教师已将 GenAI 用于评分、课程设计、内容生成等,但另一些教师持谨慎态度。
- 现有痛点:(a) 学术诚信面临严峻挑战——AI生成内容难以被检测工具可靠识别;(b) 过度依赖 GenAI 可能侵蚀批判性思维和问题解决能力;(c) 现有研究对 STEM 领域教师如何集体解读和协商 GenAI 角色的洞察有限。
- 核心矛盾:GenAI 提升了作业提交率但可能掩盖了学生对核心概念的理解不足。教师面临"禁止使用会落后于时代"vs"允许使用可能损害学习"的两难。
- 本文目标:从教师视角理解 GenAI 在 STEM 高等教育中的现状、益处、挑战和所需支持。
- 切入角度:焦点小组定性研究,29 名教师 7 场会议,90 分钟/场,半结构化讨论。
- 核心发现一句话:GenAI 有效整合需要重新思考评估方式、教学法和制度治理,而非仅是技术采用。
方法详解¶
整体框架¶
定性研究设计,使用焦点小组方法。三个核心研究问题:(RQ1) 教师如何将 GenAI 整合到课程设计和学习活动中?(RQ2) 教师观察到的学生学习益处和挑战是什么?(RQ3) 支持有效 GenAI 采用需要哪些制度资源和政策?
关键发现¶
-
教师劳动的转移(RQ1)
- 发现:93% 教师使用 GenAI,最常见用途包括生成测验/评估题、创建作业场景、制作评分标准、改进作业说明、总结反馈。
- 关键洞察:GenAI 并未减少教师工作量,而是将劳动从内容创建转向专家审核——教师需要花更多时间审查、改进和验证 AI 生成内容。"效率提升是错觉"。
- 教学应用:CS 课程中让学生先用 GenAI 生成代码片段再整合;化学课中生成 Python 数据可视化代码;设计"双解任务"要求学生对比 AI 和人类解决方案。
-
学生能力假象(RQ2)
- 益处:更多学生按时提交作业,特别是 CS 课程中帮助跨越技术障碍;GenAI 充当"私人助教"提供即时帮助,对在职学生特别有利。
- 挑战:能力假象——更高的提交率但学生无法调试 AI 生成代码(因为不理解底层逻辑);过度依赖 GenAI 可能绕过批判性思维过程。
- 评估回应:部分教师回归传统评估(纸笔考试、口试),同时设计新型 AI 整合作业(要求对比和批判 AI 输出)——双策略并行。
-
制度支持需求(RQ3)
- 培训需求:(a) GenAI 基础原理工作坊(理解 LLM 机制);(b) 提示工程培训;(c) 任务特定培训(如用 AI 创建评分标准)。
- 资源需求:共享提示库、案例研究库、专门 AI 咨询团队、教学实践社区("AI Squares")。
- 政策需求:课程间一致性——学生困惑于不同课程对 GenAI 使用规则不一致。需要院系级指导方针和跨课程协调。但也警告不要过早做永久性制度改变——GenAI 对高等教育的影响仍高度不确定。
- 课程改革:建议设立面向所有学生的必修 AI 素养课程;重新思考低年级 vs 高年级课程中 GenAI 的角色差异。
研究方法¶
7 场焦点小组会议,29 名参与者(11 名 CS、4 名工程、4 名心理学等),远程 Zoom 进行。Qualtrics 人口统计问卷 + 8 个开放问题。Zoom 自动转录 + Google NotebookLM 辅助主题分析 + 人工验证。
实验关键数据¶
主要统计¶
| 维度 | 数据 |
|---|---|
| 参与者数量 | 29 名 STEM 教师 |
| 使用 GenAI 的教师比例 | 93%(27/29) |
| 使用频率分布 | 偶尔 41%、频繁 31%、很少 21%、从不 7% |
| AI 熟悉度(很/非常熟悉) | 72%(AI)、73%(GenAI) |
使用场景分布¶
| 用途 | 教师数 |
|---|---|
| 课堂讨论 | 5 |
| 评估/练习题生成 | 4 |
| 学生反馈 | 2 |
| 学生研究 | 1 |
| 自动评分 | 1 |
关键发现¶
- 劳动转移非劳动减少:教师花更少时间从零创建但花更多时间审核验证——净工作量可能未减少。
- 提交率提升但理解深度存疑:更多学生完成作业,但许多无法解释或调试 AI 生成的解决方案。
- 检测工具不可靠:教师普遍认为当前 GenAI 检测工具存在误报且无法识别复杂使用。
- "AI-proof"作业不可持续:部分教师已放弃试图设计 AI 无法完成的作业。
- 双策略评估:同时回归传统考试 + 设计批判性 AI 整合作业。
亮点与洞察¶
- "内容创建→专家审核"的劳动转移模型:精确描述了 GenAI 对教师工作的实际影响,与"AI 减少工作量"的乐观叙事形成对比。
- "能力假象"概念:高提交率掩盖低理解度——当前评估方式无法区分学生真正能力和 AI 辅助的表面能力。
- "大学级护栏 + 院系级自治"的政策框架:平衡一致性和灵活性的务实建议。
局限与展望¶
- 仅来自一所大学的 STEM 学院,29 名参与者样本量小,CS 教师占比过高(38%)。
- 缺少学生视角的对照研究。
- 焦点小组的社会期望偏差——教师可能不愿在同事面前承认过度使用 AI。
- 未涉及非 STEM 学科的差异。
相关工作与启发¶
- vs 学生视角研究:大量研究关注学生如何使用 GenAI,本文从教师视角填补空缺。
- vs 政策文件:政策文件通常提出理想框架,本文提供一线教师的实际经验和需求。
- 对于 AI 教育政策制定者有直接参考价值。
评分¶
- 新颖性: ⭐⭐⭐ 焦点小组研究方法成熟但不新颖,核心是经验洞察
- 实验充分度: ⭐⭐⭐ 29 名参与者足以做定性研究但泛化受限
- 写作质量: ⭐⭐⭐⭐ 组织清晰,发现呈现系统
- 价值: ⭐⭐⭐⭐ 对教育政策制定有直接参考价值
相关论文¶
- [AAAI 2026] Bridging the Skills Gap: A Course Model for Modern Generative AI Education
- [AAAI 2026] Higher-Order Responsibility
- [ACL 2025] Uni-Retrieval: A Multi-Style Retrieval Framework for STEM's Education
- [AAAI 2026] Beyond World Models: Rethinking Understanding in AI Models
- [AAAI 2026] Designing Incident Reporting Systems for Harms from General-Purpose AI