STEM Faculty Perspectives on Generative AI in Higher Education¶

会议: AAAI 2026
arXiv: 2603.04001
代码: 无
领域: AI教育 / 社会科学
关键词: 生成式AI, 高等教育, STEM教学, 焦点小组, 教学策略

一句话总结¶

通过对美国一所大型公立大学 29 名 STEM 教师的焦点小组研究，揭示教师如何在教学中整合 GenAI、观察到的学生学习益处与挑战，以及所需的制度支持——发现 GenAI 将教师劳动从内容创建转向专家审核，且可能掩盖学生能力不足。

研究背景与动机¶

领域现状：GenAI 工具在高等教育中的采用主要是学生驱动的，迫使教师被动应对。部分教师已将 GenAI 用于评分、课程设计、内容生成等，但另一些教师持谨慎态度。
现有痛点：(a) 学术诚信面临严峻挑战——AI生成内容难以被检测工具可靠识别；(b) 过度依赖 GenAI 可能侵蚀批判性思维和问题解决能力；(c) 现有研究对 STEM 领域教师如何集体解读和协商 GenAI 角色的洞察有限。
核心矛盾：GenAI 提升了作业提交率但可能掩盖了学生对核心概念的理解不足。教师面临"禁止使用会落后于时代"vs"允许使用可能损害学习"的两难。
本文目标：从教师视角理解 GenAI 在 STEM 高等教育中的现状、益处、挑战和所需支持。
切入角度：焦点小组定性研究，29 名教师 7 场会议，90 分钟/场，半结构化讨论。
核心发现一句话：GenAI 有效整合需要重新思考评估方式、教学法和制度治理，而非仅是技术采用。

方法详解¶

整体框架¶

定性研究设计，使用焦点小组方法。三个核心研究问题：(RQ1) 教师如何将 GenAI 整合到课程设计和学习活动中？(RQ2) 教师观察到的学生学习益处和挑战是什么？(RQ3) 支持有效 GenAI 采用需要哪些制度资源和政策？

关键发现¶

教师劳动的转移（RQ1）
- 发现：93% 教师使用 GenAI，最常见用途包括生成测验/评估题、创建作业场景、制作评分标准、改进作业说明、总结反馈。
- 关键洞察：GenAI 并未减少教师工作量，而是将劳动从内容创建转向专家审核——教师需要花更多时间审查、改进和验证 AI 生成内容。"效率提升是错觉"。
- 教学应用：CS 课程中让学生先用 GenAI 生成代码片段再整合；化学课中生成 Python 数据可视化代码；设计"双解任务"要求学生对比 AI 和人类解决方案。
学生能力假象（RQ2）
- 益处：更多学生按时提交作业，特别是 CS 课程中帮助跨越技术障碍；GenAI 充当"私人助教"提供即时帮助，对在职学生特别有利。
- 挑战：能力假象——更高的提交率但学生无法调试 AI 生成代码（因为不理解底层逻辑）；过度依赖 GenAI 可能绕过批判性思维过程。
- 评估回应：部分教师回归传统评估（纸笔考试、口试），同时设计新型 AI 整合作业（要求对比和批判 AI 输出）——双策略并行。
制度支持需求（RQ3）
- 培训需求：(a) GenAI 基础原理工作坊（理解 LLM 机制）；(b) 提示工程培训；(c) 任务特定培训（如用 AI 创建评分标准）。
- 资源需求：共享提示库、案例研究库、专门 AI 咨询团队、教学实践社区（"AI Squares"）。
- 政策需求：课程间一致性——学生困惑于不同课程对 GenAI 使用规则不一致。需要院系级指导方针和跨课程协调。但也警告不要过早做永久性制度改变——GenAI 对高等教育的影响仍高度不确定。
- 课程改革：建议设立面向所有学生的必修 AI 素养课程；重新思考低年级 vs 高年级课程中 GenAI 的角色差异。

研究方法¶

7 场焦点小组会议，29 名参与者（11 名 CS、4 名工程、4 名心理学等），远程 Zoom 进行。Qualtrics 人口统计问卷 + 8 个开放问题。Zoom 自动转录 + Google NotebookLM 辅助主题分析 + 人工验证。

实验关键数据¶

主要统计¶

维度	数据
参与者数量	29 名 STEM 教师
使用 GenAI 的教师比例	93%（27/29）
使用频率分布	偶尔 41%、频繁 31%、很少 21%、从不 7%
AI 熟悉度（很/非常熟悉）	72%（AI）、73%（GenAI）

使用场景分布¶

用途	教师数
课堂讨论	5
评估/练习题生成	4
学生反馈	2
学生研究	1
自动评分	1

关键发现¶

劳动转移非劳动减少：教师花更少时间从零创建但花更多时间审核验证——净工作量可能未减少。
提交率提升但理解深度存疑：更多学生完成作业，但许多无法解释或调试 AI 生成的解决方案。
检测工具不可靠：教师普遍认为当前 GenAI 检测工具存在误报且无法识别复杂使用。
"AI-proof"作业不可持续：部分教师已放弃试图设计 AI 无法完成的作业。
双策略评估：同时回归传统考试 + 设计批判性 AI 整合作业。

亮点与洞察¶

"内容创建→专家审核"的劳动转移模型：精确描述了 GenAI 对教师工作的实际影响，与"AI 减少工作量"的乐观叙事形成对比。
"能力假象"概念：高提交率掩盖低理解度——当前评估方式无法区分学生真正能力和 AI 辅助的表面能力。
"大学级护栏 + 院系级自治"的政策框架：平衡一致性和灵活性的务实建议。

局限与展望¶

仅来自一所大学的 STEM 学院，29 名参与者样本量小，CS 教师占比过高（38%）。
缺少学生视角的对照研究。
焦点小组的社会期望偏差——教师可能不愿在同事面前承认过度使用 AI。
未涉及非 STEM 学科的差异。

评分¶

新颖性: ⭐⭐⭐ 焦点小组研究方法成熟但不新颖，核心是经验洞察
实验充分度: ⭐⭐⭐ 29 名参与者足以做定性研究但泛化受限
写作质量: ⭐⭐⭐⭐ 组织清晰，发现呈现系统
价值: ⭐⭐⭐⭐ 对教育政策制定有直接参考价值

STEM Faculty Perspectives on Generative AI in Higher Education¶

一句话总结¶

研究背景与动机¶

方法详解¶

整体框架¶

关键发现¶

研究方法¶

实验关键数据¶

主要统计¶

使用场景分布¶

关键发现¶

亮点与洞察¶

局限与展望¶

相关工作与启发¶

评分¶

相关论文¶