跳转至

STEM Faculty Perspectives on Generative AI in Higher Education

会议: AAAI 2026
arXiv: 2603.04001
代码: 无
领域: AI教育 / 社会科学
关键词: 生成式AI, 高等教育, STEM教学, 焦点小组, 教学策略

一句话总结

通过对美国一所大型公立大学 29 名 STEM 教师的焦点小组研究,揭示教师如何在教学中整合 GenAI、观察到的学生学习益处与挑战,以及所需的制度支持——发现 GenAI 将教师劳动从内容创建转向专家审核,且可能掩盖学生能力不足。

研究背景与动机

  1. 领域现状:GenAI 工具在高等教育中的采用主要是学生驱动的,迫使教师被动应对。部分教师已将 GenAI 用于评分、课程设计、内容生成等,但另一些教师持谨慎态度。
  2. 现有痛点:(a) 学术诚信面临严峻挑战——AI生成内容难以被检测工具可靠识别;(b) 过度依赖 GenAI 可能侵蚀批判性思维和问题解决能力;(c) 现有研究对 STEM 领域教师如何集体解读和协商 GenAI 角色的洞察有限。
  3. 核心矛盾:GenAI 提升了作业提交率但可能掩盖了学生对核心概念的理解不足。教师面临"禁止使用会落后于时代"vs"允许使用可能损害学习"的两难。
  4. 本文目标:从教师视角理解 GenAI 在 STEM 高等教育中的现状、益处、挑战和所需支持。
  5. 切入角度:焦点小组定性研究,29 名教师 7 场会议,90 分钟/场,半结构化讨论。
  6. 核心发现一句话:GenAI 有效整合需要重新思考评估方式、教学法和制度治理,而非仅是技术采用。

方法详解

整体框架

定性研究设计,使用焦点小组方法。三个核心研究问题:(RQ1) 教师如何将 GenAI 整合到课程设计和学习活动中?(RQ2) 教师观察到的学生学习益处和挑战是什么?(RQ3) 支持有效 GenAI 采用需要哪些制度资源和政策?

关键发现

  1. 教师劳动的转移(RQ1)

    • 发现:93% 教师使用 GenAI,最常见用途包括生成测验/评估题、创建作业场景、制作评分标准、改进作业说明、总结反馈。
    • 关键洞察:GenAI 并未减少教师工作量,而是将劳动从内容创建转向专家审核——教师需要花更多时间审查、改进和验证 AI 生成内容。"效率提升是错觉"。
    • 教学应用:CS 课程中让学生先用 GenAI 生成代码片段再整合;化学课中生成 Python 数据可视化代码;设计"双解任务"要求学生对比 AI 和人类解决方案。
  2. 学生能力假象(RQ2)

    • 益处:更多学生按时提交作业,特别是 CS 课程中帮助跨越技术障碍;GenAI 充当"私人助教"提供即时帮助,对在职学生特别有利。
    • 挑战:能力假象——更高的提交率但学生无法调试 AI 生成代码(因为不理解底层逻辑);过度依赖 GenAI 可能绕过批判性思维过程。
    • 评估回应:部分教师回归传统评估(纸笔考试、口试),同时设计新型 AI 整合作业(要求对比和批判 AI 输出)——双策略并行。
  3. 制度支持需求(RQ3)

    • 培训需求:(a) GenAI 基础原理工作坊(理解 LLM 机制);(b) 提示工程培训;(c) 任务特定培训(如用 AI 创建评分标准)。
    • 资源需求:共享提示库、案例研究库、专门 AI 咨询团队、教学实践社区("AI Squares")。
    • 政策需求:课程间一致性——学生困惑于不同课程对 GenAI 使用规则不一致。需要院系级指导方针和跨课程协调。但也警告不要过早做永久性制度改变——GenAI 对高等教育的影响仍高度不确定。
    • 课程改革:建议设立面向所有学生的必修 AI 素养课程;重新思考低年级 vs 高年级课程中 GenAI 的角色差异。

研究方法

7 场焦点小组会议,29 名参与者(11 名 CS、4 名工程、4 名心理学等),远程 Zoom 进行。Qualtrics 人口统计问卷 + 8 个开放问题。Zoom 自动转录 + Google NotebookLM 辅助主题分析 + 人工验证。

实验关键数据

主要统计

维度 数据
参与者数量 29 名 STEM 教师
使用 GenAI 的教师比例 93%(27/29)
使用频率分布 偶尔 41%、频繁 31%、很少 21%、从不 7%
AI 熟悉度(很/非常熟悉) 72%(AI)、73%(GenAI)

使用场景分布

用途 教师数
课堂讨论 5
评估/练习题生成 4
学生反馈 2
学生研究 1
自动评分 1

关键发现

  • 劳动转移非劳动减少:教师花更少时间从零创建但花更多时间审核验证——净工作量可能未减少。
  • 提交率提升但理解深度存疑:更多学生完成作业,但许多无法解释或调试 AI 生成的解决方案。
  • 检测工具不可靠:教师普遍认为当前 GenAI 检测工具存在误报且无法识别复杂使用。
  • "AI-proof"作业不可持续:部分教师已放弃试图设计 AI 无法完成的作业。
  • 双策略评估:同时回归传统考试 + 设计批判性 AI 整合作业。

亮点与洞察

  • "内容创建→专家审核"的劳动转移模型:精确描述了 GenAI 对教师工作的实际影响,与"AI 减少工作量"的乐观叙事形成对比。
  • "能力假象"概念:高提交率掩盖低理解度——当前评估方式无法区分学生真正能力和 AI 辅助的表面能力。
  • "大学级护栏 + 院系级自治"的政策框架:平衡一致性和灵活性的务实建议。

局限与展望

  • 仅来自一所大学的 STEM 学院,29 名参与者样本量小,CS 教师占比过高(38%)。
  • 缺少学生视角的对照研究。
  • 焦点小组的社会期望偏差——教师可能不愿在同事面前承认过度使用 AI。
  • 未涉及非 STEM 学科的差异。

相关工作与启发

  • vs 学生视角研究:大量研究关注学生如何使用 GenAI,本文从教师视角填补空缺。
  • vs 政策文件:政策文件通常提出理想框架,本文提供一线教师的实际经验和需求。
  • 对于 AI 教育政策制定者有直接参考价值。

评分

  • 新颖性: ⭐⭐⭐ 焦点小组研究方法成熟但不新颖,核心是经验洞察
  • 实验充分度: ⭐⭐⭐ 29 名参与者足以做定性研究但泛化受限
  • 写作质量: ⭐⭐⭐⭐ 组织清晰,发现呈现系统
  • 价值: ⭐⭐⭐⭐ 对教育政策制定有直接参考价值

相关论文