Towards Comprehensive Argument Analysis in Education: Dataset, Tasks, and Method¶

会议: ACL 2025
arXiv: 2505.12028
代码: 无
领域: NLP / 论证挖掘
关键词: Argument Mining, 论证关系, 教育评估, 议论文分析, 细粒度标注

一句话总结¶

本文针对中文高中议论文，提出包含纵向（论证关系）和横向（话语关系）两个维度共 14 种细粒度论证关系类型的标注方案，并在论证成分检测、关系预测和自动评分三个任务上建立了全面的 benchmark。

论证挖掘（Argument Mining）旨在从非结构化文本中自动提取结构化的论证信息。然而，现有研究在论证关系上仍局限于简单的"支持"和"攻击"二分类，无法捕获真实议论文中复杂的论证策略和模式。具体问题：

关系类型过于简单：大多数论证挖掘研究仅将关系分为支持（support）和攻击（attack），缺少对论证策略（如举例论证、引用论证）和论证模式（如假设论证、比喻论证）的刻画

学科领域割裂：现有研究大多集中在非教育领域（如在线论坛、学术文献），且主要面向英语和德语

任务间缺乏联系：论证成分检测、关系预测和质量评估往往被独立研究，缺少对三者之间关联的系统性探讨

基于CEAMC语料库（226篇中文高中议论文），作者从纵向和横向两个维度提出了细粒度的关系标注方案，并在三个核心任务上开展实验。

纵向维度（论证关系）— 10 种类型：
- 立场类（3种）：正面论证（Positive）、反面论证（Negative）、对比论证（Comparative）
- 证据类（2种）：举例论证（Example）、引用论证（Citation）
- 话语类（5种）：背景（Background）、细节（Detail）、重述（Restatement）、假设论证（Hypothetical）、比喻论证（Metaphorical）
- 设计动机：攻击关系在教育场景的议论文中极少出现（学生旨在论证自己的观点，而非攻击他人），因此用正面/反面/对比三种立场关系替代
横向维度（话语关系）— 4 种类型：
- 连贯（Coherence）、递进（Progression）、对比（Contrast）、让步（Concession）
- 设计动机：关注同类论证成分之间的逻辑关系，如多个论据如何共同支持主论点
三个实验任务：
- 论证成分检测：句子级分类，使用 IOB 标注表示跨度信息
- 关系预测：论证对分类，预测两个论证成分之间的关系类型（多标签分类）
- 自动作文评分：四分类任务，评估议论文整体质量

PLM 使用 BERT-Base-Chinese 和 Chinese-RoBERTa-wwm-ext，AdamW 优化器，学习率 2e-5
LLM 使用 Qwen2-7B、DeepSeek-R1-Distill-Qwen-7B 和 ChatGLM-4-9b，LoRA 微调（rank=8, dropout=0.1，学习率 5e-5）
关系预测中使用负采样策略，每个论证成分随机选择若干无关论证为负样本
所有实验在单张 NVIDIA RTX 3090 上进行

模型	P(%)	R(%)	F1(%)
BERT	40.05	47.83	43.59
RoBERTa	46.34	51.30	48.69
Qwen（SFT）	57.40	56.23	56.81
DeepSeek（SFT）	53.23	50.14	51.64
ChatGLM（SFT）	58.17	58.84	58.50
GPT-4（0-shot）	29.50	34.20	31.68
GPT-4（3-shot）	32.66	33.04	32.85

模型	Micro-F1	Macro-F1	Pos.-F1
BERT	67.67	16.45	-
RoBERTa	-	-	-
Qwen（SFT）	相当	显著更高	显著更高
ChatGLM（SFT）	相当	显著更高	显著更高
GPT-4（0-shot）	很低	很低	-

LLM SFT 显著优于 PLM：在论证成分检测上，ChatGLM-9B SFT 比 RoBERTa 的 F1 提升了约 10 个百分点，验证了规模效应
GPT-4 零/少样本表现不佳：在两个任务上均明显落后于 SFT 方法，凸显了领域特定微调数据的重要性
GPT-4 在关系预测上的偏差：倾向于将大量负样本误判为正样本，因为其预训练知识对"关系"的理解范围超出了本文定义的论证关系
负样本数量影响不同：ChatGLM 在 3 个负样本时达到最佳性能，而 RoBERTa 在此数量下表现最差
细粒度论证标注对评分有帮助：将论证成分和关系信息加入作文评分输入后，评分性能有所提升