Associative Syntax and Maximal Repetitions Reveal Context-Dependent Complexity in Animal Vocalizations¶
会议: NeurIPS 2025
arXiv: 2512.01033
代码: 待确认
领域: 生物信息学 / 序列分析
关键词: 动物发声, 句法复杂度, 最大重复, 信息论, 鲸鱼歌声
一句话总结¶
提出基于"关联句法"和"最大重复"的信息论框架分析动物发声序列的结构复杂度,发现动物发声(如鲸鱼歌声)展现出上下文依赖的复杂句法结构,超越了简单的马尔可夫假设。
研究背景与动机¶
- 领域现状:分析动物通信的句法结构是理解动物认知的关键,但缺乏有效的计算工具。
- 现有痛点:传统方法假设马尔可夫性(下一个元素只依赖有限历史),但真实动物发声可能有更复杂的长程依赖。
- 切入角度:用信息论中的"最大重复"概念检测序列中的非随机结构模式。
- 核心idea一句话:通过计算序列中最大重复子串的统计属性揭示上下文依赖的句法复杂度。
方法详解¶
关键设计¶
- 关联句法(Associative Syntax):定义元素间的关联强度,超越简单的n-gram统计
- 最大重复分析:找到序列中出现多次的最长子串,它们的长度/频率分布反映句法复杂度
- 上下文依赖复杂度:衡量特定上下文下发声选择的可预测性变化
实验关键数据¶
在鲸鱼歌声和其他动物发声数据集上验证,发现句法复杂度高于马尔可夫模型预测。
关键发现¶
- 动物发声中存在显著的长程依赖
- 不同上下文(如歌曲的不同部分)展现不同的复杂度水平
- 最大重复长度分布偏离随机序列预期
亮点与洞察¶
- 方法论创新:将信息论工具应用于动物行为学
- 对理解动物认知和通信进化有跨学科价值
局限性 / 可改进方向¶
- 动物发声的元素分割(tokenization)本身有主观性
- 样本量可能不足以支撑统计显著性
评分¶
- 新颖性: ⭐⭐⭐⭐ 信息论+动物行为的跨学科创新
- 实验充分度: ⭐⭐⭐ 数据规模有限
- 写作质量: ⭐⭐⭐⭐ 方法描述清晰
- 价值: ⭐⭐⭐ 对比较认知科学有贡献