Enhancing Binary Encoded Crime Linkage Analysis Using Siamese Network¶

会议: AAAI 2026
arXiv: 2511.07651
代码: https://github.com/AlberTgarY/CrimeLinkageSiamese
领域: 其他
关键词: 犯罪关联分析, 孪生网络, 自编码器, 地理时间特征融合, ViCLAS数据库

一句话总结¶

提出基于 Siamese Autoencoder 的犯罪关联分析框架，通过 decoder 阶段融合地理时间特征 和 领域专家驱动的数据降维策略，在英国 NCA 的真实 ViCLAS 数据库上实现了 AUC 提升最高 9%，为高维稀疏二进制编码犯罪数据提供了有效的机器学习解决方案。

研究背景与动机¶

问题场景¶

犯罪关联（Crime Linkage, CL） 是现代执法的关键任务，旨在通过分析犯罪者的 作案手法（Modus Operandi, MO） 来识别系列犯罪。准确的 CL 有助于优化侦查资源配置、加强公共安全，其理论基础是 行为一致性（同一犯罪者在不同犯罪中行为相似）和 行为独特性（不同犯罪者的行为模式可区分）。

现有方法的局限¶

传统统计方法的限制：逻辑回归假设线性特征关系、决策树强加刚性层级结构，都不适合捕获犯罪行为中的非线性关联。

高维稀疏数据挑战：真实犯罪数据库（如 ViCLAS）包含 446 维二进制编码特征，约 91% 为零值，信号极其稀疏。

地理时间信息利用不足：现有方法要么忽略地理时间信息，要么简单拼接到输入层，2 维的地理时间信号在 217-446 维行为特征中占比不足 1%，被严重稀释。

数据集规模受限：此前主要研究集中于小规模、地理范围有限的数据集，未在像 ViCLAS 这样的大型真实数据库上验证。

核心创新动机¶

信号稀释问题：将地理时间特征从输入层移到 decoder 阶段融合，使其在行为抽象已完成后再调制潜在表示，避免被高维行为特征淹没。
领域知识驱动降维：与 NCA 领域专家合作设计 5 种数据降维映射策略，在减少维度的同时保留行为语义。

方法详解¶

整体框架¶

框架包含三个核心组件： 1. Siamese Autoencoder 网络结构：双分支共享权重，encoder 压缩 + decoder 重构 + decoder 阶段地理时间融合 2. 对比+重构联合损失：聚拢同源犯罪、分离不同犯罪 3. 推理管道：基于潜在空间距离计算相似度概率分数

关键设计¶

1. Siamese Autoencoder 网络结构¶

Encoder：两层线性层 + ReLU（446→128→8），将输入压缩到 8 维潜在空间
Decoder：镜像结构（8→128→446），重构原始特征空间
地理时间融合：在 decoder 第一层输出后，将对数变换后的空间-时间特征通过线性层加性融合
参数量：共 21,740 参数（vs. Naive Siamese 的 22,981 参数），参数量更少但性能更优
设计动机：
- 自编码器的重构约束确保潜在表示保留结构信息
- 8 维瓶颈层强迫网络学习最紧凑的行为表示

2. Decoder 阶段地理时间融合¶

核心思路：地理时间数据本质上反映成对关系（两个犯罪之间的距离和时间间隔），将其在 encode 个体行为特征之后融合更符合侦查逻辑
具体做法：
- 对空间距离和时间间隔取对数变换
- 通过一个线性层将 2D 地理时间特征映射到 128 维
- 与 decoder 第一层输出加性融合
优势对比：
- 输入层拼接：2D 信号在 446D 中占 <1%，几乎无影响
- Decoder 融合：行为抽象完成后再引入，信号放大效果显著
实验验证：跨网络变体一致提升 0.86-3.29% AUC（Table 4）

3. 领域专家驱动的数据降维策略¶

设计了 5 种降维策略（Table 1）：

策略	剩余特征数	降维率	设计者
No Map	446（原始）	0%	—
Map 1	282	36.8%	NCA 分析师（20年+经验）
Map 2	384	13.9%	Map 1 + 法医心理学家咨询
Map 3	266	40.4%	Map 1 和 Map 2 的混合
Map 4	217	51.3%	法医心理学专家
Map 5	286	35.9%	Map 4 的改良（减少抽象度）

降维方法：将语义相似的二进制特征合并到更抽象的类别（如"购物中心停车场"和"体育场停车场"合并为"停车场"）
设计动机：分析师在实践中通常通过主题匹配而非精确行为匹配来关联犯罪

损失函数 / 训练策略¶

联合损失：$\mathcal{L} = \alpha \mathcal{L}_{\text{contrast}} + \beta \mathcal{L}_{\text{recon}}$，$\alpha=1.0$, $\beta=0.2$

对比损失：使用混合欧几里得-曼哈顿距离度量 $$\mathcal{L}_{\text{contrast}} = \mathbb{E}[y \cdot d^2 + (1-y) \cdot \max(m-d, 0)^2]$$ 其中 $y$ 表示是否关联（1=关联），$m=5$ 为间隔参数。

重构损失：基于余弦相似度 $$\mathcal{L}_{\text{recon}} = \mathbb{E}\left[\frac{v_1^\top \hat{v_1}}{\|v_1\| \|\hat{v_1}\|} + \frac{v_2^\top \hat{v_2}}{\|v_2\| \|\hat{v_2}\|}\right]$$

推理阶段：$S_{ij} = \exp(-D_{ij}/\beta)$，$\beta = m/1.5$，将潜在空间距离转换为 $(0, 1]$ 的概率分数。

训练细节：Adam 优化器，lr=0.001，batch_size=128，2 epochs，Cosine Annealing 学习率调度，5-fold 交叉验证。

实验关键数据¶

数据集¶

Single Victim-Offender-Scene Series：1,482 个案例 / 493 个系列 / 2014年记录，无地理时间数据
Multiple Victim-Offender-Scene Series：22,282 犯罪（1990-2021），446 特征，11,970 用于分析（这是已发表研究中最大的 ViCLAS 数据集）

主实验¶

小数据集（Single Victim-Offender-Scene）：

方法	AUC	TP Fixed FP
Ours	85 ± 1.98	77.73 ± 4.32
Logistic Regression	86 ± 2.14	77.19 ± 5.98
PCA	82 ± 4.02	64.97 ± 4.00

大数据集（Multiple Victim-Offender-Scene, 使用 Map 5）：

方法	AUC	TP Fixed FP	AUPRC
Ours (map 5)	84 ± 2.86	79.38 ± 2.56	15.43
Naive Siamese (map 5)	83 ± 2.72	76.20 ± 2.69	15.09
Logistic Regression	75 ± 2.97	70.43 ± 2.12	10.24
Ours (无 map)	77 ± 2.11	68.31 ± 1.92	13.32

相对提升：相比 LR，分别提升 12.0%（AUC）、12.71%（TPFP）、50.68%（AUPRC）。

消融实验¶

架构选择影响（RQ3, Table 4 部分）：

配置	AUC (%)	说明
MLP, 无 skip, 2+2, Decoder	77.29	最优配置
MLP, 无 skip, 2+2, Concat	76.43	Decoder 融合 +0.86%
MLP, 有 skip, 2+2, Decoder	67.07	Skip connection 有害
1D CNN, 无 skip, 2+2, Decoder	61.74	MLP 显著优于 CNN
SIREN, 无 skip, 2+2, Decoder	58.28	周期激活函数不适合
MLP, 无 skip, 1+1	52.49	太浅
MLP, 无 skip, 4+4	63.57	太深过拟合

核心发现： - 2+2 层深度最优，更浅/更深都会退化 - 不使用 skip connections 反而更好（+6.55%），可能是因为直接特征传播干扰了细微犯罪模式的抽象

关键发现¶

Decoder 融合一致优于输入层拼接：MLP +0.86%、1D CNN +3.29%、SIREN +3.09%
适度的数据降维提升性能：Map 5（35.9% 降维率）取得最佳 AUC 84%，过度抽象或不抽象都不如
时间 OOD 挑战：2021-2025 年的后 COVID 数据显示性能明显下降，需要定期重新训练
系统可减少 80% 人工审查：在保留超半数真实犯罪关联的同时，大幅减少假阳性

亮点与洞察¶

真实数据验证：使用英国 NCA 的 ViCLAS 数据库（迄今公开研究中最大的性犯罪数据集），而非合成数据，增强了研究的实际意义。
Decoder 融合思路的普适性：当辅助信息维度远低于主要特征时，延迟融合（late fusion）的策略值得在其他领域借鉴。
领域专家驱动的特征工程：5 种降维策略来自不同专业背景的专家，展示了 ML 与领域知识结合的最佳实践。
伦理考量周全：有详细的部署安全保障、偏见审计计划和人在环设计。

局限与展望¶

二进制编码丢失信息：将复杂犯罪行为简化为 0/1 编码可能丢失重要的频次和程度信息。
时间分布漂移：模型在 post-2021 数据上性能显著下降，需要持续再训练机制。
数据机密性：ViCLAS 数据不可公开获取，可复现性受限。
仅 8 维瓶颈：可能过于紧凑，探索不同瓶颈维度对性能影响的分析有限。
仅限性犯罪：未评估在盗窃、抢劫等其他犯罪类型上的泛化能力。

评分¶

新颖性: ⭐⭐⭐ — 核心技术（Siamese + autoencoder）并不新颖，主要贡献在应用和融合策略
实验充分度: ⭐⭐⭐⭐ — 真实数据、多种消融、时间OOD测试，但缺少其他犯罪类型
写作质量: ⭐⭐⭐⭐ — 结构清晰，研究问题驱动，伦理讨论详尽
价值: ⭐⭐⭐⭐ — 对执法领域有直接实际价值，方法论贡献一般