DiSCo: Device-Server Collaborative LLM-Based Text Streaming Services¶
会议: ACL 2025
arXiv: 2502.11417
代码: 无
领域: LLM/NLP
关键词: device-server collaboration, text streaming, edge computing, LLM deployment, latency optimization
一句话总结¶
提出 DiSCo 设备-服务器协作 LLM 文本流服务框架,端侧小模型快速生成初始 token 减少首 token 延迟(TTFT),服务端大模型并行处理后替换,实现低延迟高质量的文本流式服务。
研究背景与动机¶
- 领域现状:LLM 部署面临延迟问题,特别是首 token 延迟(TTFT)对用户体验影响大。
- 现有痛点:云端大模型质量好但延迟高,端侧小模型快但质量差,单一部署方案无法同时满足两者。
- 核心矛盾:如何兼顾"快"(低 TTFT)和"好"(高质量)?
- 本文要解决什么? 端云协作,用端侧小模型"抢跑"降低 TTFT,云端大模型"接力"保证质量。
- 切入角度:投机性执行——端侧先生成、云端验证/替换。
- 核心idea一句话:端侧快速生成初步 token 流给用户看,同时云端大模型并行生成高质量版本并逐步替换。
方法详解¶
整体框架¶
用户请求 -> 端侧小模型立即开始生成(低延迟)-> 同时转发请求到云端大模型 -> 大模型结果就绪后替换端侧输出 -> 用户看到流畅且高质量的文本流。
关键设计¶
- 投机性端侧生成:不等云端,先用端侧 2-3B 模型生成
- 流式替换策略:云端结果逐步替换端侧输出,保证文本连贯性
- 质量-延迟自适应:根据网络状况动态调整端侧/云端比例
实验关键数据¶
主实验¶
| 部署方案 | TTFT | 总质量 | 用户满意度 |
|---|---|---|---|
| 纯云端 | 高 | 最好 | 中(等待久) |
| 纯端侧 | 最低 | 较差 | 中(质量差) |
| DiSCo | 低 | 接近云端 | 最高 |
延迟对比¶
| 指标 | 云端 | DiSCo | 提升 |
|---|---|---|---|
| TTFT | ~2s | ~0.3s | -85% |
| 端到端 | ~5s | ~5.2s | 基本一致 |
关键发现¶
- TTFT 减少 85%:用户感知延迟大幅降低
- 最终质量接近纯云端:替换策略保证了输出质量
- 在弱网环境下优势更大:端侧生成不受网络影响
亮点与洞察¶
- 端云协作的投机执行是一个实用的工程创新——用小模型"争取时间"
- 对 LLM 移动端部署场景有直接商业价值
局限性 / 可改进方向¶
- 替换可能导致文本"跳变"
- 端侧模型质量太差时用户体验反而下降
相关工作与启发¶
- vs 投机解码:投机解码在同一设备上用小模型辅助大模型,DiSCo 跨设备协作
评分¶
- 新颖性: ⭐⭐⭐⭐ 端云协作 LLM 服务有创新
- 实验充分度: ⭐⭐⭐⭐ 真实部署场景测试
- 写作质量: ⭐⭐⭐⭐ 系统设计描述清晰
- 价值: ⭐⭐⭐⭐⭐ 对 LLM 商业部署有直接价值