跳转至

DiSCo: Device-Server Collaborative LLM-Based Text Streaming Services

会议: ACL 2025
arXiv: 2502.11417
代码: 无
领域: LLM/NLP
关键词: device-server collaboration, text streaming, edge computing, LLM deployment, latency optimization

一句话总结

提出 DiSCo 设备-服务器协作 LLM 文本流服务框架,端侧小模型快速生成初始 token 减少首 token 延迟(TTFT),服务端大模型并行处理后替换,实现低延迟高质量的文本流式服务。

研究背景与动机

  1. 领域现状:LLM 部署面临延迟问题,特别是首 token 延迟(TTFT)对用户体验影响大。
  2. 现有痛点:云端大模型质量好但延迟高,端侧小模型快但质量差,单一部署方案无法同时满足两者。
  3. 核心矛盾:如何兼顾"快"(低 TTFT)和"好"(高质量)?
  4. 本文要解决什么? 端云协作,用端侧小模型"抢跑"降低 TTFT,云端大模型"接力"保证质量。
  5. 切入角度:投机性执行——端侧先生成、云端验证/替换。
  6. 核心idea一句话:端侧快速生成初步 token 流给用户看,同时云端大模型并行生成高质量版本并逐步替换。

方法详解

整体框架

用户请求 -> 端侧小模型立即开始生成(低延迟)-> 同时转发请求到云端大模型 -> 大模型结果就绪后替换端侧输出 -> 用户看到流畅且高质量的文本流。

关键设计

  1. 投机性端侧生成:不等云端,先用端侧 2-3B 模型生成
  2. 流式替换策略:云端结果逐步替换端侧输出,保证文本连贯性
  3. 质量-延迟自适应:根据网络状况动态调整端侧/云端比例

实验关键数据

主实验

部署方案 TTFT 总质量 用户满意度
纯云端 最好 中(等待久)
纯端侧 最低 较差 中(质量差)
DiSCo 接近云端 最高

延迟对比

指标 云端 DiSCo 提升
TTFT ~2s ~0.3s -85%
端到端 ~5s ~5.2s 基本一致

关键发现

  • TTFT 减少 85%:用户感知延迟大幅降低
  • 最终质量接近纯云端:替换策略保证了输出质量
  • 在弱网环境下优势更大:端侧生成不受网络影响

亮点与洞察

  • 端云协作的投机执行是一个实用的工程创新——用小模型"争取时间"
  • 对 LLM 移动端部署场景有直接商业价值

局限性 / 可改进方向

  • 替换可能导致文本"跳变"
  • 端侧模型质量太差时用户体验反而下降

相关工作与启发

  • vs 投机解码:投机解码在同一设备上用小模型辅助大模型,DiSCo 跨设备协作

评分

  • 新颖性: ⭐⭐⭐⭐ 端云协作 LLM 服务有创新
  • 实验充分度: ⭐⭐⭐⭐ 真实部署场景测试
  • 写作质量: ⭐⭐⭐⭐ 系统设计描述清晰
  • 价值: ⭐⭐⭐⭐⭐ 对 LLM 商业部署有直接价值