DiSCo: Device-Server Collaborative LLM-Based Text Streaming Services¶

会议: ACL 2025
arXiv: 2502.11417
代码: 无
领域: LLM/NLP
关键词: device-server collaboration, text streaming, edge computing, LLM deployment, latency optimization

一句话总结¶

提出 DiSCo 设备-服务器协作 LLM 文本流服务框架，端侧小模型快速生成初始 token 减少首 token 延迟（TTFT），服务端大模型并行处理后替换，实现低延迟高质量的文本流式服务。

研究背景与动机¶

领域现状：LLM 部署面临延迟问题，特别是首 token 延迟（TTFT）对用户体验影响大。
现有痛点：云端大模型质量好但延迟高，端侧小模型快但质量差，单一部署方案无法同时满足两者。
核心矛盾：如何兼顾"快"（低 TTFT）和"好"（高质量）？
本文要解决什么？ 端云协作，用端侧小模型"抢跑"降低 TTFT，云端大模型"接力"保证质量。
切入角度：投机性执行——端侧先生成、云端验证/替换。
核心idea一句话：端侧快速生成初步 token 流给用户看，同时云端大模型并行生成高质量版本并逐步替换。

方法详解¶

整体框架¶

用户请求 -> 端侧小模型立即开始生成（低延迟）-> 同时转发请求到云端大模型 -> 大模型结果就绪后替换端侧输出 -> 用户看到流畅且高质量的文本流。

关键设计¶

投机性端侧生成：不等云端，先用端侧 2-3B 模型生成
流式替换策略：云端结果逐步替换端侧输出，保证文本连贯性
质量-延迟自适应：根据网络状况动态调整端侧/云端比例

实验关键数据¶

主实验¶

部署方案	TTFT	总质量	用户满意度
纯云端	高	最好	中（等待久）
纯端侧	最低	较差	中（质量差）
DiSCo	低	接近云端	最高

延迟对比¶

指标	云端	DiSCo	提升
TTFT	~2s	~0.3s	-85%
端到端	~5s	~5.2s	基本一致

关键发现¶

TTFT 减少 85%：用户感知延迟大幅降低
最终质量接近纯云端：替换策略保证了输出质量
在弱网环境下优势更大：端侧生成不受网络影响

亮点与洞察¶

端云协作的投机执行是一个实用的工程创新——用小模型"争取时间"
对 LLM 移动端部署场景有直接商业价值

局限性 / 可改进方向¶

替换可能导致文本"跳变"
端侧模型质量太差时用户体验反而下降

评分¶

新颖性: ⭐⭐⭐⭐ 端云协作 LLM 服务有创新
实验充分度: ⭐⭐⭐⭐ 真实部署场景测试
写作质量: ⭐⭐⭐⭐ 系统设计描述清晰
价值: ⭐⭐⭐⭐⭐ 对 LLM 商业部署有直接价值