金天,麻省理工学院(MIT)盘算机科学与人工智能实验室(CSAIL)博士五年级学生,师从 Michael Carbin 和 Jonathan Ragan-Kelley。他主要研究机械学习与编程系统的连系。此前曾在 IBM Research 主导实现深度神经网络在 IBM 主机上的推理安排。本科结业于 Haverford College,获盘算机科学与数学双学位。 鄭鈺熹,麻省理工学院 CSAIL 博士三年级学生,师从 Michael Carbin。她的研究偏向为编程语言与机械学习的交织领域。 大语言模子(LLM)的天生范式正在从古板的「单人誊写」向「两全协作」转变。古板自回归解码按顺序天生内容,而新兴的异步天生范式通过识别语义自力的内容块,实现并行天生。 如图所示,古板要领(下)按顺序天生所有内容,而异步天生(上)同时处置惩罚多个互不依赖的内容块。比照顺序天生,异步天生在 AlpacaEval 长度控制评测中实现1.21-1.93× 的几何平均提速,对应天生质量转变(胜率)为 +2.2% 至 -7.1%。 MIT 与谷歌研究团队在最新研究 PASTA(PArallel STructure Annotation)中首次从战略学习(policy learning)角度探索异步天生范式的可能。 论文问题:Learning to Keep a Promise: Scaling Language Model Decoding Parallelism with Learned Asynchronous Decoding论文地点:https://arxiv.org/abs/2502.11517 研究团队不依赖人工设计规则来识别异步天生时机,而通过战略学习让模子自主发明并标注这些时机,系统地优化质量与速率的平衡。这种要领使 LLM 凭证内容特点自顺应地确定最佳异步天生战略,为天生效率优化开创学习驱动的全新路径。 PASTA-LANG:划分自力内容的标记语言 研究职员首先开发了一种新的标记语言 PASTA-LANG,专为异步天生而设计。大模子使用它在天生历程中标记语义自力块,指示并行天生时机。这种语言包括三种焦点标记: :标记语义自力的内容块,通过 topic 属性总结内容主题,大模子用它批注「这部分将会由一个自力子线程异步天生」。:在后标识对应的异步天生的内容,体现这一部分由自力子线程认真天生。:在主线程标记同步点,批注后续内容天生将会依赖于之前的异步天生,主线程需期待所有异步线程完成后才华继续。 这些标记配合组成了一种「允许-推行」的天生模式:大模子首先通过 标记「允许」天生某些内容,推理系统再建设异步线程来「推行」这些允许,最后在 处将异步内容组合。 如图所示的线段长度盘算案例展示了这一机制:面临盘算使命(A),大模子首先识别出「坐标提取」和「长度公式」两个可并行的自力部分,天生响应的 标记(B),随后用 标记(E)批注需要期待这些内容完成。图中红色和绿色区域(C、D)显示了两个异步线程并行天生的内容,最终在(F)处组合成完整解答。 这个新的标记语言简朴,可扩展性强,开启了新的未来研究范式。 PASTA 训练:从标注到优化的双阶段学习 如图所示,PASTA 系统接纳双阶段训练流程,使大模子自主学习使用上述标记语言,完成异步天生。 第一阶段:监视微调。研究团队首先选取 SlimOrca 指令追随数据集,用 Gemini 1.5 Flash 为 100K 条样本添加 PASTA-LANG 标记,在样本回覆中插入 标记,建设 PASTA 微调数据集。团队随后对 Gemma 7B 举行监视微调,获得能插入 PASTA-LANG 标记的 PASTA-SFT 模子。 第二阶段:偏好优化。为优化标注战略,团队设计了战略学习计划。团队对每个样本从 PASTA-SFT 模子采样多种标注计划,然后基于两项指标评估这些计划:理论加速比和内容质量(由 Gemini 1.5 Pro 评估)。凭证评估效果,团队构建「拒绝采样数据集」,该数据集包括每个输入的最佳和最差标注计划。最后,团队用 BoNBoN 算法对 PASTA-SFT 模子举行偏好优化,获得最终的 PASTA 模子。 PASTA 推理系统:并行天生与缓存治理 推理系统设计难点。异步并行天生的主要挑战在于怎样协调多个线程高效协作。古板要领通常需要为每个线程建设自力的 KV 缓存池——建设新线程时必需复制主线程的前缀内容到子线程缓存池,完成后再复制效果回主线程。这两次大规模矩阵复制操作严重限制了系统性能,使理论加速难以转化为现实收益。 KV 缓存的存储结构。PASTA 设计了交织式 KV 缓存结构,所有线程共享单逐一连内存池。系统初始以一连方法存储用户输入,在推理历程中动态将差别线程在统一时间点天生的 token 交织存储在相邻位置。 注重力控制与位置编码。PASTA 通过两个机制确保大模子准确明确多线程交织存储的 KV 缓存: 注重力掩码控制:限制子线程只能会见与自己相关的内容,在后通过移除掩码使主线程能会见所有子线程天生的内容。位置编码调解:每个线程都使用自力且一连的位置编码,使线程处置惩罚自己的内容时,将交织存储的内容视为逻辑上一连的序列,确保模子能准确明确上下文。 这些设计配合确保 PASTA 能在提高速率的同时坚持输出质量。 实验效果:Pareto 最优与可扩展性 PASTA 在性能与质量的平衡上取得了突破性效果,实验效果批注它不但实现了显著加速,还在某些情形下提高了输出质量。研究团队在 AlpacaEval 基准上举行了周全评估,该基准包括 805 个具有代表性的指令追随使命。 质量-速率平衡的 Pareto 前沿。如图所示,PASTA 通过调理质量权重参数天生了一系列的模子。在差别的天生质量的情形下,PASTA 均能提供非?晒鄣募铀。效果显示,纵然最注重质量的 PASTA 模子也能提供显著加速,而最快的模子则以一定的质量牺牲换取靠近 2 倍的速率提升。与基于手动设计的异步天生计划(Skeleton-of-Thought, APAR)相比,PASTA 模子展现出周全优势。 可扩展性。研究效果展示了 PASTA 要领精彩的可扩展性,如图所示。随着偏好优化一直推进,PASTA 模子的性能一连提升。图中清晰展示了从第一轮最先到第一轮竣事,再到第二轮最先和第二轮后半程的整个优化历程,质量-速率的 Pareto 前沿概略一连向右上方推进。 这种稳固的刷新趋势批注,PASTA 要领具有优异的可扩展性——随着投入更多盘算资源,仍未饱和。与古板依赖牢靠规则的异步解码要领差别,PASTA 通过战略学习驱动的逊с法提供了可一连的优化路径,能够有用地将特殊盘算资源转化为更高的推理效率。 总结与展望 PASTA 首次证实,通过战略学习让 LLM 自主优化天生战略,能够突破古板自回归和基于规则的异步天生的效率极限。这一事情不但为实时大模子应用提供了适用加速计划,更印证了未来 LLM 可能具备推理时自我优化能力的生长偏向。