无锡网站建设 app 微信昆明著名网站建设

张小明 2026/1/10 16:57:53
无锡网站建设 app 微信,昆明著名网站建设,宁夏住房建设厅网站,备份文件wordpress本文详细探讨了在vLLM/SGLang推理框架上适配混合模型时KV cache的管理问题#xff0c;重点关注QwenNext和KimiLinear模型中的GDN/KDA线性注意力模块。文章分析了线性模块与标准注意力模块的混合使用策略#xff0c;深入研究了SConv(状态值和短卷积输入数据)的存储管理方…本文详细探讨了在vLLM/SGLang推理框架上适配混合模型时KV cache的管理问题重点关注QwenNext和KimiLinear模型中的GDN/KDA线性注意力模块。文章分析了线性模块与标准注意力模块的混合使用策略深入研究了SConv(状态值和短卷积输入数据)的存储管理方法包括块的分配结构、参数大小计算以及与KV cache的对比。同时文章还探讨了cache传输、prefix cache和并行策略等关键特性的调整方法为开发者提供了实用的技术指导。1 、模块架构简介目前效果较好的混合模型中线性注意力Linear Attention模块与标准注意力Standard Attention模块会按照一定比例如3:1混合。标准注意力模块一般采用GQA/MLA线性模块像QwenNext模型使用的是GDN(GatedDeltaNetworks)KimiLinear用的是KDA(Kimi Delta Attention两个模块基本结构类似都是基于Delta规则(Delta Rule)的线性注意力的改进。GDN和KDA主要的差异点算式上S的衰减项的处理不一样两个模块映射计算、激活函数处理有区别。模块架构如上图所示主要运算包括线性映射、Conv、L2、alpha、beta、注意力算式等。进一步了解GDN/KDA模块中各个参数的含义推荐阅读Qwen/Kimi带火的LinearAttention原理与细节解析上2、 KV cache的管理一般来说KV cache仅用于Attention在vLLM或者SGLang里面增加新模块不必修改KV cache的管理。在GDN和KDA的线性模块中也没有KV cache但这类模块中却引入了跟请求相关的需要被cache的内容递推式的**状态值**用S(SSM)表示;短卷积的输入数据用Conv表示.与KV cache不同的是SConv不会随序列的变长而递增对单个请求而言是固定大小。但是对于整个推理框架而言SConv会随请求的数量变化而变化所以必须考虑多请求SConv的管理。在原基础上适配新类型的cache涉及的问题包括KV cache的逻辑管理是保持不变还是新增类型预留多少空间存储SConv数据排列如何设计PD分离中数据传递时如果开启了TP并行数据该如何打包2.1 当前逻辑以vLLM框架为例先简要看一下标准attention的KV cache管理方案。vLLM基于paged attention原理的KV cache管理分为两层物理层和逻辑层。逻辑层中由Scheduler通过KV Manager管理着KV Pool逻辑块通过页表block table完成逻辑与物理层映射。物理层中KV Cache按照layer来创建的所有请求共用页page。常见的模块是MQA和MLA虽然其页的分配存在差异但block使用方式相同。2.2 线性注意力cache管理设计原则上线性注意力的cache管理尽量与框架现有逻辑保持统一避免设计一套新的管理逻辑增加维护成本。块的分配结构SConv不需要像KV cache一样得构建链表block list来管理块主要是数据排布考虑的实现方式a) 层与层之间独立对于单个请求对应的每一层分配一个固定的块b) 请求与请求之间独立单个请求所有线性注意力层的块在一起占用一个连续片段。参数的大小计算当获取到整体可用显存available memory后标准attention的每一层能创建多少的blocks计算方式blocks available_memory // page_size // num_layerspage_size block_size * heads * head_dim * dtypeblock中包含的tokens为固定值。当使用混合注意力后标准attention的available_memory 值要先减去线性attention层的显存开销。这个值可以根据用户设置的max_num_seqs以及层参数算得。如果仅考虑数值计算最后线性attention和标准attention的page_size可能会大小不一致。为了便于内存管理/提升计算效率统一page_size的大小要增加对显存的动作step1调整KV blocks数量让其与SConv基本相等step2在较小值的尾部增加pad对齐大小2.3 cache的存储大小对比当序列多长时线性层的cache才有访存/传输优势 可以通过计算来寻找答案。GDN/KDA的cache计算。单层SConv的存储大小与模型的配置参数相关FP16/BF16数据计算方式S: 2 * num_v_heads / TP * head_k_dim * head_v_dimConv: 2 * (head_k_dim * num_k_heads * 2 head_v_dim * num_v_heads)/TP * (conv_kernel_size - 1)注意SConv计算没有考虑投机speculative推理若开启投机推理还要加上对应的长度。MLA/GQA的cache计算。在MLA/GQA中 kv cache的存储大小与序列长度相关计算方式MLA: 2 * seq_len * (kv_lora_rank qk_rope_head_dim)GQA: 2 * 2 * seq_len * num_key_value_heads * head_dim / TP通过上述的计算方式结合模型的参数。可以计算出分界点序列长度举两个例子假设TP1例1Qwen3-Next-80B-A3B-Instruct模型相关参数# GDN: linear_num_key_heads: 16, linear_num_value_heads: 32, linear_value_head_dim: 128, linear_key_head_dim: 128, linear_conv_kernel_dim: 4, # GQA: num_key_value_heads: 2, head_dim: 256,通过逐步增加序列长度得到曲线如下交点处的tokens536。例2Kimi-Linear-48B-A3B-Instruct# KDA: head_dim: 128, num_heads: 32, short_conv_kernel_size: 4 # MLA: qk_rope_head_dim: 64, kv_lora_rank: 512通过逐步增加序列长度得到曲线如下交点处的tokens975。结论当序列长度超过一个交汇位置tokens数量时线性注意力层才有cache的优势。这个计算主要是考虑对访存、以及cache传输的影响总的显存对比的考虑模型整体情况。2.4 相关特性的调整cache的传输线性注意力层传输与KV cache的传输方式保持一致。考虑的关键点是线性attention有多头且开启了TP功能时TP域内不同设备存储的SConv不一样而MLA的KV cache是冗余存储在传输的时候需要分情况处理。Prefix cache由于线性注意力层保留的是最后的状态所以一般而言prefix cache匹配只能匹配最长序列。如果要匹配中间的结果得让线性注意力层保存对应的SConv的中间状态数据。考虑的实现方案离散保存按照block为单位进行状态保存例如128个tokens保存一次SConv。这种方式下存储cache呈现分段增长。以算换存存储GDD/KDA的输入值hidden states或者映射后的输入值k/v/alpha/beta通过重算的方式恢复S与Prefix cache有着类似问题的特性还有投机推理。并行策略GDN和KDA模块投影层可用列切行切的方式开启TP并行如下图所示。结合chunkwise运算基本满足长序列运算需求。由于是按照head切分所以cache的管理逻辑不需要调整。TP并行线性层一般不必开启SP/CP并行若序列在GDN/KDA计算前被切分将其数据聚合(gather)即可。由于没有softmax计算如果要支持CP并行实现上并不复杂。采用GDN/KDA的并行式计算主要的问题是cache管理中每个设备上的SConv存储是否需要冗余。目前在vLLM和SGLang中的SConv管理都是沿用的Mamba模型的逻辑。最近社区都有在完善在优化这块的功能比如vLLM中将Attention的page size进行大小对齐如下图所示MambaSpecSConv存储和AttentionSpecKV cache存储page size大小相等适配模型Nemotron-Nano-12B-v2。在Tensor的读取方面调整了Mamba的排布方式保证两种cache做到兼容更加方便加速算子FlashAttention的处理。目前方案适配到了vLLM的V1版本至于V0版本中Mamba cache已被弃用。3、如何学习大模型 AI 由于新岗位的生产效率要优于被取代岗位的生产效率所以实际上整个社会的生产效率是提升的。但是具体到个人只能说是“最先掌握AI的人将会比较晚掌握AI的人有竞争优势”。这句话放在计算机、互联网、移动互联网的开局时期都是一样的道理。我在一线科技企业深耕十二载见证过太多因技术卡位而跃迁的案例。那些率先拥抱 AI 的同事早已在效率与薪资上形成代际优势我意识到有很多经验和知识值得分享给大家也可以通过我们的能力和经验解答大家在大模型的学习中的很多困惑。我们整理出这套AI 大模型突围资料包✅ 从零到一的 AI 学习路径图✅ 大模型调优实战手册附医疗/金融等大厂真实案例✅ 百度/阿里专家闭门录播课✅ 大模型当下最新行业报告✅ 真实大厂面试真题✅ 2025 最新岗位需求图谱所有资料 ⚡️ 朋友们如果有需要《AI大模型入门进阶学习资源包》下方扫码获取~① 全套AI大模型应用开发视频教程包含提示工程、RAG、LangChain、Agent、模型微调与部署、DeepSeek等技术点② 大模型系统化学习路线作为学习AI大模型技术的新手方向至关重要。 正确的学习路线可以为你节省时间少走弯路方向不对努力白费。这里我给大家准备了一份最科学最系统的学习成长路线图和学习规划带你从零基础入门到精通③ 大模型学习书籍文档学习AI大模型离不开书籍文档我精选了一系列大模型技术的书籍和学习文档电子版它们由领域内的顶尖专家撰写内容全面、深入、详尽为你学习大模型提供坚实的理论基础。④ AI大模型最新行业报告2025最新行业报告针对不同行业的现状、趋势、问题、机会等进行系统地调研和评估以了解哪些行业更适合引入大模型的技术和应用以及在哪些方面可以发挥大模型的优势。⑤ 大模型项目实战配套源码学以致用在项目实战中检验和巩固你所学到的知识同时为你找工作就业和职业发展打下坚实的基础。⑥ 大模型大厂面试真题面试不仅是技术的较量更需要充分的准备。在你已经掌握了大模型技术之后就需要开始准备面试我精心整理了一份大模型面试题库涵盖当前面试中可能遇到的各种技术问题让你在面试中游刃有余。以上资料如何领取为什么大家都在学大模型最近科技巨头英特尔宣布裁员2万人传统岗位不断缩减但AI相关技术岗疯狂扩招有3-5年经验大厂薪资就能给到50K*20薪不出1年“有AI项目经验”将成为投递简历的门槛。风口之下与其像“温水煮青蛙”一样坐等被行业淘汰不如先人一步掌握AI大模型原理应用技术项目实操经验“顺风”翻盘这些资料真的有用吗这份资料由我和鲁为民博士(北京清华大学学士和美国加州理工学院博士)共同整理现任上海殷泊信息科技CEO其创立的MoPaaS云平台获Forrester全球’强劲表现者’认证服务航天科工、国家电网等1000企业以第一作者在IEEE Transactions发表论文50篇获NASA JPL火星探测系统强化学习专利等35项中美专利。本套AI大模型课程由清华大学-加州理工双料博士、吴文俊人工智能奖得主鲁为民教授领衔研发。资料内容涵盖了从入门到进阶的各类视频教程和实战项目无论你是小白还是有些技术基础的技术人员这份资料都绝对能帮助你提升薪资待遇转行大模型岗位。以上全套大模型资料如何领取
版权声明:本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若内容造成侵权/违法违规/事实不符,请联系邮箱:809451989@qq.com进行投诉反馈,一经查实,立即删除!

无锡做网站西安哪家网站建设好

【网络工程师进阶】掌握抓包技术,突破职业天花板:完整指南,值得反复学习收藏! 抓包是网络工程师必备的核心技能,直接影响故障诊断、性能优化和安全检测能力。文章从入门到高级系统讲解了抓包技术,包括工具…

张小明 2026/1/9 14:45:04 网站建设

网站备案时 首页佛山营销网站开发

简介 谷歌推出两项基于Gemini模型的创新健康大模型研究:个人健康大型语言模型(PH-LLM)和智能体框架。PH-LLM通过多模态编码器处理可穿戴设备数据,在睡眠和健身领域提供个性化健康建议;智能体则利用代码生成和工具交互能力,将原始…

张小明 2026/1/9 14:45:08 网站建设

升级网站服务器电商网站新闻怎么做的

原始文章发布在知乎,欢迎移步:《关于GR-RL与PI-0.6的一些想法》 最近学习了字节跳动gr-1/gr-2/gr-3/gr-rl(关于gr-rl:文档1和文档2)系列工作,再结合以前看的pi系列模型或算法,产生了一些想法&a…

张小明 2026/1/9 14:45:08 网站建设

湖南省建设银行网站官网wordpress自定义404页面

量子计算与区块链技术入门 1. 量子计算的热潮 格罗弗算法及其相关研究加速了量子计算领域的发展,科技巨头如 IBM、谷歌、英特尔、微软等纷纷加大在该领域的投入。2019 年国际消费电子展(CES)上,IBM 推出面向科研人员和企业的量子计算集成系统,展示了其在量子计算方面的实…

张小明 2026/1/9 14:45:14 网站建设

夫妻工作室网站建设精品网站建设比较好

第一章:Open-AutoGLM KTV 预订系统概述Open-AutoGLM KTV 预订系统是一套基于自动化语言模型驱动的智能服务解决方案,专为现代娱乐场所设计,旨在提升用户预订体验与后台管理效率。系统融合自然语言理解、动态资源调度与实时状态同步技术&#…

张小明 2026/1/10 15:55:10 网站建设

南山网站设计费用公众号登录网址

SQL代码美化大师:提升开发效率的完整指南 【免费下载链接】SqlBeautifier A sublime plugin to format SQL. It supports both sublime 2 and 3. 项目地址: https://gitcode.com/gh_mirrors/sq/SqlBeautifier 在数据库开发和数据分析工作中,整洁规…

张小明 2026/1/9 14:45:10 网站建设