网站建设风险的特征网站建设最好的公司排名

张小明 2026/1/12 5:53:22
网站建设风险的特征,网站建设最好的公司排名,不用代码做网站 知乎,提高wordpress+权重摘要#xff1a; 在多智能体强化学习#xff08;MARL#xff09;中#xff0c;完全合作#xff08;Fully Cooperative#xff09;是最常见也是应用最广的场景#xff1a;王者荣耀/Dota2 的团战、仓储机器人的协作搬运、交通信号灯的联合控制。在这种设定下#xff0c;所…摘要在多智能体强化学习MARL中完全合作Fully Cooperative是最常见也是应用最广的场景王者荣耀/Dota2 的团战、仓储机器人的协作搬运、交通信号灯的联合控制。在这种设定下所有 Agent 共享同一个全局奖励R t e a m R_{team}Rteam​。这听起来很美好但却引发了经典的“三个和尚没水喝”难题——即信誉分配Credit Assignment。本文将深入剖析完全合作型 MARL 的核心痛点并详解VDN、QMIX等“价值分解”流派的算法是如何破解这一难题的。目录 (Table of Contents)什么是完全合作型 MARL定义与应用场景核心矛盾全局目标 vs 局部执行核心痛点信誉分配 (Credit Assignment)“吃大锅饭”的弊端Lazy Agent 问题方法论一独立学习 (IQL) —— 各自为战方法论二中心化训练去中心化执行 (CTDE)为什么上帝视角只能在训练时用方法论三价值分解 (Value Decomposition) —— 破局之道VDN简单的加法原理QMIX单调性的魔法 (含代码实现解析)QTRAN/QPLEX打破束缚简述总结1. 什么是完全合作型 MARL1.1 定义在数学上完全合作博弈Fully Cooperative Games是指所有智能体i ∈ { 1 , … , N } i \in \{1, \dots, N\}i∈{1,…,N}共享同一个奖励函数R 1 ( s , u ) R 2 ( s , u ) ⋯ R N ( s , u ) R t o t a l ( s , u ) R^1(s, \mathbf{u}) R^2(s, \mathbf{u}) \dots R^N(s, \mathbf{u}) R_{total}(s, \mathbf{u})R1(s,u)R2(s,u)⋯RN(s,u)Rtotal​(s,u)无论谁做出了贡献大家得到的反馈是一样的反之一人犯错全队受罚。1.2 核心矛盾训练目标最大化团队的总回报J E [ R t o t a l ] J \mathbb{E}[R_{total}]JE[Rtotal​]。执行限制每个 Agent 只能根据自己的局部观测 (Local Observation)o i o^ioi选择动作a i a^iai。我们不能让一个中央大脑控制所有人的动作通信延迟和算力瓶颈不允许。2. 核心痛点信誉分配 (Credit Assignment)既然大家目标一致直接优化不就好了吗这就引出了多智能体信誉分配问题 (Multi-Agent Credit Assignment Problem)。2.1 “吃大锅饭”的弊端想象一场足球赛你的球队 1:0 赢了。前锋 A进球了他觉得“我进球了奖励是 1我的策略是对的。”后卫 B全场梦游甚至在睡觉他也收到了奖励 1。如果不加区分后卫 B 的神经网络会认为“原来在场上睡觉能赢球下次我还睡。”这就是Lazy Agent (偷懒智能体)的由来。由于全局奖励掩盖了个体的贡献神经网络充满了噪声难以收敛到精细的配合策略。3. 方法论一独立学习 (IQL) —— 各自为战Independent Q-Learning (IQL)是最简单的思路。每个智能体i ii都有一个自己的 Q 网络Q i ( o i , a i ) Q_i(o^i, a^i)Qi​(oi,ai)完全不理会其他人就把其他人当成环境的一部分甚至噪声。优点简单随着 Agent 数量增加计算量线性增加。缺点严重受制于非平稳性 (Non-Stationarity)。因为大家都在变环境极其不稳定。在完全合作任务中IQL 往往难以学会复杂的协作比如需要同时按开关。4. 方法论二CTDE 架构为了解决 IQL 视野狭窄的问题学术界提出了CTDE (Centralized Training, Decentralized Execution)范式。这是目前 MARL 的绝对主流。训练时 (Training)我们在模拟器里拥有上帝视角。我们可以知道所有人的状态s ss和动作u \mathbf{u}u。我们可以训练一个超级大脑Critic。执行时 (Execution)模型部署后Agent 只能看局部依靠训练好的 Actor 网络行动。但在完全合作任务中我们通常不需要显式的 Actor-Critic而是采用价值分解 (Value Decomposition)的方法。5. 方法论三价值分解 (Value Decomposition)这类算法的核心思想是不仅要训练个体的Q i Q_iQi​还要训练一个总的Q t o t Q_{tot}Qtot​来拟合团队奖励。关键在于Q t o t Q_{tot}Qtot​和Q i Q_iQi​之间要满足什么关系5.1 VDN (Value-Decomposition Networks)VDN 提出了最直观的假设团队总价值等于每个人个体价值之和。Q t o t ( s , u ) ∑ i 1 N Q i ( o i , a i ; θ i ) Q_{tot}(s, \mathbf{u}) \sum_{i1}^N Q_i(o^i, a^i; \theta_i)Qtot​(s,u)i1∑N​Qi​(oi,ai;θi​)训练最小化( Q t o t − y ) 2 (Q_{tot} - y)^2(Qtot​−y)2。执行每个 Agent 只要选出让自己Q i Q_iQi​最大的动作那么∑ Q i \sum Q_i∑Qi​自然也是最大的。这就实现了去中心化执行。局限它假设所有人对团队的贡献是线性的、独立的。这处理不了复杂的非线性配合比如异或问题。5.2 QMIX单调性的魔法 (The Star )QMIX 是目前 MARL 的基石算法。它放宽了 VDN 的假设。它认为Q t o t Q_{tot}Qtot​不一定非要是Q i Q_iQi​的和只要满足单调性约束 (Monotonicity Constraint)即可∂ Q t o t ∂ Q i ≥ 0 , ∀ i \frac{\partial Q_{tot}}{\partial Q_i} \ge 0, \quad \forall i∂Qi​∂Qtot​​≥0,∀i物理含义如果某个智能体i ii采取了更好的动作让自己的Q i Q_iQi​增加了那么团队总价值Q t o t Q_{tot}Qtot​一定不能减少。为了实现这个约束QMIX 引入了一个Mixing Network输入所有 Agent 的Q i Q_iQi​。输出Q t o t Q_{tot}Qtot​。权重 (Weights)Mixing Network 的权重是由全局状态s ss生成的使用 Hypernetwork且绝对值取正保证单调性。PyTorch 代码片段 (Mixing Network)importtorchimporttorch.nnasnnimporttorch.nn.functionalasFclassQMixer(nn.Module):def__init__(self,n_agents,state_dim,mixing_embed_dim):super(QMixer,self).__init__()self.n_agentsn_agents self.state_dimstate_dim self.embed_dimmixing_embed_dim# Hypernetwork 1: 生成第一层权重 (State - Weights)# 输出维度是 n_agents * embed_dimself.hyper_w_1nn.Linear(state_dim,n_agents*mixing_embed_dim)# Hypernetwork 1: 生成第一层偏置self.hyper_b_1nn.Linear(state_dim,mixing_embed_dim)# Hypernetwork 2: 生成第二层权重self.hyper_w_2nn.Linear(state_dim,mixing_embed_dim*1)# Hypernetwork 2: 生成第二层偏置 (输出最终的 Q_tot)self.hyper_b_2nn.Sequential(nn.Linear(state_dim,mixing_embed_dim),nn.ReLU(),nn.Linear(mixing_embed_dim,1))defforward(self,agent_qs,states):# agent_qs: [batch, n_agents]# states: [batch, state_dim]bsagent_qs.size(0)# 1. 生成权重并取绝对值以保证单调性 (Monotonicity)w1torch.abs(self.hyper_w_1(states)).view(bs,self.n_agents,self.embed_dim)b1self.hyper_b_1(states).view(bs,1,self.embed_dim)w2torch.abs(self.hyper_w_2(states)).view(bs,self.embed_dim,1)b2self.hyper_b_2(states).view(bs,1,1)# 2. 前向传播计算 Q_tot# 第一层: (Q_i * W1) b1hiddenF.elu(torch.bmm(agent_qs.unsqueeze(1),w1)b1)# 第二层: (Hidden * W2) b2q_tottorch.bmm(hidden,w2)b2returnq_tot.view(bs,-1)QMIX 的伟大之处它巧妙地结合了全局状态s ss通过 Hypernetwork和局部动作价值Q i Q_iQi​既保证了训练时的全局视野又保证了执行时只要argmax Q_i就能找到全局最优解IGM 原则。6. 总结完全合作型 MARL 的演进路线其实就是**“如何更好地区分个人贡献”**的过程IQL不管贡献大家都只顾自己。→ \to→无法协作。VDN大家的贡献直接相加等于总量。→ \to→只能处理简单协作。QMIX大家的贡献通过非线性但单调的方式组合。→ \to→目前最流行的 Baseline能处理星际争霸 (SMAC) 等复杂场景。QTRAN / QPLEX进阶试图解决 QMIX 无法覆盖的非单调场景理论更强但实战较难调优。如果你正在做 MARL 的项目QMIX通常是你的首选算法它是连接理论与实战的最佳平衡点。Next Step Suggestion: 如果你已经理解了完全合作下一步可以挑战更复杂的“混合博弈”如足球比赛队内合作、队外竞争。
版权声明:本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若内容造成侵权/违法违规/事实不符,请联系邮箱:809451989@qq.com进行投诉反馈,一经查实,立即删除!

品牌网站建设必在大蝌蚪网站建设后需要录入

海外物流货物APP系统技术文章大纲 系统概述 定义海外物流货物APP的核心功能,包括集运、转运、物流跟踪、仓储管理及路线规划。 分析当前海外物流行业的痛点及技术解决方案的市场需求。 核心功能模块设计 集运转运管理 用户端货物提交、仓储入库、订单合并及国际…

张小明 2026/1/11 2:24:34 网站建设

html用表格来做网站布局留学生做留服证明在哪个网站

基于贝叶斯框架的图像去模糊方法 1. 引言 图像恢复(IR)的目标是从退化的观测中重建原始场景。在非受控环境中捕获的图像,由于成像和捕获过程的不完善,往往是原始图像的退化版本。这种退化可分为位移不变和位移可变两种类型,本文主要关注位移不变模糊。图像退化主要有模糊…

张小明 2026/1/11 3:05:46 网站建设

创业网站模板免费下载公众号交易平台

CefFlashBrowser:终极Flash内容兼容解决方案 【免费下载链接】CefFlashBrowser Flash浏览器 / Flash Browser 项目地址: https://gitcode.com/gh_mirrors/ce/CefFlashBrowser 在当今主流浏览器纷纷放弃Flash支持的时代,CefFlashBrowser作为一款专…

张小明 2026/1/11 5:39:26 网站建设

宣传海报在什么网站做自贡网站制作

Python 3.13字节码反编译全攻略:突破版本兼容瓶颈 【免费下载链接】pycdc C python bytecode disassembler and decompiler 项目地址: https://gitcode.com/GitHub_Trending/py/pycdc 你是否曾经面对新版本Python编译的字节码文件束手无策?当团队…

张小明 2026/1/9 17:37:30 网站建设

做网站 图文教程seo优化一般优化哪些方面

建了一个新号:1. 讲职场与第二曲线;2. 聊自己的故事,内心的感悟。谢谢大家,听我的故事。希望对大伙也有帮助。最近做了一个新产品:70天,每天30分钟,短视频行动营(第二曲线最佳选择&a…

张小明 2026/1/11 4:37:46 网站建设

建大型购物网站织梦网站安装播放视频插件下载

华为FreeBuds Pro 5的听力检测和助听功能真的太实用了!不用跑医院,在家找个安静角落,打开华为创新研究App,六七分钟就能完成检测,还会生成听力报告,清楚知道自己听力状况。 要是有轻中度听损,开…

张小明 2026/1/11 6:41:38 网站建设