当前位置：首页 > news >正文

网站设计公司温州做公司网站详细步骤

news 2025/11/5 8:11:58

网站设计公司温州,做公司网站详细步骤,公司网页制作哪家强,深圳电商平台网站建设论文信息题目#xff1a;Vision-Language Navigation with Continual Learning 视觉-语言导航与持续学习作者#xff1a;Zhiyuan Li, Yanfeng Lv, Ziqin Tu, Di Shang, Hong Qiao 论文创新点 VLNCL范式#xff1a;这是一个新颖的框架#xff0c;它使得智能体能够在适…论文信息题目Vision-Language Navigation with Continual Learning 视觉-语言导航与持续学习作者Zhiyuan Li, Yanfeng Lv, Ziqin Tu, Di Shang, Hong Qiao 论文创新点 VLNCL范式这是一个新颖的框架它使得智能体能够在适应新环境的同时保留从先前任务中获得的知识这对于实际应用中的泛化能力至关重要。双循环场景重放DualSR文章引入了一种新的双循环场景重放方法该方法受大脑记忆重放机制的启发并与VLN智能体集成有助于巩固过去的经验并增强跨新任务的泛化能力。多场景记忆缓冲区设计了一个基于任务域的记忆缓冲区允许智能体存储和重放来自不同场景的记忆从而有效地保留多样化的环境知识。持续学习评估指标提出了两个新的评估指标——未见转移UT和已见转移ST用于评估智能体的知识转移和持续学习能力。摘要视觉-语言导航VLN是嵌入式智能领域的关键领域要求智能体根据自然语言指令在3D环境中进行导航。传统的VLN研究主要集中在提高环境理解和决策准确性上。然而这些方法在智能体部署到新环境时通常表现出显著的性能差距主要是由于训练数据的多样性有限。扩展数据集以覆盖更广泛的环境是不切实际且成本高昂的。我们提出了视觉-语言导航与持续学习VLNCL范式来解决这一挑战。在这一范式中智能体在保留先前获得的知识的同时逐步学习新环境。VLNCL使智能体能够维持环境记忆并提取相关知识允许快速适应新环境的同时保留现有信息。我们引入了一种新颖的双循环场景重放方法DualSR该方法受大脑记忆重放机制的启发并与VLN智能体集成。这种方法有助于巩固过去的经验并增强跨新任务的泛化能力。通过使用多场景记忆缓冲区智能体有效地组织和重放任务记忆从而增强其快速适应新环境的能力并减轻灾难性遗忘。我们的工作在VLN智能体中开创了持续学习引入了新的实验设置和评估指标。我们通过广泛的评估展示了我们方法的有效性并为VLNCL范式建立了基准。与现有的持续学习和VLN方法的比较实验显示了显著的改进实现了在持续学习能力方面的最新性能并突出了我们方法在保留先前知识的同时实现快速适应的潜力。关键词视觉-语言导航VLN持续学习CL灾难性遗忘知识转移引言视觉-语言导航VLN对于嵌入式智能领域至关重要。智能体遵循自然语言指令在3D环境中移动。通过整合自然语言处理、视觉感知和决策制定智能体能够导航至目的地。大多数VLN研究集中在提高环境理解能力Hong et al. 2020和目标决策策略的准确性Hao et al. 2020。尽管这些进步显著提高了VLN性能但仍存在一个关键问题智能体对多样化未见场景的泛化能力这对于实际应用至关重要。在实际场景中智能体必须不断适应新环境同时保留从先前任务中获得的知识。在已见和未见Anderson et al. 2018环境之间的显著性能差距突显了这一挑战。这一问题的主要原因是多样化环境数据的可用性有限这限制了智能体有效泛化的能力Zhang, Tan, 和 Bansal 2020。然而大规模扩展包含各种环境的数据集是不现实的且昂贵的Shah et al. 2023。因此我们考虑了一种替代方法引入了持续学习CL框架。该框架使智能体能够逐步学习和适应新环境同时保留从先前任务中获得的知识Srinivasan et al. 2022。通过使用这一策略我们旨在增强VLN智能体的泛化能力使它们在必须导航不断变化的环境阵列的实际应用中更加健壮和有效。为了使VLN智能体能够从任务中积累知识处理被称为灾难性遗忘French 1999的挑战至关重要。我们将视觉-语言导航任务与之结合引入了视觉-语言导航与持续学习VLNCL范式。智能体必须不断地积累信息并保持以前的知识通过用新任务激励智能体来实现。这意味着在稳定性和可塑性Kim et al. 2023之间保持平衡。此外考虑到实际任务通常在同一环境中同时发生我们按场景划分任务以将其提升至智能体。这样任务被划分为不同的域。基于此我们提出了双循环场景重放视觉-语言导航智能体Dual-SR作为VLNCL的新方法。受休息大脑中记忆重放机制Zhong, Yan, 和 Xie 2024的启发我们设计了一个双循环记忆重放框架使模型能够在平衡新任务学习的同时巩固早期场景记忆。智能体从记忆缓冲区中随机重放场景记忆带来以前任务记忆的偏见而内循环则重视学习新任务Rolnick et al. 2019。然后智能体应用基于元学习的外循环权重更新来平衡新旧权重同时减轻由单一场景任务数据引起的过拟合问题Javed 和 White 2019。此外为了有效保留多样化的环境知识我们设计了一个基于任务域的记忆缓冲区允许智能体存储和重放来自不同场景的记忆。为了评估VLNCL智能体我们提出了两个指标未见转移UT用于评估知识转移已见转移ST用于评估持续学习。UT通过在新场景中测试智能体来衡量泛化能力使用未见任务。ST通过在训练后将智能体应用于所有已见任务域来评估持续学习。使VLN智能体能够在新任务中进行持续学习带来了提高任务性能和增加任务泛化的优势。还进行了广泛的比较实验与在其他领域使用的几种CL方法和先前的VLN智能体进行了验证以验证我们方法的进步。实验显示了在持续学习能力方面的最新性能。总结这项工作的贡献我们引入了视觉-语言导航与持续学习VLNCL范式和指标使VLN智能体能够适应新未见环境同时保留先前知识以提高泛化能力。我们提出了双循环场景重放Dual-SR这是一种受大脑记忆系统启发的新方法它使VLN智能体能够进行持续学习。实验结果显示与基础模型相比成功率提高了16%。我们设计了一个多场景记忆缓冲区按环境类型组织任务记忆促进快速适应和跨场景任务的平衡。我们的工作专注于VLN智能体中的持续学习减少了灾难性遗忘并提高了知识转移为该领域设定了基准。比较实验也证实了其鲁棒性和有效性。方法视觉-语言导航设置视觉-语言导航VLN涉及智能体根据视觉输入V和语言指令I导航真实感室内环境。这个问题可以被建模为一个马尔可夫决策过程其中智能体在每个时间步的状态st代表其在环境中的视觉观察和位置。智能体的策略π将这些状态映射到动作引导智能体朝向期望的目标。学习过程涉及最小化由智能体策略π生成的轨迹τ上的预期损失 E τ ∼ π [ ∑ t 0 T L ( s t , a t ) ] \mathbb{E}_{\tau \sim \pi} \left[ \sum_{t0}^{T} L(st, at) \right] Eτ∼π[t0∑TL(st,at)] 其中L(st, at)是每个时间步的损失。通过将I和V投影到一个共同的特征空间中实现视觉和语言的整合创建一个联合嵌入空间。这个嵌入允许智能体将视觉线索与语言参考对齐实现准确导航。视觉-语言导航与持续学习的公式化在实际应用中智能体必须适应未见环境同时保留先前场景的知识。为此我们采用了视觉-语言导航VLN的持续学习方法其中验证数据集被分割成多个数据流模拟不同的任务域。每个数据流由特定场景的任务组成允许智能体在不忘记先前学习的任务的情况下跨不同环境学习。我们将数据集分割成d个任务域表示为TD {td1, td2, …, tdd}其中每个tdi代表一个不同的场景任务域被认为是独立的。在这个设置中每个任务域tdi被建模为一个分布Dtdi。我们将VLN设置中的损失函数重新制定为VLNCL设置如下 E τ ∼ π [ ∑ i 1 d ∑ t 0 T i L ( ( s i ) t , ( a i ) t ) ] \mathbb{E}_{\tau \sim \pi} \left[ \sum_{i1}^{d} \sum_{t0}^{T_i} L((s^{i})_t, (a^{i})_t) \right] Eτ∼π[i1∑dt0∑TiL((si)t,(ai)t)] 其中Ti是任务域tdi的时间范围(s{i})_t和(a{i})_t分别是智能体在域tdi的时间t的状态和动作。持续学习框架将其推广到多个任务域允许智能体逐步适应新环境。该框架通过平衡保留知识和促进泛化之间的权衡提高在未见环境中的性能。双循环场景重放在VLNCL设置中智能体必须最小化遗忘并通过利用先前知识来提高当前和先前任务的性能。然而大多数现有的VLN智能体在持续学习方面存在困难与人类不同人类通过将感官输入与长期记忆相结合从少数示例中高效学习Goelet et al. 1986。人脑不断地提取和存储知识通过休息期间的重放加强长期记忆Dewar et al. 2012。受此启发我们为VLN智能体提出了双循环场景重放持续学习Dual-SR算法。该算法模拟工作记忆作为内循环长期记忆作为外循环创建两个权重更新循环以平衡先前和当前任务信息同时增强泛化。在VLNCL设置中智能体可能会遇到由于样本有限而导致的过拟合问题。因此我们利用Reptile算法Nichol, Achiam, 和 Schulman 2018中的元更新机制来模仿长期记忆的形成。Reptile算法在效果上等同于MAMLGenzel et al. 2015为模型提供了一种从当前任务域获得标准结构的手段使它们能够快速适应其他类似的新任务。因此我们可以最大化泛化能力而不是数据拟合。通过这种方式外循环可以提高智能体的泛化能力。在外循环中权重的更新可以定义为 θ θ β ⋅ ( θ ′ − θ ) \theta \theta \beta \cdot (\theta - \theta) θθβ⋅(θ′−θ) 其中θ, θ’, 和β分别表示模型在内循环前后的权重和元学习率。为了模仿大脑对长期记忆的抽象和巩固Goelet et al. 1986我们通过模拟工作记忆中的记忆检索来设计内循环。智能体可以通过维护缓冲区并在内循环中重放旧样本使用从先前任务域中稳定选择的数据进行训练。应用记忆缓冲区可以确保每个先前任务都同样可能在缓冲区中被选中。新接收的样本与从缓冲区中随机选择的旧样本结合形成一个小批量然后用于元学习。在内循环中模型的更新可以定义为 U k ( θ ) θ − α ⊙ ∇ L ( a t ∣ V , I ) ( θ ) U_k(\theta) \theta - \alpha \odot \nabla L(a_t|V,I)(\theta) Uk(θ)θ−α⊙∇L(at∣V,I)(θ) 其中Uk(θ)是由学习(at | V, I)和α定义的更新α是元学习器要学习的参数⊗表示逐元素乘积。具体来说α是一个与θ大小相同的向量决定了更新方向和学习率。元更新可以提取跨任务学习到的共同结构从而增强智能体的知识转移能力。VLNCL设置使智能体面临动态和不可预测的数据流。这个过程要求智能体适应并在不断演变的任务阵列中有效执行。这种方法与传统方法截然不同传统方法要求将固定数据集划分为多个批次用于固定数量的任务。为了解决这个问题我们在内循环中实现了经验重放。通过存储任务索引智能体可以在面对新任务时重新访问和利用先前学习的任务。这种方法与传统的重放方法不同后者不加选择地在所有任务中使用记忆。我们的方法在每个任务域内随机重放场景以确保平衡。此外我们引入了记忆缓冲区大小Z。当任务属于先前的任务域并且任务ID t是Z的倍数时智能体通过用当前任务替换相应域中的一个任务来更新记忆缓冲区M。智能体通过在任务域之间更新场景记忆有效地管理记忆大小即使在处理许多任务时也是如此。这种策略还鼓励模型根据工作记忆原则优先考虑任务。结构化变换器VLN智能体与持续学习在Dual-SR算法的基础上我们采用了跨模态结构化变换器Zhao et al. 2022; Chen et al. 2021; Lu et al. 2019作为规划器以增强VLN智能体在持续学习设置中的性能。Dual-SR算法为此方法提供了基础通过平衡整合新信息和保留先前知识。在每个导航步骤t模型处理五种形式的标记全局标记gt-1候选目标标记C {c1 t-1, c2 t-1, …, cq t-1}历史标记H {h1 t-1, h2 t-1, …, ht-1 t-1}编码指令标记I {i0, i1, …, im}和编码视觉标记V {v1 t, v2 t, …, vn t}。指令标记在时间上保持不变以减少计算其他标记根据先前的时间步骤更新。系统将全局标记初始化为句子嵌入g0 i0。为了编码候选目标标记我们应用网格编码形式来解决在未见场景中可能的长期目标挑战。每个单元格中心可以通过将环境离散化为d × d网格来表示潜在的导航目标标记覆盖导航区域。最初使用目标的位置嵌入创建候选目标标记c1 0, c2 0, …, cq 0公式如下 c i 0 f ϕ P ( s j ) ⋅ i 0 , j ∈ { 1 , 2 , . . . , q } c_i 0 f_\phi^P (s_j) \cdot i0, \quad j \in \{1, 2, ..., q\} ci0fϕP(sj)⋅i0,j∈{1,2,...,q} 其中fP是位置编码器si是位置坐标表示的空间位置ϕP是编码器的参数x0是句子嵌入。在导航过程中这些候选目标标记会根据新的视觉线索和指令标记进行细化以预测更精确的长期目标。使用基于多层感知器MLP的目标预测器计算每个目标作为导航目的地的概率 P ( c i t ∣ θ ) softmax { M L P ( c i t ⋅ g t ) } , i ∈ { 1 , 2 , … , q } P(c_i t | \theta) \text{softmax}\{MLP(c_i t \cdot g_t)\}, \quad i \in \{1, 2, \ldots, q\} P(cit∣θ)softmax{MLP(cit⋅gt)},i∈{1,2,…,q} 其中gt是全局标记。智能体使用变换器架构构建和维护已探索区域的结构化表示以捕获结构化的环境布局。在时间步骤t模型构建一个图St其中节点代表先前访问过的位置边代表这些位置的可导航性。我们使用全景视图嵌入、动作嵌入、时间嵌入和位置嵌入构建历史标记ht t如下 h t t f V ( v 1 t , … , v n t ) f A ( r t ) f T ( t ) f P ( s t ) h_t t f_V (v_{1t}, \ldots, v_{n t}) f_A(r_t) f_T(t) f_P(s_t) httfV(v1t,…,vnt)fA(rt)fT(t)fP(st) 其中fV是全景视觉特征提取器r_t (sin θ, cos θ, sin φ, cos φ)是移动方向fA是动作编码器fT是时间编码器fP是位置编码器。历史标记在时间步骤t的邻接矩阵E定义为如果导航视点nj可以从ni导航则Eij 1否则Eij 0。注意力掩码矩阵M控制标记之间的信息流其中子矩阵MH用于历史标记 M H ← M H ∗ E M_H \leftarrow M_H * E MH←MH∗E 其中*表示逐元素乘法。结构化变换器使智能体能够访问过去的结构化信息允许从相邻和先前访问过的位置做出决策。在时间步骤t的局部动作空间是 A L t { τ ( v ^ 1 t ) , τ ( v ^ 2 t ) , … , τ ( v ^ k t ) } A_{Lt} \{\tau(\hat{v}_{1t}), \tau(\hat{v}_{2t}), \ldots, \tau(\hat{v}_{kt})\} ALt{τ(v^1t),τ(v^2t),…,τ(v^kt)} 全局动作空间是 A G t { τ ( v ^ 1 t ) , … , τ ( v ^ k t ) , τ ( h 1 t ) , … , τ ( h t − 1 t ) } A_{Gt} \{\tau(\hat{v}_{1t}), \ldots, \tau(\hat{v}_{kt}), \tau(h_{1t}), \ldots, \tau(h_{t-1t})\} AGt{τ(v^1t),…,τ(v^kt),τ(h1t),…,τ(ht−1t)} 其中τ将标记映射到其对应的位置。每个可能动作的概率是 π ( a t ∣ θ ) softmax { M L P ( τ − 1 ( a t ) ⋅ g t ) } , a t ∈ A G t \pi(a_t | \theta) \text{softmax}\{MLP(\tau^{-1}(a_t) \cdot g_t)\}, \quad a_t \in A_{Gt} π(at∣θ)softmax{MLP(τ−1(at)⋅gt)},at∈AGt 模型的优化涉及模仿学习IL损失LIL和强化学习RL损失LRL交替使用教师强制使用真实动作和学生强制使用从策略中采样的动作。为了进一步考虑选择的动作和目标还加入了历史教师损失LHT和目标预测损失LT。历史教师损失定义为 L H T − ∑ t 1 T log ⁡ π ( a t ∣ θ ) L_{HT} -\sum_{t1}^{T} \log \pi(a_t | \theta) LHT−t1∑Tlogπ(at∣θ) 目标预测损失是 L T − ∑ t 1 T log ⁡ P ( c i t ∣ θ ) L_T -\sum_{t1}^{T} \log P(c_i t | \theta) LT−t1∑TlogP(cit∣θ) 其中第i个目标标记最接近导航目的地。总损失函数由下式给出 L α 1 L I L α 2 L R L α 3 L H T α 4 L T L \alpha_1 LIL \alpha_2 LRL \alpha_3 LHT \alpha_4 LT Lα1LILα2LRLα3LHTα4LT 其中αi是损失系数。在训练基础模型后智能体在验证环境中提示持续学习推理。智能体顺序处理基于任务域的数据流用于Val-Seen和Val-Unseen分割。智能体执行内循环根据方程4中指定的损失函数迭代更新参数θ通过持续更新记忆缓冲区和场景重放来实现。完成当前任务域的学习后智能体执行方程3中描述的外循环。持续学习方法使VLN智能体能够在复杂环境中学习和适应保持和增强跨多个任务的知识。结构化变换器中的Dual-SR算法允许在不断变化的场景中进行有效的导航和适应能力。实验实验设置实验采用VLNCL框架并将R2R数据集Anderson et al. 2018划分为不同的任务域以评估对遗忘的抵抗力和知识转移能力。通过顺序输入每个任务域到智能体我们分别评估每个数据集分割中的平均已见转移ST和未见转移UT。比较实验为了评估我们智能体的任务性能我们将其在测试未见分割上的结果与其他VLN智能体在R2R数据集上的单次运行性能进行了比较。包括的方法有Seq2Seq (Anderson et al. 2018), SSM (Wang et al. 2021), EnvDrop (Tan, Yu, 和 Bansal 2019), AuxRN (Zhu et al. 2020), CCC (Wang et al. 2022), PREVALENT (Hao et al. 2020), AirBERT (Guhur et al. 2021), VLN⟳BERT (Hong et al. 2021)初始化OSCAR。基线使用了应用持续学习之前的基础智能体性能。我们还比较了持续学习前后的性能以展示CL方法的潜力。比较结果表明我们的方法显著提高了智能体的任务性能。成功率比基础智能体提高了16%预言成功率比基础智能体提高了8%突出了持续学习方法在VLN智能体中的潜力。此外我们的结果在持续学习能力方面达到了最新性能。与依赖复杂环境理解机制或精细微调的智能体不同具备CL能力的智能体可以在新场景中持续提高性能。然而将更先进的推理架构与CL方法相结合可以显著提高智能体的性能。抵抗遗忘和转移评估通过持续学习我们为VLN智能体引入了已见转移和未见转移的概念以评估其对遗忘的抵抗力和知识转移能力。为了评估遗忘抵抗力我们在验证训练分割和验证已见分割上应用平均已见转移。我们使用平均未见转移在验证未见分割上评估智能体将知识从先前任务转移到当前任务的能力。作为基线我们使用每个任务域微调的结果。已见转移衡量智能体在当前分割中的已见任务域集ST seen中的性能确定智能体是否保留了其先前知识。相比之下未见转移评估智能体在当前分割中的未见任务域集ST unseen中的性能评估知识从先前任务转移到当前任务的能力。实验结果表明我们的方法在遗忘抵抗力和知识转移方面具有优势。为了进一步阐明这些能力我们在图3中展示了不同分割中的成功率变化。在Val Unseen分割中我们评估未见部分的成功率以评估知识转移能力。相反在Val Seen和Train Seen分割中我们考虑已见部分的成功率以评估智能体的遗忘抵抗力。此外我们还可以在表4中跟踪所有数据集分割中的最高和最低成功率SR和预言成功率OSR。评估性能也遵循VLNCL设置。这个结果使我们能够更清晰地观察性能的变化。分析性能变化表明我们的方法在抵抗遗忘和知识转移方面表现出色。我们的方法在Val Unseen分割中持续提高未见任务的性能突出了持续学习在VLN智能体中引入的显著泛化能力。在Val Seen和Train Seen分割中我们的方法也显示出对已见任务的显著性能保留处理一系列50个不同场景任务后成功率仅下降了20%。这些结果表明智能体有效地减轻了长期任务域的遗忘。因此我们为视觉-语言导航与持续学习范式提出了一个基准。通过在VLN智能体中实施持续学习方法我们增强了它们有效地泛化到未见环境的能力为VLN智能体在更广泛的实际应用中铺平了道路。结论本文提出了视觉-语言导航与持续学习VLNCL范式智能体在保留先前场景知识的同时学习未见任务密切反映了实际应用需求。为了实现这一点我们引入了双循环场景重放Dual-SR算法提高了智能体的泛化和任务性能。我们还使用R2R数据集为VLNCL建立了基准。实验表明我们的方法在类似条件下超过了现有的持续学习方法推进了VLN智能体性能并为进一步研究实际应用就绪的智能体奠定了基础。我们的未来工作将集中在开发更复杂的推理机制和推进持续学习策略以提高泛化能力。声明本文内容为论文学习收获分享受限于知识能力本文对原文的理解可能存在偏差最终内容以原论文为准。本文信息旨在传播和学术交流其内容由作者负责不代表本号观点。文中作品文字、图片等如涉及内容、版权和其他问题请及时与我们联系我们将在第一时间回复并处理。

查看全文

http://www.ho-use.cn/article/10813977.html