新闻动态

为什么使用任务向量有效地编辑模型?此ICLR 20

作者:bat365在线平台官网 时间:2025/04/24 点击:

本文的集李·洪孔(Li Hongkang)毕业于美国的伦斯勒理工大学,并获得了中国科学技术的博士学位,即将去宾夕法尼亚大学担任博士后研究员。研究方向包括-Depth研究理论,大语言模型理论等。本文的相应集是Rensselaer技术大学的Wang Meng教授。工作向量方法最近显示了许多视觉和语言活动的效率,并转移到了许多视觉和语言活动中。但是,由于人们尚未深入了解任务向量的理论机制,因此他们在更广泛和更大规模的应用中面临挑战。最近,来自伦斯勒技术大学,密歇根州立大学OPTML实验室和IBM研究所的一个团队评估了该模型向量从神经网络的角度编辑模型的有效性优化和泛化理论。这项工作被ICLR 2025接受,并被选为前1.8%的口头纸。纸张标题:任务向量何时有效地编辑?对非线性变形金刚的概括纸质地址的综述:https://openreview.net/pdf?id=vrvvb0naz引入任务矢量(任务向量)的背景确定微调模型与自命不凡的模型之间的重量差异。已经发现,预先实现的模型中的各种任务向量可以直接为该模型提供多种新功能,例如多任务研究,没有机械研究和跨域概括。优点是模型使用有关任务的培训数据不正确。这种编辑模型的方法基于任务向量的直接操作,因此下游任务预测的制造称为任务算术。由于这种方法缺乏理论研究,这种含量LE专注于探索为什么可以有效,有效地使用向量方法的深层因素。我们的贡献如下:我们提供了一个理论分析框架,用于研究增加任务和减少操作的有效性的特征。我们为分配以外的暴力工作提供了理论保证。解释了任务向量和修剪模型的低级估计的理论机制。最初的观察我们从一个简单的问题开始:整合许多任务向量的系数会影响哪些因素?直觉告诉我们,任务之间的关系可能是一个主要因素。例如,在研究多任务处理时,模型应该更容易拥有两个类似的活动。为了证明这一点,我们使用一组二进制分类实验构建了彩色MNIST。其中,分类的标准是数字的相似性。我们控制关系通过调整数字颜色之间的任务之间的nship。因此,我们设计了与“结盟活动”,“无关活动”和“冲突活动”的任务的关系。根据上图所示的实验结果,我们有以下观察结果:在多任务研究和机械健忘的实验中,最佳的工作操作系数将改变给定的任务向量之间的关系。在分布外部概括的实验中,目标任务与给定任务之间的正相关关系可以通过最佳工作操作系数的正和负特征来证明。以上两个点导致了研究的重要方向:关系如何影响任务操作。理论分析我们在二进制分类问题设置下评估了这个问题。我们使用一个头部变压器,关注SoftMax作为理论的主要模型分析,并使用ψ表示一组所有权重参数,包括注意力层的参数和MLP层的参数V。基于许多研究特征的理论工作,我们进行以下数据建模:确定μ_t作为当前任务的歧视模式。数据X中的每个令牌都是从μ_t,-μ_t和独立模式中选择的。如果与μ_t相对应的令牌数大于-μ_t的数量,则x标签为y = 1。接下来,我们为使用两个任务向量提供多任务研究和机械遗忘的理论结果。具体而言,给定一个假装模型和两个经过训练以获得ϵ概括错误的模型,代表T_1和T_2任务之间的关系。 α0,= 0,。我们定义了通过融合获得的模型为和定理1。结果表明,当这两个活动相似时,叠加t他的任务向量可以获得多任务研究的完美表现,也就是说,概括错误已达到相同的活动。定理2结果表明,当两个活动处于相反的关系中时,T_2的任务向量通过使用T_1的TUFER矢量来获得机械健忘的完美性能,也就是说,T_1的一般错误达到了ϵ,而T_2概括错误误差相对较大。然后,我们给出了使用一组任务向量来预测以前没有看到的分布之外的目标工作的理论结果。我们假设所有给定活动的歧视性t_ing terns彼此之间是正交的,并且目标任务t的三个歧视模式可以写为每个给定任务的区分模式的绘制组合,而γ_i是歧视性模式的歧视性模式的系数。假设γ_i并非全部0。我们有定理3:定理3结果表明,总是有一组λ_i,因此通过拒绝多个任务向量获得的模型可以实现目标t的概括的完美性能。在我们的第一个变压器层和二进制分类问题的框架内,我们进行了推理1:可以通过低等级来估算任务向量,同时仅造成小的指导错误。这意味着人们可以使用其他低排名的练习和识别任务向量的方法,从而大大节省了计算和存储任务向量的开销。我们还可以增加推论2:在MLP层中的某些神经元中,任务矢量的重量很大,而其余的神经元重量很小。修剪这些小神经元只会导致小错误,这将使过去的所有定理有效。这种识别为修剪和稀疏媒介的重量提供了理论保证。实验验证我们首先测试了任务向量分布的能力为VIT-MALL/16模型。我们使用彩色MNIST数据集设计T_1训练任务,T_2和目标测试任务t,而任务矢量的任务分别用于合成模型,即我们分别估计关系γ_1,γ_2在t和t_1之间,T_1,T_2。下面图中的结果表明,在实验中获得的λ_1和λ_2区域可能带来概述的泛化分布性能(图A的红色部分)与定理3中证明的区域(图B的红色部分)一致。接下来,我们使用phi-3-small(7b)模型验证了机器遗忘任务的性能,使用哈利·波特I(HP1)数据集集,哈利·波特II(HP2),Pride和Prejudice(PP)。其中,J.K。罗琳(Rowling),哈利·波特(Harry Potter I)和II具有更高的语义相似性,而骄傲和倾斜与其他两个数据集不同。下表中的结果显示了使用低排名活动的机器旋转孔的性能大约三个数据集从哈利·波特(Harry Potter I)训练的向量。我们发现,通过叠加相反(λ摘要,因此显示了完美的多任务研究,机器去除和综合理论的外部分布,这是该理论的理论。

澳门电子娱乐游戏平台

客服热线:400-123-4567

邮箱:[email protected]
地址:广东省广州市天河区88号

首页
电话
短信
联系