微软和其他人提出了一种新的“模型链”范式,
发布时间:2025-06-04 10:22
随着大语言模型(LLM)的出现,变压器体系结构的扩展被视为改变现有的AI景观并在各种不同任务中取得最佳性能的强大方法。因此,探索如何在行业和学院扩展变压器模型成为一种趋势。在这种背景下,LLM参数的规模已显着增长,从十亿亿美元到万亿美元。因此,它的爆炸性参数量表也给训练带来了非常昂贵的负担,并且无法在不同的扩展环境中提供不同的急诊用途。由于这种扩展的不断增长,如何开发和有效地使用LLM来处理各种情况下的用户说明已成为整个Pamayanan的开放和关键挑战。目前,LLM扩展体系结构存在以下问题:与可以逐渐获得新知识的人类智能不同,现有的扩展技术无法维护现有知识的规模,并且总是需要从一开始就需要培训,从而导致无能。现有的LLM体系结构(例如密集型模型或MOE)始终激活固定比例参数,缺乏动态适应问题解决能力的机制。在本文中,来自微软,福丹大学,郑安格大学和上海科学技术大学的研究人员提出了一个新概念,即COR(代表链),通常是代表范围的范围。纸的标题:SA语言模型纸张纸的链链学习纸张地址:https://arxiv.org/pdf/2505.11820特别是本文指出,任何表示始终可以被视为隐藏维度中许多子补给的组合。因此,在对应于链条的每个子特征中,该组合称为一个表征链。基于此定义,使用不同的数字顶链,它们相应的功能可用于删除不同的知识(称为比例),如图1所示。因此,建立COR特征之间的连接以确保在整个秤中的特征转换非常重要。为了实现这一目标,本文提出了一种新的研究范式,称为模型链(COM),用于建模特征。它的主要思想是引入各种量表原因的依赖性,以确保每个量表只能使用以前的量表中的信息。直到今天,本文提出了一层(层链,Col),以根据COR特征重建当前的网络层。基于COM框架,本文将COL的想法应用于每个变压器层,并重新编写了语言模型的体系结构,并将其命名为语言模型链(COLM)。此外,根据COL标准,本文进一步介绍了天才价值共享机械模块的钥匙SM,需要在第一个链中计算出的所有键和值,并将其命名为Colm-air。基于这种机制,Colm-Air提供了更大的可扩展性和灵活性。结果许多基准测试表明,COLM系列模型可以实现出色的性能,同时显示出更好的可伸缩性和灵活性。过程方法首先是表征链的定义:根据定义1,通过激活前几个链,COR可用于编码尺度,每个链条对应于COR中的每个子代理。因此,COR允许将不同尺度的sclobation施加到单个表示。如果n = 1,则COR与原始表示相同。图1显示了COR的概念。基于上面的定义,现在一个挑战是如何设计层以在COR输入和COR输出之间建立连接,从而实现多尺度功能转换,同时使输出功能与定义中的COR标准保持一致。E只能使用其先前量表的所有信息,同时引入层链以将因果关系整合到COR的隐藏状态中,如下所示:其中,COL具有三种基本属性 - 通用性,原因和组合。最重要的是,COL支持构图,这意味着许多Col层的维持也可以维持菌群特性。此功能可以概括从层次结构到模型级别的COL范围。接下来,本文给出了第三种意义。根据定义3,如果模型符合COM标准,则它也继承了所有菌落特性,例如大学和原因。换句话说,任何模型都可以视为com的类型(即n = 1)。 COM可以在模型中包含多个不同大小的子模型,并且可以根据现有模型扩展MIT。该功能直接提供了更好的可扩展性和灵活性的基本模型。接下来,文章详细描述了如何将COM应用于L每个变压器模块(例如,嵌入,自我进取,进料,归一化,归一化)和功能功能,包括线性模型,包括线性,并将其称为COLM(语言链模型)。此外,本文进一步引入了基于COLM框架的键值共享机制,并称为Colm-Air,该机制提供了更好的灵活性。图2描述了线性层与线性链层之间的比较。图3描述了注意力链与注意链之间的区别:对内容的这一部分感兴趣的读者可能会指出原始纸张。表1实验结果表明,COLM在基线中取得了可比的结果,同时提供了更快的预填充速度和更高的灵活性。考虑到大学和COM的原因,任何模型都在1个链中被认为是一种特殊的COM案例,可以扩展为多链结构。因此,本文提出了一种扩展的方法E链:使用经过完整的模型作为初始链,并通过新链扩展。为了测试这一观点,选择了两种七种变体(即Tinyllama-V1.1和Llama-3.21b)作为扩展的初始链。表2的结果表明,与Tinyllama-V1.1和Llama-3.2-1b相比,本文的提高了0.92和0.14。由于Llama-3.2-1b是一个更强的基线,因此需要进行更多的计算以实现重大改进,但是本文方法仍然可以通过有限的计算量来改进它。通常,结果还表明,即使在资源障碍的情况下,本文程序仍然有效地改善基线。弹性推理旨在提供动态推理能力,以满足各种扩展情况的需求。表3中的结果将进一步强调COLM在实现弹性推理方面的潜力。从图5可以看出,Colm-Air实现d在类似参数的情况下,比美洲驼更快的预填充速度。随着序列的长度上升,Colm-Air可能会在预填充阶段更加显着提高速度。这充分证明了Colm-Air可以有效地加快预填充过程。得益于COM架构性质的原因,Colm由许多连锁模块组成,每个模块都可以继承预购链功能。基于此功能,本文提出了一种调整链条的方法 - 仅在冻结前几条链条的同时调整随后的链条。通过维护初始链参数,此过程不仅可以降低调整约42%的成本,而且可以有效地减轻忘记灾难的问题。此外,当Colm-Air调整正在工作并且第一个链被冷冻时,通过微调模型形成的键值对可以无缝地切换到原始Modelwith,并进一步计算。实验表明链条调整reqUIRES仅对大约42%的模型参数进行微调以提高性能,并且可以与诸如Lora之类的良好参数修复方法兼容。