Wang Yuntao,信息与通信技术学院:大型语言模型中
栏目:行业新闻 发布时间:2025-06-14 13:15
作者:Wang Yuntao,副首席工程师,高级工程师,人工智能研究所高级工程师,中国信息研究信息和通信研究或引入变压器建筑的介绍,其建筑领域的创新是生活,教育和研究研究的重点。通常,基于斑块的创新及其注意力机制的替代创新已成为一个巨大的研究方向。补丁创新主要使用更简单的操作员或精度来模拟护理机制的计算,而替代创新主要使用其他算法来利用上下文关系。此外,复发性神经元网络(RNN)和Multicapa Perceptron体系结构(MLP)的复发性神经元网络(RNN)的算法结构和创新蓬勃发展,对Orna稳定基础进行了良好的固体基础,以创新研究未来的算法架构。不可能的TRI建筑的有效性变压器的角变压器主要来自护理机制,护理机制的特征是在多个头部机理的ON2的复杂性和并行化中发现的。这样,在代币生成任务中,由于每个步骤的二次复杂性和KV缓存的内存限制,推理过程的效率通常效率低下。护理机制的计算复杂性降低可以提高推论的效率,但这牺牲了模型的精度和有效性。传统的RNN模型可以实现更好的结果和有效的推理效率,但是由于没有多个头部机制,因此无法攀爬,因此,不可能有效的并行训练。因此,模型体系结构面临不可能的三角问题:平行训练,低成本推理和良好的规模表现。这三点的平衡已成为优化和改善TRA的中心指南的想法NSFormer结构。 2 2017年的跨性别改进,由于需要出色的出版物,因此中央建筑蓬勃发展,具有变压器的大型模型繁荣发展。通常,建筑演化趋势有两种类型。一个是变压器模块的改进。另一个是Transsublayer的改进。这些改进主要为上下文功能提供了其他改进,减少计算机消耗和调节旨在针对原始的跨体系结构,以提高LE的效率和可扩展性。 2.1变压器模块的改进可以将变压器模块的改进分为CINCO主方向[1]。首先,减少内存的使用和计算。变压器的中心优化是在消耗计算机资源的自催化机制中找到的。目前,它主要优化其计算有效的计算,并近似原始计算以降低复杂性,从而降低复杂性不必要的计算和数据存储,例如限制注意力的计算范围,对于基本计算,采用了次级优化(例如Timemixer ++ [2])压缩和内存优化技术,并介绍其他算法(例如,残留的自催化和累积自体性机械机构)。在实施这些改进时,计算效率随模型的性能的效率必须平衡,即精确性和泛化功能不会通过减少资源消耗而显着影响。典型的体系结构包括光变压器[3]漏斗弹射器[4],Delight [5],RealForme [6]等。第二个是优化自适应计算时间。变压器中的顺序计算数与输入大小无关,但仅取决于层的数量,这使计算怪异或不完整。变压器对所有输入使用相同数量的计算来降低计算效率ency。因此,通用跨性别[7]代表的建筑诞生了。它的特征是模型可以使用RNN网络动态学习,并根据输入数据的复杂性确定每个位置中项目在每个位置的次数。同时,引入了停顿的概率,以确定模型是否必须在每个位置计算的情况下继续进行迭代,直到满足特定的阈值条件。典型的体系结构包括计算变压器的顾问[8]和Debert [9]。第三是使用圆形或层结构。例如,Transformer-XL [10]在段落级别介绍了相对位置编码和循环机制,该段落最适合不同长度的条目并提供了前面的条目。宝石的隐藏状态不仅可以用作当前段的条目,不仅可以维护长序列信息,而且还可以更好地利用THe段落的上下文信息。循环机制通过处理长序列有效地解决了标准变压器的局限性。典型的体系结构包括压缩变压器[11]和Memformer [12]。例如,Hi-Transformer [13]使用层次设计方法将输入数据分为不同的级别进行处理。通过将信息添加到更高级别,该模型可以捕获更好的全局上下文。矩阵的Ecturas包括Hibert [14],Vision Transformer [15]和TimeFormer [16]。第四,其他方法用于优化跨体系结构,例如搜索可区分体系结构[17],以使用神经体系结构搜索体系结构找到最佳的网络结构,而Macaron Trans [18]在通过自我对象的替代布置和供您投入的网络层的替代布置上提取特征和上下文建模之间实现了更好的融合。典型的体系结构包括SAN。 Dwich Transformer [19]。2.2为了改善一般变换子尺寸,变压器模块通常包括四个子组合。位置编码。多注意;标准化残差连接层。放置前馈网络。当前,向上护理机制有很多改进,主要集中于降低护理机制的计算复杂性或修改这些机制,以便可以学习更多内容。许多方法可以降低护理机制的复杂性[20]。首先,我们采用秩序方法来降低注意机制的计算复杂性,例如淋巴结[21],表演者[22],Nystromformer [23],合成器[24]。其次,通过使用稀缺的护理机制来减少序列长度线性的护理机制的复杂性,例如长单[25]。例如,改革者[26]通过对输入令牌进行分类和分组来表达稀缺的学习。代表性架构也包括Ude Big Bird [27],艺术家[28]和Trans的作用[29]。第三个是注意力头交流或彼此共享信息,学习最佳的关注范围并提高了多个头部的注意机制,例如使用不同的注意力以及不同关注部分的注意力。代表性体系结构包括关注教区头[31],多刻度变压器[32]和头部注意力的混合物[33]。对于位置编码,目前使用了四种主要优化方法:绝对位置编码(例如标准变压器的位置编码)。相对位置编码(例如,trans-xl);与绝对和相对位置信息的混合编码(例如Roform [34]);提供序列订单信息的其他方法的隐式编码(例如,R-Transformer [35])。从残差连接和进度网络的角度来看,主要评论包括改变M的注意机制最终的头部和高级网络的位置,建立了层的标准化位置,取代了层的归一化,完全消除,完全消除了层的标准化并引入了反向残差层(用于改革者)。高级网络的位置发生变化的方式,例如更改激活功能,提高其表现力能力或消除前馈网络,也意味着相关的变化。最近,NVIDIA推出了NGPT体系结构[36]。这使嵌入,感知性多层(MLP),注意矩阵,隐藏状态和其他向量(如单位规范)(如单位规范)上的其他向量归一化,随着上下文的增加而达到更高的训练速度。除了调整和改善3 TR跨性别的专利架构外,该行业和学院还带来了建筑创新,以提高模型,可伸缩性和PE的效率使用混合变压器和其他体系结构的体系结构使每个优势都具有完整的功能并提高模型的一般性能。 3.1 CNN和TLOS TROMBIND COMBING LANCE的ANSFORMATOR在自然语言的处理中很好地工作,但是卷积神经网络(CNN)在特定的图像处理任务中仍然具有效率和结构优势。混合体系结构使用长范围变压器和CNN局部功能提取功能的处理功能,以在需要详细关注和全局信息的任务中实现出色的性能。例如,Swin Transformer引入了将其与卷积操作相结合的局部注意机制,显示出极好的可扩展性和效率。 Vision Transformer(VIT)将图像分为小部分,并使用变压器捕获全局图像功能进行处理。带有CNN和Trance的语音识别。这不仅提取本地特征,但还允许模型的长距离依赖关系。 Consnext使用改进的卷积操作和网络体系结构来捕获较长的依赖性,并允许整合与自动发音机制的能力相似的全局信息。 3.2 RNN和Trans组合变压器在长序列方面效果很好,但是RNN(尤其是LSTM和GRU)在时间序列或动态测序任务的建模中仍然具有优势。 RNN动态测序建模功能与变压器的全局依赖能力的组合可以导致特定任务的进步。例如,作为混合深度模型,LSTM +变压器的体系结构近年来在学院和行业中引起了很多关注。混合体系结构在序列分析任务中取得了出色的性能,并在许多领域(例如文本生成,自动transla)取得了进步时间序列和预测。同时,transxl和通用transxl在transforder r和perpence属性的第二部分中提到,rnn+trans Argling在教育系统应用中具有出色的性能[38],神经网络机器的翻译[39]和语音识别[40]。它正在实现。 3.3 GNN和Transformer图形(GNN)的神经网络在处理图形结构数据(社交网络,知识图形,分子结构等)方面具有独特的优势,并且逐渐开发了足够的架构,以扩展大型模型。反式可以扩展GNN的感知范围。 GNN帮助变形金刚捕获有关图形结构的复杂信息,并添加来自相邻节点的有效信息。图形注意网络(GAT)引入了图形数据的机制。这允许节点动态调整邻居的重要性,类似于变形金刚的护理机械nism,但适用于图形结构。随着数据量表的增长,改进的GAT模型(例如Graphorma和Graph Transformer Red(GTN))继续处理大型复杂的图形数据。 3.4专家系统的混合物专家(MOE)的混合物是指结合多个子模型(专家模型)的架构。通过处理复杂任务,可以根据不同的进入特性动态选择和激活一些专家的子模型。该体系结构特别适合大型分布式系统。例如,GSHARD和SWITW TRONSSICES模型通过引入大量专家subsodels并动态选择活跃的参赛作品,从而显着提高了模型的能力和性能。例如,专家的第一专家的混合使用使用分散激活来减少计算机资源的消耗,仅调用专家网络的一部分。通用变压器最近的到来(MOEUT)[41]在混合混合物中,可以以计算和有效形式扩展通用变压器(UTS),以记忆解决基本UT计算参数关系的问题。随着计算机资源和模型大小的增加,Moe的架构可能是将来大型模型体系结构的关键方向。 4自2022年以来,我们在非转化架构的算法中达到了创新。一些新的非转化算法和架构也出现了。主要创新是替代了从NE网络算法系统中完全转移的注意机制,这些机制是跨体系结构的中央uronals QKV和FeedForward(FFN)。它还引起了学者和行业的关注,从而实现了在某些领域克服跨建筑的表现的表现。 4.1创新的RNN框架,返回RNN体系结构,这要归功于其强大的序列和该公司的背景感知能力在各种任务中都表现出色,但在反向培训中暴露于瓶颈,并且由于法律而从祭坛上掉下来。但是,诸如RWKV,Mamba和XLSTM之类的RNN模型又一个接一个地出现,在多个任务中的变压器上取得了出色的性能。 RWKV [42]模型将RNN时间的递归特性与变压器的平行计算机功能相结合。它使用像RNN这样的结构,但在训练和推理过程中具有反式级别的性能,从而允许有效的加工序列数据。 RWKV在开源社区中获得了热情。一些开发人员开始将RWKV应用于自然语言处理任务,以验证现实世界中的性能和效率。状态空间模型(SSM)[43]通过使用连续时间的线性动态系统进行递归和卷积操作有效地对长序列数据进行建模。 S4模型是代表性的,用于使用特殊的参数化方法处理长序列时有效稳定并稳定模型。 SSM和S4在语音识别和时间序列的预测等任务中很好地工作,并且受到学术界的重视。一些研究人员开始将其应用于自然语言处理等领域。 S5模型是S4的改进,进一步优化了状态空间模型的效率信息和稳定性。 S5结合了圆形,卷积和连续时间模型的优势,可以并行处理超长序列数据。 Mamba Architecture [44]是SSMLA Mamba架构的想法的祝福,有时称为S6,因为它会获得祝福并添加了基于S4的选择机制。通过有效的自动发音机制,层次特征的提取和适应性计算,它降低了计算复杂性和记忆y使用并提高理解进入序列的能力。与传统的变压器相比,Mamba显着提高了计算机效率和性能,尤其是在自然语言和计算机视觉任务的处理中。该体系结构引起了人们对学术界和行业的关注,并适用于广泛的任务XLSTM体系结构[45]使用了更复杂的门结构,改善了入口,健忘和输出管理能力,从而有效地解决了RNN梯度消失的潜力。同时,我们提出了一种选择性的内存机制,以在每个时间步骤中允许选择性模型更新,而不是强迫所有状态进行更新。同时,体系结构允许一定程度的并行计算,通过处理长序列来提高计算机效率。与变压器相比,XLSTM的计算机资源较少,这使得它更适合真实时间或有限的应用程序资源方案。最近,Bengio的团队对两个传统的RNN体系结构LSTM和GRU进行了巨大的转变,创建了两个新车型Minlstm和Mingru [46]。通过消除入口的隐藏状态依赖性并忘记门,不再需要反向。与常规版本相比,繁殖计算显着降低了两者中使用的参数,允许在训练过程中完全平行(序列速度175倍高于512速度,并且序列加速了1300倍,超过4,096个速度,超过4,096速,与相似的效率相似,类似于4.2的现代化,可以替换了一个有效的转换器的机制。线性计算的复杂性和更好的可扩展性。ING架构。目前,研究人员正在评估大规模语言模型的性能。 MLP混合[49]是Google在2021年提出的模型,但在2022年之后仍有广泛的研究和应用。该模型完全基于MLP,并且不使用卷积或自我定义机制。 MLP混合物可以在整个序列范围内混合信息,以交替交替使用令牌的混合层和通道的混合物,捕获长期单元并实现与自催化机制相似的全局信息相互作用。转换[50]将卷积操作与MLP混合器体系结构相结合,以提出纯粹的转换模型,该模型可以实现相似的性能,例如不使用自催化机制的转换器。该模型通过图像的碎片并应用深度卷积实现了有效特征的提取和融合。 Convmixer在图像分类的任务中取得了竞争成果S并引起了对计算机视觉领域的兴趣。几项研究研究了其他任务和领域中的应用潜力。 Google在2021年还提出了FNET [51],用傅立叶的转化代替了自催化机制。该模型通过将快速两维傅立叶的转换应用于入口序列,从而使频域中的时域信息。在傅立叶转换后,非线性激活和前馈网络适用于丰富特征的表示。傅立叶的转换是全局的,并迅速捕获了频域中全局信息的序列相互作用中所有位置之间的关系,从而替换了自动关节机制。通常,相同的特征是我们可以实施非变形架构并实现自催化机器,我们使用不同的算法来实现全局信息互动s。这些模型可以通过允许通过傅立叶变换,长卷积,跨位置的MLP等允许整体信息和交互的混合来捕获较长的单元。第二个是要获得比自催化机制更简单的计算方法。与自定义机制的时间或(n2)的复杂性相比,这些模型使用计算方法或(n \ log)或(n)来提高长序列的处理效率。第三个有效地捕获了较长的单元。通过递归,卷积和频域转换等方法,这些模型可以有效地模拟与自动发音机制的中心功能相当的长范围元素之间的关系。第四,可以实现模型参数的压缩和优化。先前的模型使用参数交换,层次结构和其他方法来减少模型参数NUMBER并降低计算和存储成本。 4.3多层识别架构中的创新架构Kolmogolov Arnold(KAN)网络[52]是基于Kolmogolov Arnold的先验定理的神经元网络架构。苏联数学家安德烈·科尔莫格罗夫(Andre Kolmogorov)和他的学生弗拉基米尔·阿诺德(Vladimir Arnold)提出了这种理由,并指出多元连续功能可以表示为一系列连续功能的有限组合。这为构建神经元网络提供了理由,因此可以通过组合独特的功能来实现复杂的多元功能。根据通用方法定理,为了提高模型的准确性,必须连续改进模型的宽度。如果您需要创建无限的精度模型,则必须训练一个无限的宽度网络,这显然是不可行的。 KAN红色方法近似使用单位函数组合的多元函数NS使用有限尺寸网络来实现无限精度模型,等于建议这样做的方法。当多层次的感知器模仿大脑中的神经元时,KAN类似于模仿视网膜中的神经元,其国际链接是从传统的多层感知网络中投入的。到目前为止,KAN网络只能使用ArchitectRee级别,而仅适用于最复杂的特征,而仅适用于理论数据。 kans没有与电车架构相比的实验数据。对5种大型语言模型的未来发展的简要分析。仍讨论了预测下一代币是否可以实现一般情报的结论。很难确定规模可以持续多长时间。但是,将“长距离分离和长时间的划分”结合在一起,而变压器的算法结构则收敛到变压器再次显示出不同的趋势的地步。在中期和短期内,较大的先前训练的模型路线继续享受规模方法的股息。正如萨顿(Sutton)所说,仍然有很大的探索空间来利用计算机功率来提高模型水平。随着RNN和Trans等新的和反式建筑的持续创新,最复杂的经济定律平衡了参数,数据和计算的力量。在保持性能的同时,这两个功能之间的关系有效地减少了参数量表,从而降低了计算成本。从长远来看,其他非转换人工智能技术的创新也必须更加关心。人工智能在解决问题,推理和知识计划,不确定的知识和不确定的推理,沟通,意识和行为方面也取得了重大进步。还有重新履历学习(2015年),进化算法(2002),内存AUmmented Networks(2014),胶囊网络(2017),元学习(2017),连续学习(2017年),认知架构(1990)和受生物启发的模型(2015)。跨度 - 丙烯酸脉冲继续延续,可以通过创新的现有建筑集成来实现规模定律。建筑过于复杂的建筑使得在学者和行业之间形成可持续的闭路,并且无法有效地与现有的计算机设施联系起来。但是,应考虑到,与新的模拟计算机范式和传统数字芯片中创新的加速不同,对其他计算机范式的调查(例如光电计算,量子计算和生物计算)也采取了可靠的步骤。 6基于变革架构的结论创新主要是在首次提出建筑时期的时期。在过去的两年中,我们主要关注关于交换护理机制和再生降落的创新。改进的RNN体系结构的恢复也可以并行计算,这也已成为最近研究的热门话题。除了建筑创新外,在推理阶段还提出了短期内的新想法,以继续通过信任加强的学习链以提高推理能力或提高模型的准确性来继续获取规模定律。但是,有许多方法可以实现通用人工智能,以及该行业将来无法证明的其他“无形”架构需要更加理论上的研究和实际探索。
服务热线
400-123-4567