连续反向传布算法是否攻破 LLM 的「固化魔咒」?
栏目:专题报道 发布时间:2025-02-01 08:33
深度进修前驱 Richard S。Sutton 近期在 Amii(阿尔伯塔呆板进修学院)宣布报告,指出以后的深度进修方式存在基本上的缺点,进而分享了他对更好的深度进修的愿景,并将新的范式定名为 Dynamic Deep Learning。他在该愿景下提出了反向传布算法,处理了以后连续进修中模子可塑性损失的成绩,并为将来能顺应静态情况的深度进修收集指出了可行的偏向。目次01. Sutton:当初的深度进修在基本上出缺陷?以后深度进修有什么缺点?微调未来不存在了?Dynamic DL 是什么?02. 连续反向传布算法懂得一下?反向传布算法是什么?连续反向传布跟传统版本有什么差别?03. 连续反向传布算法将解锁新的练习范式吗?连续进修的代价在哪?在线进修对模子练习有什么辅助?...01 Sutton:当初的深度进修在基本上出缺陷?年夜型言语模子会在年夜型通用练习集长进行练习,而后在针对特定利用或满意政策跟保险目的的较小数据集长进行微调,但最后在收集投入应用前会解冻其权重。就现在的方式而言,当有新数据时,简略地持续对其停止练习平日是有效的。新数据的影响要么太年夜,要么太小,无奈与旧数据恰当均衡。1、Sutton 在报告的扫尾就直不雅地先容了他对深度进修的愿景,他将其称为 Dynamic Deep Learning(静态深度进修),而这种静态是为了让深度进修顺应连续进修的情况。① Sutton 夸大了连续进修的主要性,即进修应当在每个时辰都在停止。连续进修更濒临天然进修进程,全部天然体系(如植物跟人类)都在连续进修,而不是在特定阶段进修。② 以后的深度进修是瞬态进修(Transient Learning),其在一个特别的练习阶段进修,且算法会在连续进修情况中掉败,得到可塑性,发生灾害性忘记,并在强化进修战略中瓦解。2、缭绕让深度进修更好地顺应连续进修情况的愿景,Sutton 提出了 Dynamic Deep Learning 的范式。① Dynamic DL 的收集被分为骨干(Backbone)跟边沿(Fringe)两局部。② Backbone 是收集中曾经进修且对以后功效主要的局部,应该被维护跟保存。Fringe 则是收集中静态跟摸索性的局部,它试图天生对 Backbone 有效的特点。3、Dynamic DL 的收集是静态地逐渐构建的,经由过程一一单位的增加来实现,而非事后设定的牢固构造。假如 Fringe 天生的特点对 Backbone 有效,它就能够成为 Backbone 的一局部。4、Sutton 进而探究了寻觅、维护跟迟缓增加 Backbone 的新主意,以及经由过程「印记」(imprinting)、「主单位」(master units)跟「影子权重」(shadow weights)、「功效传布」(Utility Propagation)、「连续反向传布算法」(Continual Backpropagation)以及「步长优化」(Step Size Optimization)在边沿创立特点的新主意。5、Sutton 夸大他在报告中的分享的任务仅仅是实现 Dynamic DL 的第一步,尚不完全。他的主意树立于很多已实现的任务,局部研讨曾经宣布,而其余案例则呈现在他人的论文中。① Sutton 在报告中提到了一种连续反向传布方式。该方式出自 Sutton 团队 8 月 21 日宣布于 Nature 上的论文《Loss of plasticity in deep continual learning》,该任务处理了深度进修收集在连续进修情况中会得到可塑性的成绩。02 连续反向传布算法懂得一下?连续反向传布算法最初由 Sutton 在 CoLLAs 2022 集会中,题为「Maintaining Plasticity in Deep Continual Learning」 的报告中提出[33] 。然后,Sutton 团队在 2024 年 9 月于《Nature》宣布论文《Loss of plasticity in deep continual learning》,论述了连续反向传布的技巧细节。1、连续反向传布算法是 Sutton 团队提出的一种反向传布的变体,处理尺度深度进修方式在连续进修情况中碰到的可塑性损失成绩..... 存眷