网络知识 娱乐 #AI分享# 什么是终身学习?《终身监督学习》新书阐述最新方法体系

#AI分享# 什么是终身学习?《终身监督学习》新书阐述最新方法体系

我们人类似乎学到了很多不同的东西。我们从不孤立地学习。相反,我们总是保留并积累过去学到的知识,并在未来的学习中无缝地使用它。随着时间的推移,我们学习得越来越多,知识越来越渊博,学习越来越有效。终生机器学习(简称LML)(简称终生学习)旨在模仿人类学习过程和能力。这种类型的学习是很自然的,因为我们周围的事物都是紧密相关的和相互关联的。过去的概念和它们之间的关系可以帮助我们更好地理解一个新的主题,因为很多事情在不同的领域和任务中都是共享的。例如,我们人类不需要1000个正面评价和1000个负面评论,因为一个ML算法需要建立一个精确的分类来识别关于电影的负面评论和负面评论。事实上,对于这个任务,如果没有单独的训练回顾,我们就可以执行分类任务了。怎么能这样呢?原因很简单。这是因为我们在过去已经积累了很多关于人们如何赞扬和批评事物的知识,尽管这些赞扬和批评可能都是在线评论的形式。事实上,如果没有过去的知识,人类可能很难在2000年的积极和消极的训练评估中手动建立一个好的分类器。

终身学习范式是人工智能的一个分支,它专注于开发终身学习系统——这种系统在一生中不断积累新知识,而不忘记先前的知识,并使用这些积累的知识来提高他们在不同任务中的表现。

终身机器学习的定义:

  定义:终身机器学习(LML)是一个连续不断的学习过程,在这个过程中,学习者已经完成了N个学习任务,T1,T2,..TN。当面对(N+1)的任务TN+1和它的数据DN+1时,学习者可以利用其知识库(知识库)(内存)中的先验知识来帮助学习TN+1。知识库存储并维护在过去学习N个任务时所学习和积累的知识。在学习了TN+1之后,知识库更新了从TN+1中学习的(中间和最后的)结果。

  陈等人[1]的这一定义表明,LML的关键特征是 1)持续学习,2) 知识积累在知识库(知识库)中,3)利用知识库中的知识来帮助未来的学习。这些特点使它有别于其他相关的学习任务,如转移学习[2]和多任务学习[3]。

  迁移学习(TL):使用一个源域来帮助一个目标获取域学习。它假设源域S有大量的标记训练数据,目标域T只有很少或没有标记的训练数据,但有大量未标记的数据。TL利用被标记的数据来帮助在目标域中学习。由于几个原因,TL与LML不同。首先,TL不是连续的。它只使用源域来帮助目标域学习。其次,TL并没有积累所学的知识。第三,TL是单向的,使用源来帮助目标。LML可以在任何方向上进行。第四,TL假设源与目标非常相似。这种相似性是由人类用户决定的。LML并没有做出这样一个强有力的假设。人类用户通常不参与确定任务的相似性。

  多任务学习(MTL):的目标是执行多个相似学习任务的联合优化,这样它们就可以共享彼此的知识,从而获得更好的整体效果。然而,MTL仍然在传统的范式中工作。在优化单个任务的过程中,它会优化几个任务。如果我们把几个任务看作一个更大的任务,它就会减少到传统的优化,这在MTL的大多数优化公式中都是如此。随着时间的推移,它不会积累任何知识,它也没有持续学习的概念,这是LML的关键特性。尽管有人会说MTL可以在添加新任务时联合优化所有任务,但是在单个进程中同时优化所有任务是相当困难的,因为任务是非常不同的,而且是非常numer的。

终身机器学习的历史:

  LML的概念是在1995年由Thrun和Mitchell [4]提出的。从那时起,它就被研究了四个主要方向:

  终身监督学习,Thrun [5] 开始学习终身概念学习,每一个过去或新任务都是一个阶级或概念。在基于记忆的学习和中立的网络环境中,提出了几种LML技术。在参考文献[6]中,神经网络方法得到了改进。费等[7]将这种形式的LML扩展到累积学习,在遇到新类时,构建了一个新的多类分类器,可以对所有的过去和新类进行分类。它还检测测试中未见的类。这为自我学习铺平了道路,因为它能够探测到看不见的类,从而使它学习新的东西。Ruvolo和Eaton[8]提出一种有效的LML算法(ELLA)来改进一种多任务学习方法。陈等[1] 人在朴素贝叶斯分类的背景下提出了一种LML技术。对LML的理论研究是由Pentina和Pentina [9]所做的。

  陈和刘[10]首先提出了终身无监督学习的终身学习模式。随后,他们也报告了其他几个模型。所提出的技术可以从许多过去的任务中学习知识,并利用这些知识帮助在新任务中生成更一致的主题。刘[11]等人提出了一种利用LML方法提取信息的方法,刘[12]提出了一种终生的图形标记方法,将两种类型的表达式分离开来。

  终生的半监督学习在这个领域的工作是由永无止境的语言学习者(NELL)系统[13]所代表的。自从2010年1月以来,NELL一直在为信息提取而不断地阅读网络,并且已经拥有了数百万的实体和关系。

  终生强化学习Thrun和Mitchell [4]第一次学习终生强化学习(LRL),用于机器人学习。Tanaka和Yamamura [14]提出了一种“LRL”方法,将每一个环境视为一项任务。Bou Ammar等[15]人提出了一种政策梯度有效的LRL算法。

研究前沿:171页pdf最新《终身监督学习》新书阐述最新方法体系

我们要强调的是,终身学习模式不仅适用于多任务设置,也适用于单任务设置。

终身学习是一种普遍的设置,因为它对任务(或任务)的假设较少。考虑一个标准的单任务监督学习设置,学习者可以在开始训练之前访问整个数据集。在这种情况下,学习者可以对数据集执行多个epoch,对每个epoch的数据进行变换,以保持数据分布i.i.d(独立和同分布)。然而,在这个设置中有许多隐含的假设—因为我们事先可以访问数据集,所以我们知道数据集中存在多少唯一的类。我们也可以访问类的分布,并可以以不同的方式衡量类。我们还可以对数据进行多采样/少采样。虽然这些假设使训练的设置变得可行,但它们也使更一般的开放式学习设置偏离了设置。如果我们不假设访问数据集(甚至是独特类的数量),人工智能系统将不得不应对挑战,如在看到新类时修改网络架构,在训练新数据点时不忘记旧数据点,以及在新数据不断输入时潜在地增加系统的容量。所有这些挑战都是在终身学习的范式下研究的。

#AI分享# 什么是终身学习?《终身监督学习》新书阐述最新方法体系

本入门书试图对终身学习的不同方面提供一个详细的总结。我们从第2章开始,它提供了终身学习系统的高级概述。在本章中,我们讨论了终身学习的主要场景(2.4节),介绍了不同终身学习方法的高层次组织(2.5节),列举了理想的终身学习系统(2.6节),讨论了终身学习与其他学习模式的关系(2.7节),描述了用于评估终身学习系统的常用指标(2.8节)。这一章对终身学习的新读者更有用,并希望在不关注具体方法或基准的情况下了解该领域。

其余章节集中在特定方面(学习算法或基准),对于寻找特定方法或基准的读者更有用。第3章主要讨论基于正则化的方法,这种方法不需要从以前的任务中访问任何数据。第四章讨论了基于记忆的方法,通常使用重放缓冲区或情景内存来保存不同任务的数据子集。第5章集中讨论了不同的体系结构家族(及其实例),这些体系结构家族被提议用于训练终身学习系统。在这些不同类别的学习算法之后,我们讨论了终身学习常用的评估基准和指标(第6章),并在第7章结束了对未来挑战和重要研究方向的讨论。

其余章节集中在特定方面(学习算法或基准),对于寻找特定方法或基准的读者更有用。第3章主要讨论基于正则化的方法,这种方法不需要从以前的任务中访问任何数据。第四章讨论了基于记忆的方法,通常使用重放缓冲区或情景内存来保存不同任务的数据子集。第五章集中讨论了不同的体系结构家族(及其实例),这些体系结构家族被提议用于训练终身学习系统。在这些不同类别的学习算法之后,我们讨论了终身学习常用的评估基准和指标(第6章),并在第7章结束了对未来挑战和重要研究方向的讨论。

#AI分享# 什么是终身学习?《终身监督学习》新书阐述最新方法体系

图书链接:

https://arxiv.org/abs/2207.04354


还有一些计算机科学家正在开发像人类大脑那样可以持续学习和改进的人工智能

机器学习算法通常采用神经网络的形式,即很多简单的计算元件(神经元)通过彼此间强度(权重)不同的联系来相互交流。比如在设计一种用来识别图片的算法时,如果在训练时,算法错误标记了一张图片,那么权重就会被调整。当错误被降低到特定阈值以下时,权重就不会再变,会被冻结在设定值上。


#AI分享# 什么是终身学习?《终身监督学习》新书阐述最新方法体系


图片来源:Pixabay

新技术将每个权重都分成了两个数值,二者共同影响了一个神经元在多大程度上能激活另一个神经元。其中第一个数值与传统系统中训练和冻结的方式相同。但是第二个数值会不断根据网络中周围的活动进行调整。很关键的是,该算法还会学习如何调整这些权重。因此,该神经网络不仅学到了行为模式,还学会了如何根据新环境来修改行为的各个部分。研究人员在瑞典斯德哥尔摩召开的一次会议中展示了他们的这项技术。

该团队使用这项技术创造了一个神经网络,在看到完整图片仅几次后就能把被擦掉了一半的图片复原。与之相比,传统的神经网络得看到更多图片才能恢复原始图片。研究人员还创造了一个神经网络,能在仅看到一个例子后便学着识别出了手写字母——手写体与打印体不同,是不规整的。


#AI分享# 什么是终身学习?《终身监督学习》新书阐述最新方法体系


图片来源:Pixabay

在另一项任务中,神经网络控制一个角色在一个简单迷宫中寻找奖励。在100万次尝试后,能半调节权重的系统在每次尝试中找到奖励的次数,比固定权重的系统多出两倍。半调节权重中固定的部分显然掌握了迷宫的结构,动态的部分则掌握了如何发现新的奖励的位置。“这太厉害了,”美国加利福尼亚大学伯克利分校的计算机科学家尼基尔·米什拉(Nikhil Mishra,未参与此项研究)说,“因为这样的算法能更快适应新任务和新场景,就像人一样”。

共享出行公司Uber的计算机科学家、论文的第一作者托马斯·米科尼(Thomas Miconi)说,他们的团队目前打算解决更复杂的任务,比如控制机器人和语音识别。米科尼想在此类新任务中模拟“神经调节”,这是一种即时的、基于神经网络的、适应性的调节,使得人类在发生了新奇或者重要的事情时能够吸收知识。

撰文:马修·赫特森(Matthew Hutson)

翻译:张哲