DeepMind 的 Perceiver AR:迈向更高 AI 效率的一步

DeepMind 的 Perceiver AR:迈向更高 AI 效率的一步

人工智能中极其流行的深度学习部分令人担忧的方面之一是程序的规模越来越大。 该领域的专家表示,计算任务注定会变得越来越大,因为规模很重要。

越来越大的项目是资源大户,这是深度学习社会伦理中的一个重要问题,这一困境引起了《自然》等主流科学期刊的关注。

这就是为什么每次提到效率这个词都很有趣,比如,我们能让这个人工智能程序更有效率吗?

DeepMind 和谷歌大脑部门的科学家最近对他们去年推出的神经网络 Perceiver 进行了改造,以使其在计算能力需求方面更加高效。

新程序 Perceiver AR 以越来越多的深度学习程序的“自回归”方面命名。 自回归是一种让机器将其输出用作程序新输入的技术,这是一种递归操作,可形成多个元素如何相互关联的注意力图。

谷歌于 2017 年推出的广受欢迎的神经网络 Transformer 具有这种自回归特性。 许多模型都这样做了,包括 GPT-3 和 Perceiver 的第一个版本。

Perceiver AR 是 Perceiver 的第二个版本,称为 Perceiver IO,于 3 月推出,而原始 Perceiver 于一年前的本月推出。

原始感知器的创新之处在于,将 Transformer 进行微调,让它以灵活的形式消费各种输入,包括文本声音和图像,而不是局限于特定的一种输入,将各种不同的输入分开。 通常开发神经网络。

Perceiver 是越来越多的程序之一,它们使用自动回归注意机制来混合不同的输入模式和不同的任务域。 其他示例包括 Google 的 PathwaysDeepMind 的 Gato 和 Meta 的 data2vec。

然后,在 3 月,构建 Perceiver 的 Andrew Jaegle 及其同事的同一个团队推出了“IO”版本,它增强了 Perceiver 的输出以适应不仅仅是分类,实现了具有各种结构的大量输出,范围从 文本语言输出到光流场到视听序列到符号无序集。 它甚至可以在星际争霸II游戏中产生运动。

现在,在使用 Perceiver AR 进行通用、长上下文自回归建模的论文中,Jaegle 和团队面临的问题是,随着模型在多模式输入和输出任务中变得越来越雄心勃勃,它们应该如何扩展。

问题是,Transformer 的自回归质量,以及任何其他构建从输入到输出的注意力图的程序,都需要在数十万个元素的分布方面具有巨大的规模。

这就是注意力的致命弱点,准确地说,需要关注任何事情,以便组装形成注意力图的概率分布。

正如 Jaegle 和团队所说,随着输入中必须相互比较的事物数量的增加,它变成了计算方面的扩展噩梦:

这种长格式的上下文结构与 Transformer 的计算特性之间存在张力。 Transformers 反复对其输入应用自注意力操作:这导致计算要求同时随输入长度呈二次方增长并随模型深度呈线性增长。 随着输入数据的增长,需要更多的输入标记来观察它,并且随着输入数据中的模式变得更加微妙和复杂,需要更多的深度来对产生的模式进行建模。 计算限制迫使 Transformers 的用户截断模型的输入(防止它观察多种远程模式)或限制模型的深度(剥夺它对复杂模式建模所需的表达能力)。

事实上,最初的 Perceiver 通过对输入的潜在表示进行关注而不是直接关注,从而提高了 Transformers 的效率。 这具有“[解耦]处理大型输入数组的计算要求与使网络非常深入所需的计算要求的效果。”

输入表示被压缩的潜在部分成为一种更有效的注意力引擎,因此,“对于深度网络,自注意力堆栈是大量计算发生的地方”,而不是对无数输入进行操作。

但挑战仍然存在,即 Perceiver 无法像 Transformer 那样生成输出,因为这种潜在表示没有秩序感,而秩序在自回归中是必不可少的。 每个输出都应该是它之前而不是之后的产物。

“然而,由于每个模型都潜在地关注所有输入,而不管位置如何,感知器不能直接用于自回归生成,这要求每个模型输出仅依赖于按顺序排列在它之前的输入,”他们写道。

借助 Perceiver AR,该团队更进一步,将命令插入 Perceiver,使其具备自动回归功能。

关键是所谓的输入的“因果掩蔽”,其中发生“交叉注意力”和潜在表示,以迫使程序只关注给定符号之前的事物。这种方法恢复了方向性质量 Transformer,但计算量要少得多。

结果是能够在更多输入上完成 Transformer 所做的工作,但性能显着提高。

“Perceiver AR 可以学习在合成复制任务中完美识别至少 100k 令牌距离的长上下文模式,”他们写道,而 Transformer 的硬性限制为 2,048 个令牌,其中更多令牌等于更长的上下文,这应该等于 程序的输出更复杂。

Perceiver AR 通过“与广泛使用的仅解码器 Transformer 和 Transformer-XL 架构相比提高了效率,并且能够改变测试时使用的计算以匹配目标预算。”

具体来说,他们写道,对于相同数量的注意力,计算 Perceiver AR 的挂钟时间显着减少,并且能够在相同的计算预算下获得更大的上下文——更多的输入符号:

Transformer 的上下文长度限制为 2,048 个标记,即使只有 6 层——更大的模型和更大的上下文长度需要太多内存。 使用相同的 6 层配置,我们可以将 Transformer-XL 内存扩展到 8,192 的总上下文长度。 Perceiver AR 可扩展到 65k 上下文长度,并且可以通过进一步优化扩展到超过 100k 上下文。

所有这些都意味着计算的灵活性:“这使我们能够更好地控制在测试时用于给定模型的计算量,并允许我们顺利地权衡速度与性能。”

Jaegle 和他的同事写道,这种方法可以用于任何输入类型,而不仅仅是文字符号,例如图像的像素:

只要应用了掩码,就可以将相同的过程应用于可以排序的任何输入。 例如,图像的 RGB 通道可以按光栅扫描顺序排序,通过解码序列中每个像素的 R、G 和 B 颜色通道,甚至在不同的排列下。

作者看到了 Perceiver 的巨大潜力,写道“Perceiver AR 是通用、长上下文自回归模型的一个很好的候选者。”

但是,在计算机效率因素中还有一个额外的波动。 作者指出,最近的一些努力试图通过使用“稀疏性”来减少自动回归注意力的计算预算,这是限制哪些输入元素被赋予重要性的过程。

这有一些缺点,主要是太死板了。 “使用稀疏性的方法的缺点是,这种稀疏性必须手动调整或使用通常特定于领域且难以调整的启发式方法创建,”他们写道。 这包括 OpenAI 和英伟达 2019 年的“稀疏变压器”等努力。

“相比之下,我们的工作并没有在注意力层上强制采用手工制作的稀疏模式,而是让网络了解哪些长上下文输入需要注意并通过网络传播,”他们写道。

“最初的交叉参与操作减少了序列中的位置数量,可以被视为一种学习稀疏性的形式,”他们补充道。

以这种方式学习的稀疏性本身可能会成为未来几年深度学习模型工具包中的一个强大工具。

本文内容由互联网用户自发贡献,该文观点仅代表作者本人。商机网仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如发现本站有涉嫌抄袭侵权/违法违规的内容, 请发送邮件至 tenspace2022@163.com 举报,一经查实,本站将立刻删除。 本文链接:https://www.315965.com/n/66735.html 聚才发 母婴好物

(0)
上一篇 2023年12月31日 上午4:27
下一篇 2023年12月31日 上午4:39

相关推荐

  • 为什么说慈懿皇后李凤娘是宋光宗赵惇的噩梦?

    在中国历史上,有许多皇后都以其独特的个性和影响力在历史舞台上留下了深刻的印记。其中,宋朝的慈懿皇后李凤娘就是一个典型的例子。她是宋光宗赵惇的皇后,但她的存在却成为了赵惇的噩梦。那么,为什么说慈懿皇后李凤娘是宋光宗赵惇的噩梦呢? 首先,李凤娘的个性强烈,她聪明、机智,有着强烈的权力欲望。这使得她在宫廷中的影响力远超过一般的皇后。然而,这种强烈的个性和权力欲望却…

    2024年2月21日
    30
  • 网上创业做什么项目赚钱?

    这期七赚联盟分享一篇关于2021年网上做什么项目创业赚钱的文章,原文来自vxgongzhonghao暴疯团队俱乐部,原文标题2021年做什么创业项目?   在2020年底的时候,我想了想,决定开启我人生中第三次重要的互联网创业之旅,并且把这个创业的地点放在了广州—-一个充满了N多网上创业者聚集的地方。   简单的来跟大家说一说,今年我会做什么,同时也可以给大…

    2023年12月20日
    140
  • 天然气多少钱一方2024(家用天然气多价格表)

    天然气是城镇居民使用最广泛的,无论是做饭还是洗澡都离不开,而对于天然气的价格各地标准不一,因此使用价格很受人们关注,那2024年天然气价格多少钱一方?燃气收费标准是多少? 一、2024年天然气价格多少钱一方? 1.安徽淮南 自2024年4月1日起,非居民用天然气销售价格是3.95元/立方米,若年用气量50~100万立方米的优惠0.05元/立方米,年用气量10…

    2023年12月8日
    312
  • 保温材料有哪些种类(常用高效工业建筑保温材料)

    随着国家“双碳”政策的实施,节能减排已成为当今建筑的必要“功能”。因此,保温材料保温建筑节能减排的主要材料迎来了一个新的发展时期。今天,让我们来看看常用的保温材料。 岩棉 岩棉主要以玄武岩等天然矿石为原料,经高温熔化加工而成。它是一种新型的保温、隔热和吸声材料。岩棉中常用的材料是岩棉板,主要用于建筑外墙、幕墙和防火隔离带。 岩棉板具有保温、吸声降噪、明火不燃…

    2023年12月10日
    138
  • 腾讯公司微信广告业务,微信官方广告

    腾讯公司关于vx朋友圈的广告是怎么收费的? 那些都是好友自行转发的,腾讯不收费,相反,腾讯正在打击这些在朋友圈发广告的行为 腾讯公司关 那些都是离好友自行转发的,腾讯不收费,相反,腾讯正在打击这些在朋友圈发广告的行为

    2024年1月26日
    112
  • 相亲成功秘籍(男生抱得美人归的十个小技巧)

    什么是相亲?可以简单理解成一个,一个认识到平时没有机会认识到的人的。并不意味着见了面就得交往,或者会跳过两个人的意愿,以及跳过恋爱的过程直抵婚姻的殿堂,所以不要有什么心理包袱。 带着自己落落大方的态度,就当是认识了一个新朋友,如果不是对方喜欢的类型,那么这是很正常的事情,不要纠缠。 如果对方是你喜欢的类型,或者对其特有好感,那么千万要记住一句话:心急吃不了热…

    2023年8月8日
    138
  • 满足您各种需求的文件管理器源代码

    如果你有一台电脑,你就可以处理文件,不管云计算的出现多么试图掩盖这一事实。 毕竟,Google Drive 和 Dropbox 只不过是在线文件管理器。 当大多数人想到文件管理器时,他们往往会想到 Windows 资源管理器或 Mac OS X Finder,但实际上还有许多其他方式来管理文件。 在本文中,我们将介绍几种管理文件的方法,以适应几乎任何工作方式…

    2024年1月13日
    122
  • 赵顼(宋神宗)的统治时期是什么样的

    赵顼(宋神宗)的统治时期是什么样的 赵顼,北宋第六位皇帝,庙号神宗,谥号体元显道法古立宪帝德王功英文烈武钦仁圣孝皇帝。他在位期间,以强大的决心和力度,针对北宋积贫积弱的局面,进行了一系列改革。本文将揭示赵顼的统治时期的特点和主要事件。 一、改革与创 赵顼是北宋历史上一位重要的改革家,他继位时年仅二十岁。在面对北宋日益严重的社会问题和财政困境时,他决心改革,以…

    2024年2月24日
    29
  • 世界上最小的鲨鱼图片(最小的可爱鲨鱼品种叫什么)

    一般我们说起鲨鱼,首先想到的就是大,鲨鱼是海洋中的庞然大物,每年都会有鲨鱼伤人事件发生,满嘴利齿,十分吓人,号称“海中狼”。鲨鱼有很多种类,不同种类可能体型也不一样,那么世界上最小的鲨鱼有多小呢? 硬背侏儒鲨,身体最长也不超过11英寸(约合27.9厘米),是世界上已知的体型最小的鲨鱼。就像其近亲灯笼棘鲛一样,硬背侏儒鲨也是深海鱼类,平时生活在深达1200米左…

    2023年11月29日
    181
  • 20 分钟的 Android 调试源代码

    秋天的开始肯定是一个特殊的时间,不是吗? 颜色在变,树叶在飘落,几乎随处可见精美的新手📱机。 这还不是全部。 现在离正式的秋天来临只有几天了,现在是清理、梳洗并确保您现有的工作空间完美准备以提高工作效率的最佳时机。 让你的实体办公桌像样的全靠你了(说真的,伙计,偶尔打扫一下会不会要你的命?),但说到你口袋里的虚拟办公室——你知道,那个闪亮的办公室 你的智能手…

    2024年1月9日
    685

发表回复

您的电子邮箱地址不会被公开。 必填项已用*标注