谷歌的超级模型：DeepMind Perceiver 是迈向可以处理任何事物的人工智能机器的一步

• 2023年12月28日上午5:35 • 百科分享 • 阅读 141

可以说，近年来让 AI 受到广泛关注的首屈一指的事件之一是 Ashish Vaswani 和 Google 的同事在 2017 年发明了 Transformer。Transformer 催生了许多语言程序，例如 Google 的 BERT 和 OpenAI 的 GPT-3 已经能够产生令人惊讶的类似人类的句子，给人的印象是机器可以像人一样写作。

现在，谷歌旗下的英国 DeepMind 的科学家们希望利用 Transformer 超越文本的优势，让它彻底改变其他材料，包括图像、声音和视频，以及汽车用 LiDAR 记录的那种空间数据 .

Perceiver 本周由 DeepMind 在 arXiv 上发表的一篇论文中公布，它对 Transformer 进行了一些调整，使其能够处理所有这些类型的输入，并执行各种任务，例如图像识别，其中不同类型的神经网络网络通常是发达的。

DeepMind 的工作似乎是通往设想的深度学习超级模型的途中的一个中转站，一个可以执行大量任务的神经网络，并且可以更快地学习并且使用更少的数据，谷歌人工智能的负责人杰夫迪恩，被描述为该学科的“重大挑战”。

这篇名为 Perceiver: General Perception with Iterative Attention 的论文由作者 Andrew Jaegle、Felix Gimeno、Andrew Brock、Andrew Zisserman、Oriol Vinyals 和 Joao Carreira 撰写，将于本月在 7 月开幕的国际机器学习大会上发表 18 日，今年将作为虚拟活动举行。

Perceiver 延续了多年来一直在进行的通用化趋势，这意味着越来越少地内置到特定于任务的 AI 程序中。在 Vaswani 等人的 Transformer 之前，大多数自然语言程序都是根据对特定语言功能的感知构建的，例如问答或语言翻译。 Transformer 消除了这些区别，通过创建足够熟练的语言表示，生成了一个可以处理大量任务的程序。

同样，Perceiver 挑战了不同类型的数据（例如声音或图像）需要不同的神经网络架构的想法。

然而，感知者指出了更深刻的东西。去年，在旧金山举行的年度技术研讨会国际固态电路会议上，谷歌的院长在他的主题演讲中将深度学习的一个未来方向描述为“能够训练出可以执行数千或数百万的模型的目标” 单个模型中的任务。”

“构建一个可以处理数百万任务的单一机器学习系统……是人工智能和计算机系统工程领域真正的重大挑战，”Dean 说。

在会议上与 ZDNet 的对话中，Dean 解释了多年来在结合“模态”、文本和图像等不同类型输入以及已知模型组合的神经网络上如何建立一种超级模型作为“专家组合”：

我认为，专家式方法的混合将很重要，多任务和多模态方法，你可以在其中学习对许多不同事物有用的表示，并且可以共同学习好的表示这可以帮助您更快地解决新任务，并且使用更少的数据，更少的任务示例，因为您已经在利用您对世界已知的所有事物。

Perceiver 本着多任务处理方法的精神。它接受三种输入：图像、视频和所谓的点云，点云是描述汽车顶部的 LiDAR 传感器“看到”的道路的点的集合。

一旦系统经过训练，它就可以在基准测试中执行一些有意义的结果，包括图像识别的经典 ImageNet 测试； Audio Set，谷歌开发的一项测试，需要神经网络从视频中挑选出各种音频片段； ModelNet 是 2015 年在普林斯顿开发的一项测试，神经网络必须使用空间中的 2,000 个点才能正确识别物体。

Perceiver 设法使用两种技巧来完成任务，或者，也许是一种技巧和一种作弊。

第一个技巧是减少 Transformer 需要直接操作的数据量。虽然大型 Transformer 神经网络已经输入了千兆字节和千兆字节的文本数据，但图像、视频或音频文件或点云中的数据量可能要大得多。想一想来自 ImageNet 的 244 x 244 像素图像中的每个像素。对于声音文件，“标准采样率下的 1 秒音频对应于大约 50,000 个原始音频样本，”Jaegle 和团队写道。

因此，Jaegle 和团队开始寻找一种方法来减少这些数据类型的所谓“维度”。他们借鉴了牛津大学的 Juho Lee 及其同事的工作成果，后者介绍了他们所谓的 Set Transformer。 Set Transformer 通过创建每个数据样本的第二个版本来减少 Transformer 所需的计算，这是一种摘要，他们称之为诱导点。将其视为数据压缩。

Jaegle 和团队将其调整为他们所谓的“学习潜在数组”，样本数据被归结为一个数据需求量小得多的摘要。感知器以“非对称”方式运行：它的一些能力用于检查实际数据，但一些能力只查看摘要，即压缩版本。这减少了花费的总时间。

第二个技巧，实际上是一种欺骗，是为模型提供一些关于数据结构的线索。 Transformer 的问题在于它对图像的空间元素或音频剪辑的时间值一无所知。 Transformer 始终是所谓的置换不变性，意思是对特定类型数据结构的这些细节不敏感。

这是 Perceiver 普遍存在的一个潜在问题。例如，为图像构建的神经网络对二维图像的结构有一定的了解。经典的卷积神经网络将像素作为图像部分中的组进行处理，称为局部性。 Transformer 和 Perceiver 等衍生产品并不是以这种方式构建的。

令人惊讶的是，作者引用了 18 世纪德国哲学家伊曼纽尔康德的话，他说这种结构性理解至关重要。

“空间关系对于感官推理至关重要，”Jaegle 和团队援引康德的话写道，“这种限制显然不能令人满意。”

因此，为了将图像或声音的结构感反馈给神经网络，作者借用了谷歌的 Matthew Tancik 及其同事去年采用的一种技术，即所谓的傅立叶特征。傅里叶特征用一些有意义的结构信息明确地标记每个输入。

例如，图像中像素的坐标可以“映射”到数组，从而保留数据的局部性。然后，感知器在其训练阶段考虑该标签、该结构信息。

正如 Jaegle 和团队所描述的那样，

我们可以通过将特定于位置和模态的特征与每个输入元素（例如每个像素或每个音频样本）相关联来弥补我们架构中缺乏显式结构——这些可以使用高保真傅里叶特征来学习或构建。这是一种用位置和模态的高保真表示来标记输入单元的方法，类似于通过将特定单元的活动与语义或空间位置。

基准测试的结果很有趣。 Perceiver 在精度方面优于 ImageNet 上的行业标准 ResNet-50 神经网络，并且优于已适配图像的 Transformer，今年由 Alexey Dosovitskiy 及其在 Google 的同事推出的 Vision Transformer。

在 Audio Set 测试中，Perceiver 超越了大多数但不是所有最先进的模型的准确性。而在点云的ModelNet测试中，Perceiver也获得了相当高的分数。

Jaegle 和团队声称他们的程序具有一种超级熟练的能力，这种能力通过在各方面都是最好的而获胜：“当比较这些模型时，在论文中考虑的所有不同模式和组合中，Perceiver 总体上做得最好。”

Perceiver 存在许多突出的问题，使其实际上可能不是 Dean 描述的理想的百万任务超级模型。一个是该程序并不总是像为特定模式制作的程序那样好。它仍然无法针对某些特定模型。例如，在 Audio Set 上，Perceiver 不及去年由 Facebook 的 Haytham M. Fayek 和 Anurag Kumar 推出的“融合”音频和视频信息的程序。

在点云方面，它远不及斯坦福大学的 Charles Qi 及其同事在 2017 年专门为点云构建的神经网络 PointNet++。

在 ImageNet 上，显然 Perceiver 得益于具有标记图像结构的傅里叶特征的欺骗。当作者尝试删除傅立叶特征的 Perceiver 版本（称为“学习位置”）时，Perceiver 的表现几乎不如 ResNet-50 和 ViT。

第二个问题是，Perceiver 似乎没有任何东西能带来 Dean 提到的更高效计算和更少数据的好处。事实上，作者指出，他们使用的数据并不总是足够大。他们观察到，有时感知器可能无法成功地概括，并打趣说“灵活性越大，过度拟合越多。” 过度拟合是指当神经网络比其训练数据集大得多时，它能够简单地记住数据，而不是实现概括数据的重要表示。

因此，“在未来的工作中，我们希望在非常大规模的数据上预训练我们的图像分类模型，”他们写道。

这就引出了一个更大的问题，即感知者“学到的”到底发生了什么。如果 Google 的 Jeff Dean 是对的，那么像 Perceiver 这样的东西应该学习相互增强的表示。显然，尽管通用模型具有通用性，但它能够表现良好这一事实表明，这种情况正在发生。但是什么？

我们所知道的是，感知器可以学习不同种类的表征。作者展示了许多所谓的注意力图，这些视觉研究旨在代表感知者在每组训练数据中强调的内容。这些注意力图表明 Perceiver 正在调整它放置计算焦点的位置。

正如 Jaegle 和团队所写，“它可以调整自己对输入内容的注意力。”

作者特别强调了第三个弱点，即傅里叶特征问题，即作弊。在某些情况下，作弊似乎有所帮助，目前尚不清楚如何或什至可以免除拐杖。

正如作者所说，“端到端模态不可知学习仍然是一个有趣的研究方向。”

从哲学的角度来看，想知道 Perceiver 是否会导致新的特别是多模态的能力是很有趣的。 Perceiver 没有显示出不同模态之间有任何明显的协同作用，因此图像、声音和点云仍然彼此分开存在。这可能主要与任务有关。评估中使用的所有任务都是为单个神经网络设计的。

显然，谷歌需要一个新的基准来测试多模态。

对于所有这些限制，重要的是要认识到 Perceiver 可能只是通往 Dean 所描述的道路上的一个阶段。正如 Dean 告诉 ZDNet 的那样，最终的超级模型是一种进化过程：

能够拥有一个模型来完成一百万项任务的愿景的好处在于，在此过程中有很好的中间点。你可以说，好吧，我们不会放弃多模式，而是让我们先尝试在同一个模型中完成一百个视觉任务。然后是它的一个不同实例，我们尝试执行一百个文本任务，而不是尝试将它们混合在一起。然后说，这似乎运作良好，让我们尝试将百个视觉和百个文本任务结合起来，希望它们能够相互改进，并开始尝试多模态方面。

本文内容由互联网用户自发贡献，该文观点仅代表作者本人。商机网仅提供信息存储空间服务，不拥有所有权，不承担相关法律责任。如发现本站有涉嫌抄袭侵权/违法违规的内容，请发送邮件至 tenspace2022@163.com 举报，一经查实，本站将立刻删除。本文链接：https://www.315965.com/n/66468.html 聚才发母婴好物

、

0 0

体育的未来：人工智能能否比专业教练做得更好？

上一篇 2023年12月28日上午5:30

在国家道德框架试点之后，CBA 将重点放在应用负责任的人工智能上

下一篇 2023年12月28日上午5:38

百科分享

人工智能芯片初创公司 Cerebras 以超过 40 亿美元的估值获得 2.5 亿美元的 F 轮融资

Cerebras Systems 这家拥有五年历史的 AI 芯片初创公司创造了世界上最大的计算机芯片，周三宣布已获得由风险投资公司 Falcon Edge Capital 通过其 Alpha Wave Ventures 和阿布扎比领投的 2.5 亿美元 F 轮融资成长基金。参与本轮融资的回归投资者包括 Altimeter Capital、Benchmar…

2023年12月29日
135
百科分享

可能会给 Windows 11 上的 Android 应用程序带来麻烦的 3 个词

神圣的地狱冻结了，蝙蝠侠！在这片 Googley 科技的土地上，世界正在碰撞，疯狂的事情正在发生，但在您兴奋地打结之前，我们需要考虑一个快速的现实检查。让我支持一下，对于那些没有神奇地进入我的大脑并且意识到我在想什么的人。上周，微软宣布即将推出的 Windows 11 操作系统将支持 Android 应用程序，这让我们所有人都大吃一惊。是的，Wind…

2024年1月6日
147
百科分享

木工十大品牌排名榜

十大细木工 3–10 这几个产品、跳过7 谁说是十大品牌的？连环球都不如。板材十大名牌排名榜 10大品牌板材有：湘云板材、莫干山板材、福湘板材、兔宝宝板材、德国百强、跳跳兔板材、黄猫板材、金鲁丽板材、千年舟板材、大王椰板材。 1、湘云板材香港湘云板材，是一家发展完善设计、生产、销售企业。公司产品种类丰富，亩闭郑比如说生态板、三聚氰胺板、细…

神明
2023年12月28日
176
百科分享

明宣宗为什么只活了三十八岁？他为何英年早逝？

明宣宗朱瞻基，是中国历史上一位极具争议的皇帝。他在位期间，实行一系列改革，使国家政治稳重、经济繁荣。然而，令人惋惜的是，他仅在位十年，年仅三十八岁便英年早逝。那么，明宣宗为何只活了三十八岁?他为何英年早逝?本文将带您揭开这一谜团。首先，我们要了解明宣宗的生平。朱瞻基生于明成祖永乐二十二年(1424年)，是明成祖朱棣的孙子。他在位期间，推行“靖难之役”后的新…

2024年2月13日
35
百科分享

蒸饺需要蒸多长时间开水还是凉水蒸（肉馅水晶蒸饺的正确制作过程）

蒸饺子多长时间合适呢？这主要取决于馅料是素馅的还是肉馅的。一、肉馅蒸饺的时间15分钟。蒸饺馅料只要是带肉的，不管配什么菜，都要蒸足15分钟，有肉的馅料一定要彻底蒸熟透。肉馅饺子包好以后，把蒸锅里倒入适量水，打开灶火烧水。水开后关火，打开锅盖。笼布湿透后用手捏干水分，捏得越干越好。然后把笼布铺在笼屉上，再把包好的蒸饺均匀地摆上去。盖上锅盖，打开灶火，…

神明
2023年12月8日
172
百科分享

探索明朝建文帝的下落之迷

明朝，一个充满神秘色彩的历史时期，其中最引人入胜的谜团之一就是建文帝的下落。作为明朝的第二位皇帝，朱允炆在位仅四年就被其叔父朱棣篡位，此后他的下落成为了历史的一大悬案。本文将根据现有的历史资料，对这一谜团进行探索。首先，我们需要明确的是，建文帝并未死于靖难之役。这是历史学界普遍接受的观点。据《明史》记载，靖难之役后，朱棣即位，是为明成祖，而建文帝则消失无踪…

2024年2月8日
38
百科分享

鸡蛋羹水开后蒸几分钟最好大火小火（冷水下锅蒸几分钟又滑又嫩水和鸡蛋比例是多少)

蒸鸡蛋羹，再简单不过，鸡蛋打散加水蒸熟就可以了，但似乎又是一件挺“玄学”的事情，新手蒸出来的鸡蛋羹经常比较随机，每次都不太一样。有时候滑嫩，有时候结实，有时候满是蜂窝，有时候蒸半天都不凝固，这到底是怎么回事呢？其实蒸鸡蛋羹的状态和用什么水、加多少水、蒸的方法都关系很大，简单总结一下： 1、往鸡蛋液里加生水，包括自来水，矿泉水、井水等，蒸出来的鸡蛋羹是一定…

神明
2023年12月5日
162
百科分享

天然燕窝一斤多少钱（优质的极品真燕窝价格多少钱一克）

“中国传统文化技艺的断层，无疑是一种莫大的文化悲憾。”，不少中国文化界人士都在向社会发出警示：中国年轻人已经越来越远离传统文化技艺。无数传统技艺出现了可怕可叹的后继无人的地步，现在很多老祖宗的“文化独门绝技”已经出现消亡的迹象，甚至出现年轻人听都没有听说过的“尴尬”。在中国古老文化技艺中，“采燕窝”同样属于“老技艺其中一脉”。在这一行业，断层的现象同样堪…

神明
2023年11月29日
188
百科分享

谷歌称它“破解了商业智能的密码”

在收购商业智能 Looker 两年后，谷歌表示它已经“破解”了商业智能的密码。在商业智能 [BI] 中，“始终存在管理 BI 和自助服务的想法，并且信任度和灵活性度之间没有协调，”谷歌的 Gerrit Kazmaier 上周告诉记者，在 Google Cloud Next 会议。 “在谷歌，我认为我们已经破解了你如何通过自助服务的灵活性和敏捷性获得对数据的…

2024年1月1日
148
百科分享

2024年最热门的小说排行榜（公认口碑最好的无敌流完本小说推荐）

各位看官们，大家好。又到了日常推荐精彩小说的时刻了，笔者每天都会为大家整理出一些有趣的小说分享给大家，可以让书迷们能够更加方便快捷地找到符合自己口味的网文。那么今天给大家带来的是5本高分无敌流热门爽文，喜欢的话记得关注收藏哦。 1.《火力为王》——作者：如水意都市，剧情丝滑，文笔流畅，不圣母有原则，有脑子，大佬提携老奸巨猾，为人处世之道四海皆通。这本书讲的…

神明
2023年8月9日
278

谷歌的超级模型：DeepMind Perceiver 是迈向可以处理任何事物的人工智能机器的一步

相关推荐

发表回复