DeepMind:为什么AI这么擅长语言? 这是语言本身的东西

DeepMind:为什么AI这么擅长语言? 这是语言本身的东西

像 OpenAI 的 GPT-3 神经网络这样的程序如何能够回答多项选择题,或者以特定的风格写一首诗,尽管从未针对这些特定任务进行过编程?

根据谷歌人工智能部门 DeepMind 的最新研究,这可能是因为人类语言具有导致神经网络预测意外的统计特性。

从统计学的角度来看,自然语言具有“不统一”的特性,例如可以代表多种事物的词,称为“多义词”,例如“银行”一词,意思是一个地方 你把钱或一个上升的土堆。 听起来相同的词可以代表不同的事物,称为同音异义词,例如“这里”和“听到”。

这些语言品质是本月在 arXiv 上发表的一篇论文的重点,“数据分布属性驱动变形金刚中的紧急小样本学习”,作者是 DeepMind 科学家 Stephanie C.Y. ChanAdam Santoro、Andrew K. Lampinen、Jane X. Wang、Aaditya Singh、Pierre H. Richemond、Jay McClelland 和 Felix Hill。

作者首先询问诸如 GPT-3 之类的程序如何解决向他们提出未明确训练的各种查询的任务,即所谓的“小样本学习”。

例如,GPT-3 可以回答多项选择题,而无需明确编程来回答这种形式的问题,只需在人类用户输入多项选择题和答案对的示例的提示下即可。

“大型基于 transformer 的语言模型能够执行少量学习(也称为上下文学习),而无需对其进行明确的训练,”他们写道,指的是来自谷歌的广受欢迎的“Transformer”神经网络 是 GPT-3 和谷歌 BERT 语言程序的基础。

正如他们解释的那样,“我们假设自然语言的特定分布特性可能会驱动这种新兴现象。”

作者推测这种大型语言模型程序的行为类似于另一种机器学习程序,称为元学习。 DeepMind 近年来探索的元学习程序通过能够对跨越不同数据集的数据模式进行建模来发挥作用。 正如团队成员亚当·桑托罗 (Adam Santoro) 在之前的研究中所解释的那样,此类程序经过训练后不仅可以模拟单个数据分布,还可以模拟数据集的分布。

另外:OpenAI 的巨大 GPT-3 暗示了人工智能语言模型的局限性

这里的关键是不同数据集的想法。 他们推测,语言的所有不统一性,例如语言的多义性和“长尾”,语音中包含使用频率相对较低的词这一事实——这些语言的每一个奇怪事实都类似于单独的数据分布。

事实上,他们写道,语言就像是介于具有规则模式的受监督训练数据和具有大量不同数据的元学习之间的东西:

与监督训练一样,项目(单词)确实会重复出现,并且项目标签映射(例如单词含义)在某种程度上是固定的。 同时,长尾分布确保存在许多罕见词,这些词在上下文窗口中很少出现,但在上下文窗口中可能是突发的(多次出现)。 我们还可以将同义词、同音异义词和多义词视为完全不固定的项目标签映射的较弱版本,这些映射用于少样本元训练,其中映射在每一集都会发生变化。

为了检验这个假设,令人惊讶的是,Chan 和他的同事实际上并没有处理语言任务。 相反,他们训练了一个 Transformer 神经网络来解决名为 Omniglot 的视觉任务,该任务由纽约大学、卡内基梅隆大学和麻省理工学院的学者于 2016 年推出。 Omniglot 挑战一个程序,将正确的分类标签分配给 1,623 个手写字符字形。

就 Chan 等人的工作而言,他们通过随机打乱字形的标签,将标记的 Omniglot 挑战变成一次性任务,以便神经网络在每个“情节”中学习:

不像在训练中,标签在所有序列中都是固定的,这两个图像类的标签是为每个序列随机重新分配的[…]因为标签是为每个序列随机重新分配的,模型必须使用上下文 当前序列,以便对查询图像进行标签预测(2 向分类问题)。 除非另有说明,否则小样本学习总是在训练中从未见过的保留图像类上进行评估。

通过这种方式,作者正在操纵视觉数据,即字形,以捕捉语言的不统一特性。 “在训练时,我们将 Omniglot 图像和标签置于具有各种受语言启发的分布属性的序列中,”他们写道。 例如,他们逐渐增加可以分配给给定字形的类别标签的数量,以接近多义词的质量。

“在评估时,我们会评估这些特性是否会产生小样本学习能力。”

他们发现,当他们将给定字形的标签数量相乘时,神经网络在执行少样本学习方面变得更好。 “我们看到,增加这种‘多义因子’(分配给每个词的标签数量)也会增加小样本学习,”正如 Chan 和同事所说。

“换句话说,使泛化问题变得更难实际上使少样本学习的出现更加强烈。”

与此同时,他们总结道,造成少镜头性能的不仅仅是数据分布。 Chan 和同事发现,Transformer 神经网络的特定结构有助于它实现少样本学习。 他们写道,他们测试了“普通的递归神经网络”,并发现这样的网络永远无法实现几次射击的能力。

“与循环模型相比,变形金刚对小样本学习表现出更大的偏见。”

作者得出结论,数据的质量(例如语言的长尾)和神经网络的性质(例如 Transformer 结构)都很重要。 这不是一个或另一个,而是两者。

作者列举了未来探索的许多途径。 一个是与人类认知的联系,因为婴儿表现出似乎是少数学习。

例如,婴儿可以快速学习语言的统计特性。 这些分布特征是否可以帮助婴儿获得快速学习的能力,或者为以后的学习提供有用的预训练? 其他经验领域(例如视觉)中类似的非均匀分布是否也能在这种发展中发挥作用?

很明显,当前的工作根本不是语言测试。 相反,它旨在通过重新创建视觉数据(Omniglot 图像)中的不均匀性来模拟语言的假定统计特性。

作者没有解释从一种模式到另一种模式的转换是否对他们工作的意义有任何影响。 相反,他们写道,他们希望将他们的工作扩展到语言的更多方面。

“上述结果表明了未来研究的令人兴奋的方向,”他们写道,包括,“这些数据分布特性如何与强化学习与监督损失相互作用?在复制语言和语言建模的其他方面的实验中,结果可能有何不同,例如 使用符号输入,训练下一个标记或掩码标记预测,并根据上下文确定单词的含义?”

本文内容由互联网用户自发贡献,该文观点仅代表作者本人。商机网仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如发现本站有涉嫌抄袭侵权/违法违规的内容, 请发送邮件至 tenspace2022@163.com 举报,一经查实,本站将立刻删除。 本文链接:https://www.315965.com/n/66707.html 聚才发 母婴好物

(0)
上一篇 2023年12月31日 上午2:04
下一篇 2023年12月31日 上午2:13

相关推荐

  • 谷歌宣布推出用于 AI 工作负载的 Cloud TPU 虚拟机

    谷歌云宣布了用于人工智能工作负载的 TPU 虚拟机 (VM) 的普遍可用性。 一般可用性版本包括一个新的 TPU 嵌入 API,谷歌云声称可以加速大规模、基于 ML 的排名和推荐工作负载 谷歌云表示,通过 Cloud TPU 嵌入加速可以帮助企业降低与排名和推荐用例相关的成本,这些用例通常依赖于运行成本高昂的深度神经网络算法。 “他们倾向于使用大量数据,使用…

    2023年12月31日
    144
  • 考虑就地 Windows 升级? 这是如何做的。源代码

    多年来,执行就地升级只是对工作站执行的操作——即便如此,这些升级通常也是针对消费类机器的。 IT 纯粹主义者进行就地升级的主要原因是为了获得免费升级。 特别是对于业务部署,人们一直认为在升级到新操作系统时最好进行全新安装。 即使免费升级到 Windows 10 优惠已经结束,您仍然可以从 Windows 7 或 Windows 8.1 免费升级。 从您获得许…

    2024年1月12日
    133
  • 杜甫上疏救房琯是怎么回事?杜甫是怎么做的?

    杜甫,被誉为”诗史”,是中国历史上最伟大的诗人之一。然而,在他的一生中,他也扮演了另一位角色——政治家。这篇文章将聚焦于杜甫在唐朝政治风波中的重要一步:他上疏救房琯的事件。 背景:安史之乱与房琯的困境 公元755年,唐朝经历了一场名为”安史之乱”的内战。这场叛乱由安禄山和史思明领导,他们篡夺了皇位,使国家陷入了…

    2024年2月15日
    35
  • 远古十大巨兽排名表(史前海洋陆地最厉害强猛兽图文介绍)

    在人类统治世界之前,地球是野兽的世界,血盆可以吞下一个人的海洋杀手,“肉弹坦克”脚,是4吨的重量,牙齿可以直接咬汽车梁,无论是天空,陆地,还是水,他们有一个巨大的身体,震惊我们年轻的心。 巨兽 “坤之大,不知千里之外”。 今天,队长将带领你来到史前世纪,密切观察这些巨兽。有兴趣的朋友,请给队长一些关注和赞扬。让我们马上谈谈。 史前十大巨兽 史前巨兽排名第十:…

    2023年12月13日
    903
  • 戏赠张先作者是谁?是苏轼吗?

    在中国的文学历史中,有许多诗词作品都流传至今,其中一首名为《戏赠张先》的诗篇引起了人们的广泛关注。然而,关于这首诗的作者是谁的问题,却引发了一场激烈的讨论。有人认为这首诗的作者是苏轼,但事实真的是这样吗? 首先,我们需要明确的是,《戏赠张先》这首诗的确存在,它是中国古代文人骚客在诗歌创作中的一种常见形式,即以游戏、戏谑的方式赠诗给他人。这种形式的诗歌,既可以…

    2024年2月21日
    46
  • 微软扩大与 Meta 的 AI 合作伙伴关系

    微软和 Meta 正在扩大他们正在进行的 AI 合作伙伴关系,Meta 选择 Azure 作为“战略云提供商”以加速其自身的 AI 研发。 微软官方在微软 Build 2024 开发者大会第 2 天分享了更多关于微软-Meta 合作伙伴关系的最新细节。 微软和 Meta——当时还被称为 Facebook——在 2017 年宣布了 ONNX(开放神经网络交换)…

    2023年12月31日
    132
  • 天生是学霸的五大星座(学霸最多最聪明的星座)

    文/凌婷七七 前些时候,七七有写过一篇,蕞强大脑的星座,很多朋友对于对于某些内容有不理解,对于水瓶座,天蝎座,处女座,双子座,白羊座,射手座,摩羯座,巨蟹座,其实都有属于他们脑力运动上比较突出的领域,所以才会有所谓的“因材施教”的说法,因为蕞强大脑,即便是IQ很高,也不是代表学习能力的高低,这个是有区别的。 今天我们就从学习能力方面,来把此前的IQ级别蕞强大…

    2023年8月12日
    195
  • 微信营销都有哪些策略(微信网络营销)

    请使用至少3种vx功能,为登封少林寺设计一个微 请使用至少3种vx功能,为登封少林寺设计一个vx营销方案。并详细作顾益直适介绍各种方法的营销策略?请使用至少3种vx功能剧威困火乐口教,为登封少林寺设计一个vx营销方案。并详细介绍各种方法的营销策略?请使用至少3种vx功能,为登封少林寺设计一个vx营销方案。并详细介绍各种方法的营销策略?

    2024年1月21日
    126
  • 奥特曼名字大全加图片高清图(52个奥特曼种类图片名字对应图)

    奥特曼特摄剧诞生于20世纪60年代,已经完全成为了一个国际化的文化IP。在这近60年时间里,圆谷创造了不少奥特曼巨人。圆谷官方贴出了一张奥特曼的全名单,上面列举了整整52名奥特曼,20年的老粉能背出多少个名字呢? 宇宙警备队队长:佐菲奥特曼 奥特曼 赛文奥特曼 杰克奥特曼 艾斯奥特曼 泰罗奥特曼 雷欧奥特曼 阿斯特拉奥特曼 乔尼亚斯奥特曼 爱迪奥特曼 奥特一…

    2023年11月30日
    1.0K
  • 康熙庙号:揭秘康熙的庙号为什么叫圣祖

    康熙皇帝,作为清朝的第四位皇帝,他的统治时间长达61年,是中国历史上在位时间最长的皇帝之一。康熙皇帝的庙号是“圣祖”,那么这个庙号是如何来的呢?本文将带您了解康熙庙号背后的故事。 一、康熙庙号的由来 康熙皇帝的庙号“圣祖”是在他去世后,由他的子孙们根据他在位期间的政治成就、文治武功以及个人品质所赐予的。在古代,庙号是对已故皇帝的一种尊称,用以表彰其在位时的功…

    2024年2月9日
    40

发表回复

您的电子邮箱地址不会被公开。 必填项已用*标注