小心,GPT-3,AI21 的“侏罗纪”语言模型来了

小心,GPT-3,AI21 的“侏罗纪”语言模型来了

有什么比 1750 亿参数的自然语言处理程序更大?

当然是一个 1780 亿参数的程序。 这只是侏罗纪的一个特点,侏罗纪是特拉维夫人工智能初创公司 AI21 Labs 于周三推出的计算机程序。

当然,GPT-3 是来自旧金山初创公司 OpenAI 的语言程序,它在 2020 年通过生成看起来很像人类的句子和整篇文章震惊了世界。 GPT-3 还被 OpenAI 限制在相当严格的 Beta 测试安排中,震惊了世界。

AI21 承诺不会让 OpenAI 变得更好,而是两个更好,它声称在一项被称为“少量学习”的测试中获得了卓越的基准测试结果,并为 beta 测试人员提供了一个更开放的程序。

在后者方面,AI21 正在将该程序的开发使用作为“公开测试版”提供,它说,任何人都可以注册使用该程序,并且“没有等待名单”。

但是,文本生成量在测试版模型中受到限制。 要部署可按需提供预测服务的生产质量代码,各方必须提交商业级服务申请并获得 AI21 批准。

然后使用 AI21 的开发程序 AI21 Studio 来开发和部署定制的语言模型。

这家初创公司的名字代表“21 世纪的人工智能”,其高管和顾问中有一些重量级人物。

创始人是斯坦福大学教授Yoav Shoham,担任联席CEO; 连续创业者 Ori Goshen,另一位 CEO; 和 Amnon Shashua,他是英特尔 Mobileye 部门的首席执行官,该部门为自动驾驶汽车制造芯片,他还是耶路撒冷希伯来大学的计算机科学教授,并拥有许多机器学习研究项目。

顾问包括自动驾驶汽车先驱塞巴斯蒂安·特伦 (Sebastian Thrun) 和斯坦福大学教授兼人工智能计算机制造商 SambaNova Systems 的联合创始人克里斯·雷 (Chris Ré)。

AI21 在两轮风险投资中获得了 3540 万美元。

除了新闻稿外,AI21 还发布了一份白皮书,描述了 Jurassic 的架构和针对 GPT-3 的基准测试结果。 该论文由联合首席执行官 Shoham 以及 AI21 员工 Opher LieberOr Sharir 和 Barak Lenz 共同撰写。

本文详细介绍了侏罗纪的建筑,以及不同功能元素的布局。 在大多数方面,Jurassic 正在复制 OpenAI 在 GPT-3 中所做的事情,但有一个关键的偏离。

希伯来大学 Shashua 及其同事在去年的 Neurips AI 会议上提出的理论见解使这一出发成为可能。

这项由 Yoav Levine 以及 Shashua、Noam Wies、Or Sharir 和 Hofit Bata 领导的研究认为,神经网络在所谓的宽度和深度之间存在重要的权衡。

神经网络深度是人工神经元的层数,通过这些神经元顺序处理给定的输入数据。 人工智能“深度学习”形式的核心是更多层,因此更深。 OpenAI 的 GPT-3,以其“规范”形式,具有 1750 亿个参数,深度为 96 层。

相比之下,宽度是存储输入表示的向量的维度。 对于 GPT-3,这通常是一个维度为 12,288 的向量。

在 Levine 和团队的研究中,他们发现过多的层会导致“自我关注”类型的深度学习程序的结果递减,这就是 GPT-3,所有类似的程序都是建立在原始基础上的 来自 Google 的 Transformer 程序。

正如他们所说,“对于给定的网络规模”,意思是参数的数量,“某个网络可能太浅,正如我们在上面的理论预测和经验证实的那样,但它也可能太深。” 因此,Levine 和团队得出结论,他们是构建自然语言程序的最佳深度-宽度平衡。

AI21 的 Shoham 及其同事在他们的论文中详述了这种见解。 “对于给定的参数预算,存在最佳深度。” 具体来说,他们将 GPT-3 的 96 层替换为仅 76 层,并将 GPT-3 的矢量宽度 12,288 替换为宽度 13,824。

根据莱文的研究,这最终应该赋予侏罗纪所谓的更大的“表现力”,这应该是其语言输出的质量。 然而,AI21 研究人员观察到,与 GPT-3 相比,在 GPU 上运行他们的程序时“运行时性能有了显着提高”:

通过将计算资源从深度转移到宽度,可以并行(宽度)而不是顺序(深度)执行更多操作。 这与一次处理一个标记的文本生成尤其相关,因此并行化的机会较少,导致 GPU 利用率不佳。 在我们的基准测试中,将我们的架构与相同硬件配置上的 GPT-3 175B 进行比较,我们的架构在训练时间(每次迭代加速 1.5%)方面具有适度优势,但在批量推理(7%)和文本生成(26 %)。

Shoham 和团队对 Jurassic 所做的另一件事是增加词汇量,即程序可以摄取和跟踪的唯一标记的数量,从 GPT-3 使用的 50,000 个增加到 256,000 个。 他们还超越了将标记用作单词的范围,而是使用他们所说的“词汇项”,其中的单元“包含单词片段、完整单词和多单词表达的丰富组合”。

AI21 研究人员再次引用 Levine 和团队的工作,认为这种对标记的灵活使用“与文本的语义单元更紧密地对齐,包括命名实体和常用短语”,因此提供了“几个优势,例如 样本效率更高的培训。”

几个优势包括与 GPT-3 相比似乎大大提高了应试率。 他们提供的数据声称 Jurassic 的 1780 亿个参数在所谓的“零镜头”任务中的准确性与 GPT-3 相当,其中在测试时没有向程序提供人类书写的示例。

然而,Shoham 和团队的主要关注点是 GPT-3 特别擅长的地方,即被称为“小样本学习”的测试,其中几个示例首先由一个人输入,语言程序通过基本上延续 那些例子。

想想古老的类比游戏,“微软之于台式电脑就像苹果之于手📱机,汉堡王之于汉堡就像肯德基之于 ______”,语言程序必须弄清楚所问的答案类型 对于基于关系模式的空白。 这是少数几个镜头,它可以用于很多类型的任务,包括是-否问题回答和多项选择题回答。

在这里,作者声称更灵活地使用令牌的好处。 “它的一个好处是,在少量学习设置中,更多的训练示例可以适合提示。” 因此,使用与给定 GPT-3 相同的训练示例总数,他们声称具有更高的准确性,特别是因为更多示例可以适合提示。

尽管声称他们认为这是更好的结果,但 Shoham 和他的团队预先指出“对小样本学习的评估是出了名的棘手,受制于快速选择的变幻莫测。”

因此,Shoham 和团队开发了一个测试套件来解决这些挑战,方法是将非常大的模型相互进行基准测试。 他们已经在 GitHub 上发布了该代码。

虽然测试结果可能会随着人们的努力而以多种不同方式进行审查,但 AI21 更大的目标似乎是在 OpenAI 墙的另一侧构建一个更易于访问的 GPT-3,以利用它作为 许多用户希望访问该功能的业务。

本文内容由互联网用户自发贡献,该文观点仅代表作者本人。商机网仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如发现本站有涉嫌抄袭侵权/违法违规的内容, 请发送邮件至 tenspace2022@163.com 举报,一经查实,本站将立刻删除。 本文链接:https://www.315965.com/n/66495.html 聚才发 母婴好物

(0)
上一篇 2023年12月29日 上午12:45
下一篇 2023年12月29日 上午12:53

相关推荐

  • ChatGPT 即将登陆 Slack。 这是访问它的方法

    周二,Salesforce 宣布与 OpenAI 合作,将 ChatGPT 的先进人工智能技术引入其 Slack 。 Slack 的 ChatGPT 应用程序将优化专业人士之间的沟通方式,并帮助他们节省宝贵的业务资源——时间。 另外:ChatGPT 是如何工作的? 该应用程序由 OpenAI 在 Slack 上构建,将包含各种功能,以帮助加快用户的消息编写和…

    2024年1月2日
    201
  • 竞价的秘密,竞价出价怎么出

    集合竞 现在集合竞价操纵股价是违法的 去年查处过不少 这个就不要当做研究的主要亮领域了

    2024年1月28日
    118
  • 跨境erp系统哪个品牌最好(系统优缺点分析功能介绍)

    3年的疫情刺激下,人们的消费习惯已经有线下转到线上,在海外市场,电商销售占整体消费市场的比重在稳步上升。中国出海卖家越来越多,也导致了跨境电商的飞速增长。极具潜力的跨境电商赛道其实还是与国内电商不同,跨境卖家不仅仅要面对复杂多变的国际环境,还需要有效解决从产品、销售到发货的整个环节的困难。而跨境电商ERP是专为跨境电商出海企业,解决进销存、财务利润、供应链管…

    2023年12月10日
    247
  • 朱元璋的军队强悍,全因背地里耍了六个损招

    朱元璋,一个来自贫苦农家的皇帝,他的军队为何能从众多起义军中脱颖而出,最终统一天下?这其中离不开他的六大损招。本文将为您揭示朱元璋军队强悍背后的秘密。 一、严格纪律,严惩贪污 朱元璋深知军队的纪律对于战斗力的重要性,因此他对军队实行严格的纪律管理。一旦发现有士兵贪污受贿,立刻严惩不贷。这种严明的纪律使得朱元璋的军队始终保持着高度的战斗力。 二、选拔人才,注重…

    2024年2月9日
    38
  • 中国出美女城市排行榜最新(重庆美女多还是四川美女多)

    华夏5000年历史,不仅孕育出了非常丰富多彩的中华文化,就连人文文化也是格外出众的,例如我们国家的这些美女。如果问我们国家哪个地方的美女众多,可能大家的答案都不尽相同。有人说四川多美女有人说重庆多美女。 有一份问卷调查显示出三亚,重庆,哈尔滨这三个地方出美女的概率比较多。让我们一起来看一下,事实究竟符合常理不? 中国盛产美女最“多”的3个城市,重庆上榜了,看…

    2023年8月8日
    202
  • 2024最恐怖电影排行(全球必看恐怖电影推荐生猛刺激尺度大)

    2024年因为疫情在继续,所以恐怖片持续低迷,但是全球还是有很多大尺度的恐怖片值得期待。为你精选了全球十部必看的恐怖新片,汇集了厉鬼、凶杀、克隆人等大尺度题材,总有一部让你吓得毛骨悚然,错过绝对是损失,赶紧来看看吧!   10.《孵化》 女孩在森林里发现了一颗奇怪的蛋。为了不让母亲苛责,小女孩将蛋偷偷藏起来并悉心照料。结果,蛋里面是一个像鸟一样的生物,而噩梦…

    2023年8月5日
    284
  • 应对恶劣天气的数字孪生如何帮助科学家缓解气候变化

    实时模拟现实世界可以为科学家提供一种方法,让他们可以根据正在展开的场景进行预测。 这可能是应对极端天气情况的一项资产,例如那些涉及全球变暖的情况。 人工智能计算先驱 Cerebras 和美国能源部国家能源技术实验室周二宣布加速科学方程式,他们说这可以允许实时模拟极端天气条件。 另外:应对气候变化:这 5 种技术是我们最好的武器 “这是对动态环境中不同体积流体…

    2024年1月2日
    134
  • 欧阳修因绯闻差点身败名裂,他和吴春燕究竟什么关系

    欧阳修作为唐宋八大家之一,其名声响彻今古。不过谁能想到,大文豪欧阳修曾因绯闻差点身败名裂,《涑水纪闻》中有记载:”士大夫以濮议不正,咸疾欧阳修,有谤其私从子妇者。”欧阳修的绯闻究竟是怎么来的,是真是假呢?欧阳修作为北宋最早开创一代文风的文坛领袖,他在文学界的成就和地位毋庸置疑。但在私事上,欧阳修坎坷多难,其中事件真相也是扑朔迷离。 1…

    2024年2月8日
    40
  • 新媒体产品设计与运营16大效率工具,10万+爆文排版,阅读量爆涨!

    新媒体工具有哪些?比较实用的新媒体运营工具有哪些? 一:运营辅助工具】 首先来介绍下vxgongzhonghao常用到的插件工具,有两款插件神器,大家都可能会用到:壹伴、新媒体管家。 这两款工具主要辅助vxgongzhonghao原有编辑器进行编辑的,功能比较多。有字体可以选择,有表情包,也可以其他的排版功能,包括标题、图文、顶部签名,底部签名的样式等。 N…

    2023年12月27日
    117
  • 可以改变一切的两个 Pixel 6 数字

    他们在这儿。 他们真的,真的,正式地在这里。 在经历了 47 年的等待和大约 994 次非官方泄密之后,谷歌的 Pixel 6 和 Pixel 6 Pro 手📱机终于脱颖而出,即将面世。 好吧,好吧:公平地说,从技术上讲,它们已经在世界上存在了几天——至少,对于我们这些有幸获得借用审查单位进行评估的人来说是这样。 在这一点上,我已经穿着满是灰尘的工装裤穿着 …

    2024年1月7日
    122

发表回复

您的电子邮箱地址不会被公开。 必填项已用*标注