小心，GPT-3，AI21 的“侏罗纪”语言模型来了

• 2023年12月29日上午12:49 • 百科分享 • 阅读 144

有什么比 1750 亿参数的自然语言处理程序更大？

当然是一个 1780 亿参数的程序。这只是侏罗纪的一个特点，侏罗纪是特拉维夫人工智能初创公司 AI21 Labs 于周三推出的计算机程序。

当然，GPT-3 是来自旧金山初创公司 OpenAI 的语言程序，它在 2020 年通过生成看起来很像人类的句子和整篇文章震惊了世界。 GPT-3 还被 OpenAI 限制在相当严格的 Beta 测试安排中，震惊了世界。

AI21 承诺不会让 OpenAI 变得更好，而是两个更好，它声称在一项被称为“少量学习”的测试中获得了卓越的基准测试结果，并为 beta 测试人员提供了一个更开放的程序。

在后者方面，AI21 正在将该程序的开发使用作为“公开测试版”提供，它说，任何人都可以注册使用该程序，并且“没有等待名单”。

但是，文本生成量在测试版模型中受到限制。要部署可按需提供预测服务的生产质量代码，各方必须提交商业级服务申请并获得 AI21 批准。

然后使用 AI21 的开发程序 AI21 Studio 来开发和部署定制的语言模型。

这家初创公司的名字代表“21 世纪的人工智能”，其高管和顾问中有一些重量级人物。

创始人是斯坦福大学教授Yoav Shoham，担任联席CEO；连续创业者 Ori Goshen，另一位 CEO；和 Amnon Shashua，他是英特尔 Mobileye 部门的首席执行官，该部门为自动驾驶汽车制造芯片，他还是耶路撒冷希伯来大学的计算机科学教授，并拥有许多机器学习研究项目。

顾问包括自动驾驶汽车先驱塞巴斯蒂安·特伦 (Sebastian Thrun) 和斯坦福大学教授兼人工智能计算机制造商 SambaNova Systems 的联合创始人克里斯·雷 (Chris Ré)。

AI21 在两轮风险投资中获得了 3540 万美元。

除了新闻稿外，AI21 还发布了一份白皮书，描述了 Jurassic 的架构和针对 GPT-3 的基准测试结果。该论文由联合首席执行官 Shoham 以及 AI21 员工 Opher Lieber、Or Sharir 和 Barak Lenz 共同撰写。

本文详细介绍了侏罗纪的建筑，以及不同功能元素的布局。在大多数方面，Jurassic 正在复制 OpenAI 在 GPT-3 中所做的事情，但有一个关键的偏离。

希伯来大学 Shashua 及其同事在去年的 Neurips AI 会议上提出的理论见解使这一出发成为可能。

这项由 Yoav Levine 以及 Shashua、Noam Wies、Or Sharir 和 Hofit Bata 领导的研究认为，神经网络在所谓的宽度和深度之间存在重要的权衡。

神经网络深度是人工神经元的层数，通过这些神经元顺序处理给定的输入数据。人工智能“深度学习”形式的核心是更多层，因此更深。 OpenAI 的 GPT-3，以其“规范”形式，具有 1750 亿个参数，深度为 96 层。

相比之下，宽度是存储输入表示的向量的维度。对于 GPT-3，这通常是一个维度为 12,288 的向量。

在 Levine 和团队的研究中，他们发现过多的层会导致“自我关注”类型的深度学习程序的结果递减，这就是 GPT-3，所有类似的程序都是建立在原始基础上的来自 Google 的 Transformer 程序。

正如他们所说，“对于给定的网络规模”，意思是参数的数量，“某个网络可能太浅，正如我们在上面的理论预测和经验证实的那样，但它也可能太深。” 因此，Levine 和团队得出结论，他们是构建自然语言程序的最佳深度-宽度平衡。

AI21 的 Shoham 及其同事在他们的论文中详述了这种见解。 “对于给定的参数预算，存在最佳深度。” 具体来说，他们将 GPT-3 的 96 层替换为仅 76 层，并将 GPT-3 的矢量宽度 12,288 替换为宽度 13,824。

根据莱文的研究，这最终应该赋予侏罗纪所谓的更大的“表现力”，这应该是其语言输出的质量。然而，AI21 研究人员观察到，与 GPT-3 相比，在 GPU 上运行他们的程序时“运行时性能有了显着提高”：

通过将计算资源从深度转移到宽度，可以并行（宽度）而不是顺序（深度）执行更多操作。这与一次处理一个标记的文本生成尤其相关，因此并行化的机会较少，导致 GPU 利用率不佳。在我们的基准测试中，将我们的架构与相同硬件配置上的 GPT-3 175B 进行比较，我们的架构在训练时间（每次迭代加速 1.5%）方面具有适度优势，但在批量推理（7%）和文本生成（26 %)。

Shoham 和团队对 Jurassic 所做的另一件事是增加词汇量，即程序可以摄取和跟踪的唯一标记的数量，从 GPT-3 使用的 50,000 个增加到 256,000 个。他们还超越了将标记用作单词的范围，而是使用他们所说的“词汇项”，其中的单元“包含单词片段、完整单词和多单词表达的丰富组合”。

AI21 研究人员再次引用 Levine 和团队的工作，认为这种对标记的灵活使用“与文本的语义单元更紧密地对齐，包括命名实体和常用短语”，因此提供了“几个优势，例如样本效率更高的培训。”

几个优势包括与 GPT-3 相比似乎大大提高了应试率。他们提供的数据声称 Jurassic 的 1780 亿个参数在所谓的“零镜头”任务中的准确性与 GPT-3 相当，其中在测试时没有向程序提供人类书写的示例。

然而，Shoham 和团队的主要关注点是 GPT-3 特别擅长的地方，即被称为“小样本学习”的测试，其中几个示例首先由一个人输入，语言程序通过基本上延续那些例子。

想想古老的类比游戏，“微软之于台式电脑就像苹果之于手📱机，汉堡王之于汉堡就像肯德基之于 ______”，语言程序必须弄清楚所问的答案类型对于基于关系模式的空白。这是少数几个镜头，它可以用于很多类型的任务，包括是-否问题回答和多项选择题回答。

在这里，作者声称更灵活地使用令牌的好处。 “它的一个好处是，在少量学习设置中，更多的训练示例可以适合提示。” 因此，使用与给定 GPT-3 相同的训练示例总数，他们声称具有更高的准确性，特别是因为更多示例可以适合提示。

尽管声称他们认为这是更好的结果，但 Shoham 和他的团队预先指出“对小样本学习的评估是出了名的棘手，受制于快速选择的变幻莫测。”

因此，Shoham 和团队开发了一个测试套件来解决这些挑战，方法是将非常大的模型相互进行基准测试。他们已经在 GitHub 上发布了该代码。

虽然测试结果可能会随着人们的努力而以多种不同方式进行审查，但 AI21 更大的目标似乎是在 OpenAI 墙的另一侧构建一个更易于访问的 GPT-3，以利用它作为许多用户希望访问该功能的业务。

本文内容由互联网用户自发贡献，该文观点仅代表作者本人。商机网仅提供信息存储空间服务，不拥有所有权，不承担相关法律责任。如发现本站有涉嫌抄袭侵权/违法违规的内容，请发送邮件至 tenspace2022@163.com 举报，一经查实，本站将立刻删除。本文链接：https://www.315965.com/n/66495.html 聚才发母婴好物

、

0 0

OpenAI 说“你好，世界！” 带有 Codex 代码生成工具的私人测试版

上一篇 2023年12月29日上午12:45

Spell 引入了用于深度学习的 MLOps

下一篇 2023年12月29日上午12:53

百科分享

ChatGPT 即将登陆 Slack。这是访问它的方法

周二，Salesforce 宣布与 OpenAI 合作，将 ChatGPT 的先进人工智能技术引入其 Slack 。 Slack 的 ChatGPT 应用程序将优化专业人士之间的沟通方式，并帮助他们节省宝贵的业务资源——时间。另外：ChatGPT 是如何工作的？该应用程序由 OpenAI 在 Slack 上构建，将包含各种功能，以帮助加快用户的消息编写和…

2024年1月2日
201
百科分享

竞价的秘密,竞价出价怎么出

集合竞现在集合竞价操纵股价是违法的去年查处过不少这个就不要当做研究的主要亮领域了

神明
2024年1月28日
118
百科分享

跨境erp系统哪个品牌最好（系统优缺点分析功能介绍）

3年的疫情刺激下，人们的消费习惯已经有线下转到线上，在海外市场，电商销售占整体消费市场的比重在稳步上升。中国出海卖家越来越多，也导致了跨境电商的飞速增长。极具潜力的跨境电商赛道其实还是与国内电商不同，跨境卖家不仅仅要面对复杂多变的国际环境，还需要有效解决从产品、销售到发货的整个环节的困难。而跨境电商ERP是专为跨境电商出海企业，解决进销存、财务利润、供应链管…

神明
2023年12月10日
247
百科分享

朱元璋的军队强悍，全因背地里耍了六个损招

朱元璋，一个来自贫苦农家的皇帝，他的军队为何能从众多起义军中脱颖而出，最终统一天下?这其中离不开他的六大损招。本文将为您揭示朱元璋军队强悍背后的秘密。一、严格纪律，严惩贪污朱元璋深知军队的纪律对于战斗力的重要性，因此他对军队实行严格的纪律管理。一旦发现有士兵贪污受贿，立刻严惩不贷。这种严明的纪律使得朱元璋的军队始终保持着高度的战斗力。二、选拔人才，注重…

2024年2月9日
38
百科分享

中国出美女城市排行榜最新（重庆美女多还是四川美女多）

华夏5000年历史，不仅孕育出了非常丰富多彩的中华文化，就连人文文化也是格外出众的，例如我们国家的这些美女。如果问我们国家哪个地方的美女众多，可能大家的答案都不尽相同。有人说四川多美女有人说重庆多美女。有一份问卷调查显示出三亚，重庆，哈尔滨这三个地方出美女的概率比较多。让我们一起来看一下，事实究竟符合常理不？中国盛产美女最“多”的3个城市，重庆上榜了，看…

神明
2023年8月8日
202
百科分享

2024最恐怖电影排行（全球必看恐怖电影推荐生猛刺激尺度大）

2024年因为疫情在继续，所以恐怖片持续低迷,但是全球还是有很多大尺度的恐怖片值得期待。为你精选了全球十部必看的恐怖新片，汇集了厉鬼、凶杀、克隆人等大尺度题材，总有一部让你吓得毛骨悚然,错过绝对是损失,赶紧来看看吧! 　　10.《孵化》女孩在森林里发现了一颗奇怪的蛋。为了不让母亲苛责，小女孩将蛋偷偷藏起来并悉心照料。结果，蛋里面是一个像鸟一样的生物，而噩梦…

神明
2023年8月5日
284
百科分享

应对恶劣天气的数字孪生如何帮助科学家缓解气候变化

实时模拟现实世界可以为科学家提供一种方法，让他们可以根据正在展开的场景进行预测。这可能是应对极端天气情况的一项资产，例如那些涉及全球变暖的情况。人工智能计算先驱 Cerebras 和美国能源部国家能源技术实验室周二宣布加速科学方程式，他们说这可以允许实时模拟极端天气条件。另外：应对气候变化：这 5 种技术是我们最好的武器 “这是对动态环境中不同体积流体…

2024年1月2日
134
百科分享

欧阳修因绯闻差点身败名裂,他和吴春燕究竟什么关系

欧阳修作为唐宋八大家之一，其名声响彻今古。不过谁能想到，大文豪欧阳修曾因绯闻差点身败名裂，《涑水纪闻》中有记载：”士大夫以濮议不正，咸疾欧阳修，有谤其私从子妇者。”欧阳修的绯闻究竟是怎么来的，是真是假呢?欧阳修作为北宋最早开创一代文风的文坛领袖，他在文学界的成就和地位毋庸置疑。但在私事上，欧阳修坎坷多难，其中事件真相也是扑朔迷离。 1…

2024年2月8日
40
百科分享

新媒体产品设计与运营16大效率工具,10万+爆文排版,阅读量爆涨！

新媒体工具有哪些？比较实用的新媒体运营工具有哪些？一:运营辅助工具】首先来介绍下vxgongzhonghao常用到的插件工具，有两款插件神器，大家都可能会用到:壹伴、新媒体管家。这两款工具主要辅助vxgongzhonghao原有编辑器进行编辑的，功能比较多。有字体可以选择，有表情包，也可以其他的排版功能，包括标题、图文、顶部签名，底部签名的样式等。 N…

神明
2023年12月27日
117
百科分享

可以改变一切的两个 Pixel 6 数字

他们在这儿。他们真的，真的，正式地在这里。在经历了 47 年的等待和大约 994 次非官方泄密之后，谷歌的 Pixel 6 和 Pixel 6 Pro 手📱机终于脱颖而出，即将面世。好吧，好吧：公平地说，从技术上讲，它们已经在世界上存在了几天——至少，对于我们这些有幸获得借用审查单位进行评估的人来说是这样。在这一点上，我已经穿着满是灰尘的工装裤穿着 …

2024年1月7日
122

小心，GPT-3，AI21 的“侏罗纪”语言模型来了

相关推荐

发表回复