OpenAI 花费 160,000 美元在 Upwork 上为 Minecraft 游戏玩家训练神经网络

OpenAI 花费 160,000 美元在 Upwork 上为 Minecraft 游戏玩家训练神经网络

掌握 Minecraft 中的“钻石工具”有多重要?

据人工智能初创公司 OpenAI 称,它的重要性足以花费 160,000 美元。

这是 OpenAI 的一个团队在在线职位列表 Upwork 上聘请 Minecraft 玩家提交他们玩游戏的视频所花费的金额。

在本周公布的一篇论文“视频预训练 (VPT):通过观看未标记的在线视频学习行动”中,OpenAI 研究人员 Bowen Baker 和团队在使用大型数据集训练神经网络以模拟人类击键以解决不同问题方面取得了突破 视频游戏中的任务。 (OpenAI 也发布了一篇博文。)

近年来,大量的神经网络通过所谓的强化学习征服了各种类型的游戏,包括 DeepMind DeepMind 的 AlphaZero,它采用了国际象棋围棋和将棋,以及随后的 MuZero 程序,它增加了处理 Atari 游戏的能力。

Baker 和他的团队想要为 Minecraft 更复杂的“开放世界”游戏环境开发一个神经网络,在这个环境中,一系列击键让玩家拥有比国际象棋或 Atari 游戏更大的自由度。

另外:六十秒人工智能

作者写道,研究文献包括“大量”关于 Minecraft 的工作。 但 VPT 的工作是独一无二的,他们写道,就其范围和规模而言:“据我们所知,没有已发表的工作在完整的、未经修改的人类行为空间中运行,其中包括拖放式库存管理和 物品制作。”

构建称为 VPT 的神经网络的工作分两个阶段进行。 第一阶段需要人类游戏玩家或承包商,他们组装了 4,500 小时的游戏时间。 研究人员后来发现,他们实际上只需要大约 2,000 小时。

Baker 和团队描述了这个过程:

我们开放了一天的申请,然后随机选择了 10 名申请者作为第一轮承包商。 在项目的后期,由于我们需要更多数据并且一些承包商要求终止合同,我们从原始池中添加了更多申请人以及当前工作承包商的推荐。 承包商每小时支付 20 美元(减去 Upwork 费用和适用税费)。 本文中呈现的所有结果均基于大约 4,500 小时的数据(包括为收集未用于训练的人类游戏统计数据而记录的数据),我们花费了大约 90,000 美元。 在项目过程中,我们收集了一些由于记录器中的错误而没有使用的数据,以及一些我们最终没有追求的想法。 在整个项目过程中,我们总共花费了大约 16 万美元用于承包商补偿。 然而,正如我们在第二节中讨论的那样。 4.6,我们很可能使用仅使用价值 2000 美元的数据训练的 IDM 获得大部分结果,即基础 VPT 模型、对 earlygame_keyword 数据集的 BC 微调和 RL 微调结果。 收集 contractor_house 数据集的成本约为 8000 美元。 因为我们使用了经过约 2000 小时承包商数据训练的 IDM,因此这些结果的承包商数据的实际成本约为 40,000 美元。

在这 4,500 小时中,他们将标签贴在游戏视频的帧上,以执行诸如“库存”之类的操作,以使用“E”键检查玩家的物品集合; 和“潜行”,使用 SHIFT 键在当前方向“小心”移动。 这些动作在游戏进行的每个时刻都被记录为 JSON 文本字符串,并与视频帧一起存储。

带有标记动作的游戏帧被用来训练一个称为逆向动力学模型或 IDM 的神经网络,它学习什么动作与什么帧相关。 IDM 是多种神经网络的混合体,包括 3-D 卷积神经网络和用于解析视频帧的 ResNet,以及用于预测下一个视频帧的多个 Transformer 注意力网络。

然后,IDM 训练有素的能力被用于更大的视频片段集,从网络上收集的总共 70,000 小时未标记的 Minecraft 片段。 IDM 将“伪标签”应用到这个大得多的集合。 换句话说,IDM 和承包商费用是引导庞大视频训练集的一种方式。

作者写道,尽管承包商付款看起来很昂贵,但这种方法可以节省大量成本。 如果他们必须收集相当于 70,000 小时网络视频的承包商数据,那将要昂贵得多。

“如果我们能够廉价地收集一个与 web_clean 数量级相似的标记承包商数据集,那么这并不重要;但是,收集这种规模的数据将花费数百万美元。”

利用这 70,000 小时,作者随后训练了第二个神经网络,该网络也由 Transformer 层组成,以模仿视频中的用户动作,这种常见做法被称为“行为克隆”。

这项工作的重点是找到一种方法来训练通用计算机“代理”,该代理可以使用互联网上没有标签的大量数据来解决涉及因果关系、意义和动作序列的任务。 从一个到另一个的必要关系。

“本文提出的结果有助于为将网络上大量未标记数据用于顺序决策域铺平道路,”他们写道。

他们建议,这项工作可以想象用于需要鼠标点击序列和其他人类操作员控制的大量计算机任务。

“虽然我们只在 Minecraft 中进行实验,但我们相信 VPT 提供了一个通用方法,可以在任何具有大量免费可用的未标记数据(例如计算机使用情况)的领域中,在困难但通用的动作空间中训练行为先验。”

Open-AI 以名为 GPT-3 的大型语言程序而闻名,该程序也使用基于大量未标记 Web 数据的“预训练”方法。 从某种意义上说,Minecraft 游戏正在将这种方法扩展到模仿通过视频捕获的顺序计算机任务领域中的行为。

最终的成就在某些情况下超过了人类完成最艰巨任务之一所需的时间,即获得钻石镐。

在 Minecraft 中,基于钻石的工具只会持续更长时间并且可以造成更大的伤害。 钻石镐是唯一对大多数游戏玩家特别重要的工具。 您需要一把钻石镐来开采黑曜石和一种称为下界合金的虚构材料,这两种材料对于附魔台和制作下界合金设备等残局活动都很重要。

在训练 VPT 学习各种 Minecraft 任务后,作者使用“微调”方法开发了强化学习神经网络,以比正常时间更快地制作钻石镐。

“为了证明 RL 微调的功效,我们选择了具有挑战性的目标,即从全新的 Minecraft 生存世界开始,在 10 分钟内获得一把钻石镐,”他们写道。

这对人类来说是一个挑战,如果他们能做到的话,他们通常需要两倍的时间才能做到:

这样做涉及获得一系列难以获得的物品,这些物品需要复杂的技能,例如采矿、库存管理、使用和不使用工作台进行制作、工具使用、操作熔炉以及在最低深度采矿,那里有许多危险,例如敌人 和熔岩存在(图6)。 增加难度的是,掉落物品、毁坏物品或死亡很容易导致进度丢失。 熟练的人类通常需要 20 分钟以上(24,000 次动作)才能获得钻石镐。

在汇集承包商数据和未标记的 70,000 小时网络视频时,作者注意到攻击性内容的可能性。 “承包商理论上可以使用 Minecraft 的开放世界属性来生成个人身份信息和/或冒犯性内容(例如,通过使用 Minecraft 方块写下他们的名字或冒犯性信息,然后找到一个可以看到该信息的地方),”他们说 写,尽管他们在作者观看的承包商视频中没有看到这一点。

“当然,我们在互联网上玩 Minecraft 的人的视频上训练我们的 BC [行为克隆] 模型,如果这些视频中有这种行为,我们的模型也有可能学习它,尽管我们预计这种行为非常罕见,以至于我们的模型 不太可能重现它,”他们写道。

这样的总代理接下来会去哪里呢? 这个想法是,征服了钻石斧头、VPT 或其后代,可以做人们用鼠标和键盘可能做的各种事情,包括嘘声票、浏览社交媒体或导航地图。

本文内容由互联网用户自发贡献,该文观点仅代表作者本人。商机网仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如发现本站有涉嫌抄袭侵权/违法违规的内容, 请发送邮件至 tenspace2022@163.com 举报,一经查实,本站将立刻删除。 本文链接:https://www.315965.com/n/66725.html 聚才发 母婴好物

(0)
上一篇 2023年12月31日 上午3:37
下一篇 2023年12月31日 上午3:47

相关推荐

  • 短视频制作用什么软件比较好?(7款最好用的手机电脑免费视频剪辑软件推荐)

    是不是有很多童鞋们,想要做日常视频剪辑、Vlog、影视剪辑但找不到好用的视频剪辑软件,被无情劝退?我花了2个小时看了以下全部的回答,给大家吐血整理了以下被推荐次数最多,以及个人使用感受最好的7款视频剪辑软件! 电脑端 1、Adobe Premiere 说到剪辑当然少不了PR了,PR的功能非常强大,不仅可以进行视频切割、视频合成,添加文字还可以跟自家的PS、A…

    2023年8月10日
    230
  • c1增驾b2需要什么条件要考什么科目(驾驶证升级c1升b2流程需要多少钱)

    学驾照目前已经成为了一种潮流,然而大多数人学到的第1本驾照却都是C1,这个驾照开私家车完全没有问题,可如果想从事司机类的职业, C1就有些不够用了。 B1和B2是机动车驾照里面的天花板,就拿B2驾照来说,它所能驾驶的车型几乎涵盖了市场上80%的汽车,就比如我们常见的洒水车、消防车、混凝土搅拌车等大货车,有B2驾照在手,这些汽车都可以随意使用。如今只要满足这4…

    2023年12月8日
    158
  • 微软,我们需要谈谈源代码

    微软? 我们需要谈谈。 最近你让我很失望。 您本月为我的 Windows 10 机器发布了三套安全更新。 第一组更新(2004/20H2 版本的 KB5000802)在我尝试打印到 Ricoh 和 Kyocera 打印机时触发蓝屏死机,因为 Dymo 标签出现问题。 正如您自己指出的那样,“安装此更新后,当您尝试在某些应用程序中打印到某些打印机时,您可能会收…

    2024年1月10日
    145
  • 好看易学的字体有哪些(学生党女生简单好看的字体样式推荐)

    都见过,很多书法作品中写的字体是“行草”,笔走龙蛇,行云流水,节奏感十足。 行草字体,与楷书对比一下,可以看出,有很多明显的不同,但也有相通之处。 这种字体很难写么,特别是那些书法家们,几乎都在那儿说行草字体难写,要有很深的功力才能写出来。 真的是这样么? 其实不然,这种字体最好写,要比楷书好写得多,是一种很“遮丑”的字体。怪不得很多书法家在创作书法作品的时…

    2023年12月2日
    194
  • 蔡京是王珪的孙女婿吗?蔡京和王珪的关系是怎样的?

    蔡京是北宋时期的一位政治家和文学家,他在文学、书法等方面都有着卓越的成就。而王珪则是北宋时期的一位宰相和文学家,他的诗歌作品清新自然、富有感情色彩,被誉为“唐代小清新”。那么,蔡京是王珪的孙女婿吗?下面我们就来了解一下相关的历史资料。 据记载,蔡京曾经担任过王珪的门生。在当时,蔡京是一位才华横溢的年轻人,他不仅在文学方面有着卓越的成就,而且在政治上也备受人们…

    2024年2月28日
    36
  • 现在什么行业最赚钱(学什么技术好挣钱?)

    现在学什么 现在米胡低节征应感望末坚挣钱的方法和技术不少,但是要说真正稳定而又高收入的也就是高端IT的哪几门技术专业,目前咱们国家有专门初组其神培养这样的高级人才的学校或机构,一般学成后的汉层精旧批样工资都比普通行业多出两倍以上!我认识一个朋友现在年薪十多万,他是从 国家信息技术紧缺人才培养基地 学的高端展代特培货世垂激货只称IT技术专业。毕业了还能拿到国家…

    2024年1月27日
    125
  • 为什么在手里烫在嘴里不烫

    为什么感冒了之后 手摸着都烫的水,喝到口里面竟不觉得烫? 这是因为感冒之后,神经系统会有反应,体温要比平时的低

    2023年12月28日
    239
  • 乌龙茶的功效与作用(副作用,禁忌助眠效果详细解析)

    乌龙茶即青茶! 属半发酵茶(发酵度10%—70%),以本茶的创始人而得名。 种类繁多,是我国几大茶类中,独具鲜明特色的茶叶品类。 最负盛名的要数福建和广东二地产的,其中福建的“武夷岩茶”屈指可数 1、 工艺:鲜叶经过萎凋(晒青、晾青)做青(摇青)杀青、揉捻、毛火烘焙、包揉、足火、烘干等。由于青茶的加工工艺中有萎凋和做青工序,既有类似红茶的萎凋和发酵工序,又有…

    2023年12月13日
    146
  • 有哪些可以在网上赚钱的方法

    不想出去上班又 您好,我是代理虚拟充值产品的。我写这些东西,希望能真正的帮到您。因为现在网上购物越来越时尚了,每天都以数以百计的人参加。也许您也就是其中之一。当然许多人都在知器否计显吗缺风木滑想想,我什么都不懂来自,能不能开个网店呢?我想说的是完全可以。但是有种犹豫沉沉的拖住了他想前进的心。现在蛋口换维顶征每天有数百人甚至上千人处在观望状态,句远阿才位妒为什…

    2024年1月27日
    117
  • 做什么倒买倒卖生意好(在闲鱼上倒卖什么最赚钱?)

    闲鱼卖什么产品利润大?闲鱼上卖什么最受欢迎? 闲鱼卖什么产品利润大?闲鱼上卖什么最受欢迎? 您好,我现在在做闲鱼,在多课社学习的,可以给您解答1.最受欢迎的大概有日用百货,绿植,电子产品,鞋等等。 2.利润最大其实就是卖的最贵的东西跟卖的最便宜的东西。 3.要想利润高,要找稳定的货源,我的货都是从多课社拿的,一个店一天大约有二百多的利润。 4.找到欢迎的商品…

    2024年1月31日
    108

发表回复

您的电子邮箱地址不会被公开。 必填项已用*标注