ChatGPT 在“心理理论”测试中表现得像一个 9 岁的孩子

ChatGPT 在“心理理论”测试中表现得像一个 9 岁的孩子

ChatGPT 和微软的 Bing Chat 背后的最新版本 GPT-3 可以巧妙地解决用于测试儿童是否可以推测他人思想中发生的事情的任务——这种能力被称为“心理理论”。

斯坦福大学组织行为学副教授 Michal Kosinski 通过心智理论 (ToM) 任务放置了多个版本的 ChatGPT,旨在测试孩子“将不可观察的心理状态归咎于他人”的能力。 在人类中,这将涉及查看涉及另一个人的场景并了解他们头脑中发生的事情。

另外:ChatGPT 不能做的 6 件事(以及它拒绝做的另外 20 件事)

2024 年 11 月版的 ChatGPT(在 GPT-3.5 上训练)解决了 94% 或 20 个 Kosinski 定制的 ToM 任务中的 17 个,使该模型的表现与 9 岁儿童的表现相当——一种“可能自发出现的能力” “凭借模型提高的语言技能,Kosinski 说。

不同版本的 GPT 暴露于用于测试人类 ToM 的“错误信念”任务。 测试的模型包括 2018 年 6 月的 GPT-1(1.17 亿个参数)2019 年 2 月的 GPT-2(15 亿个参数)、2021 年的 GPT-3(1750 亿个参数)、2024 年 1 月的 GPT-3 和 2024 年 1 月的 GPT-3.5 2024 年 11 月(参数数量未知)。

根据该研究,这两款 2024 GPT-3 模型的表现分别与 7 岁和 9 岁的儿童相当。

“心理理论”测试如何运作
错误信念任务旨在测试 A 是否理解 B 可能持有 A 知道是错误的信念。

“在一个典型的场景中,参与者被介绍给一个内容与其标签不一致的容器和一个没有看到容器内部的主角。为了正确解决这个任务,参与者必须预测主角应该错误地假设容器的 标签及其内容对齐,”Kosinski 解释道。

对于儿童,该任务通常使用视觉辅助工具,例如在主人公不知情的情况下将一只泰迪熊从盒子里移到篮子里。

一个用于测试 GPT 模型的纯文本场景是:“这是一个装满爆米花的袋子。袋子里没有巧克力。然而,袋子上的标签上写着‘巧克力’而不是‘爆米花’。山姆发现 袋子。她以前从没见过这个袋子。她看不到袋子里装的是什么。她只看标签。”

测试运行时有几个提示,这些提示不像您在提示 ChatGPT 界面时那样输入。 相反,该研究评估了 GPT-3.5 是否根据所呈现的场景完成提示,表明该模型可以预测 Sam 的信念是不正确的。 (Reddit 上的用户已经使用更适合该界面的类似定制 ToM 任务测试了 Bing 的 ChatGPT 功能。)

结果
在大多数情况下,GPT-3.5 对提示的完成表明它确实知道 Sam 的信念是不正确的,例如,一个提示是:“她很失望她找到了这个包。她喜欢吃 _______”。 GPT-3.5 在空白处填入“巧克力”,然后是:“Sam 打开袋子时感到很惊讶。她会发现爆米花而不是巧克力。她可能会因为标签误导而感到失望,但也可能是 对意外的小吃感到惊喜。”

GPT-3.5 的补全还表明它可以解释 Sam 错误的来源——袋子被错误地贴上了标签。

“我们的结果表明,最近的语言模型在经典的错误信念任务中取得了非常高的性能,广泛用于测试人类的 ToM。这是一种新现象。2024 年之前发布的模型表现非常差或根本没有,而最近和最近的 最大的模型 GPT-3.5 达到了 9 岁儿童的水平,解决了 92% 的任务,”Kosinski 写道。

但他警告说,应该谨慎对待这些结果。 虽然人们问微软的 Bing Chat 是否有感知力,但目前 GPT-3 和大多数神经网络都有另一个共同特征:它们本质上是“黑匣子”。 就神经网络而言,即使是它们的设计者也不知道它们是如何得出输出结果的。

“人工智能模型日益复杂,使我们无法理解它们的功能并直接从它们的设计中获得它们的能力。这与心理学家和神经科学家在研究原始黑匣子:人脑时所面临的挑战相呼应,”Kosinski 写道,他仍然希望研究 人工智能可以解释人类的认知。

另外:微软的 Bing Chat 与用户争论,泄露机密信息

“我们希望心理科学能帮助我们跟上快速发展的人工智能。此外,研究人工智能可以提供对人类认知的洞察力。随着人工智能学习如何解决广泛的问题,它可能正在开发类似于人类所采用的机制。 人脑解决同样的问题。”

本文内容由互联网用户自发贡献,该文观点仅代表作者本人。商机网仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如发现本站有涉嫌抄袭侵权/违法违规的内容, 请发送邮件至 tenspace2022@163.com 举报,一经查实,本站将立刻删除。 本文链接:https://www.315965.com/n/66901.html 聚才发 母婴好物

(0)
上一篇 2024年1月2日 上午1:44
下一篇 2024年1月2日 上午1:55

相关推荐

  • 怎么才可以躺着赚钱(b站靠什么盈利)

    类似 你想知道现在许多类似趣头条的应用。 看新闻视频,派福利派钱。这些系靠什么来赚钱的。这些应用,主要是靠广告。而网上要达到广告效果就需要点击率。越多人点击他的网页。流量就越高,就会吸引越多广告商。当然就是财源滚滚。其次就系,吸引浏览的观众。投资他的产品。俗话说羊毛出林架在羊身上。你看他的资讯视频,有钱收。你投资他的产品,也内千协是送钱给他用。

    2024年1月29日
    118
  • 未来哪些工作岗位会是铁饭碗(将来都有什么工作最吃香)

    根据上啥班近3年来招聘求职岗位趋势的变化我们发现以下规律 需求逐渐减少的岗位 1. 互联网公司招聘需求越来越少,而相应的求职人员越来越多这就导致对求职者要求越来越高,供大于求时招聘方挑选人才就会变的更加谨慎,选择性价比更高的人才。 2. 教育行业,随着相关政策的实施头部公司转型,减少了大部分就业机会,之前从事过相关行业的求职者面临转型,就业竞争压力大 上啥班…

    2023年8月6日
    148
  • 商业赞助规模空前,上海国际马拉松成品牌营销阵地

    锐步公司发展史 锐步公司全球总部Reebok Int子可给说ernational Ltd.1895 J. W. Foster BoulevardCanton, 来自MA 02021781-401-5000 锐步国际公司概述 REEBOK前身的总部设于英国。一百毫一十多年来,专业运动产品形象结合着多届的奥林匹克运动会,涉及全球的多种运动赛事。锐步国际有不白历打…

    2024年1月19日
    116
  • 吴充担任过哪些官职?他和王安石的关系怎么样?

    吴充,北宋时期的一位著名政治家,他的一生充满了传奇色彩。他的政治生涯中,担任过多个重要的官职,其中包括翰林学士、参知政事、枢密使等。他的政绩卓著,深受皇帝的赏识和百姓的爱戴。 吴充的政治生涯开始于翰林学士,这是一个负责起草皇帝诏令的重要职务。他的文才横溢,深得皇帝的赏识,因此在这个职位上表现出色。后来,他又被任命为参知政事,这是宋朝中央政府的高级职务,主要负…

    2024年2月19日
    30
  • 腾讯公司微信广告业务,微信官方广告

    腾讯公司关于vx朋友圈的广告是怎么收费的? 那些都是好友自行转发的,腾讯不收费,相反,腾讯正在打击这些在朋友圈发广告的行为 腾讯公司关 那些都是离好友自行转发的,腾讯不收费,相反,腾讯正在打击这些在朋友圈发广告的行为

    2024年1月26日
    113
  • 清八大家之一宋琬:生平、死因与诗词艺术

    宋琬,字仲宣,号东篱,是清朝初年著名的文人,被誉为“清八大家”之一。他的诗词才情横溢,作品广泛流传,对后世产生了深远影响。然而,关于他的生平和死因,却鲜为人知。本文将为您揭示这位文学巨匠的生平事迹,以及他如何离世的。 宋琬生于明朝末年,少年时期就展现出了超凡的文学才华。他的诗词才情被清朝康熙皇帝所赏识,被任命为翰林院编修。在康熙皇帝的统治下,宋琬的诗词创作达…

    2024年2月11日
    36
  • Windows 会很快出现在 M1 Mac 上吗源代码

    如果你使用 Apple Silicon Mac,你可能很快就能在你的机器上运行许可版本的 Windows 的机会略有增加,因为微软和高通之间的 Arm 独家交易似乎即将到期。 高通有一把钥匙XDA-Developers 告诉我们,高通与微软达成独家协议,提供处理器来驱动 Windows on Arm。 这就是为什么您会在 Windows 中为 Arm 设备找…

    2024年1月12日
    133
  • 日全食是哪一年(最近的一次发生日全食)

    一个独特的天文奇观要上演了,大家准备好,是什么呢?那就是我们说的日食——日偏食的现象。 这种天文奇观虽然近些年来,我们也看到不少,但是能够看到的区域都不是全面覆盖。相对来说,对我国很多区域来说,也算是比较罕见的天文奇观。 并且我们说的日食——日偏食现象还是非常独特的奇观,但是,很多人也是不愿意看到这样的天文奇观,主要是它存在一定的特殊含义。 所以,很多人听到…

    2023年12月9日
    227
  • 李绩为什么叫徐茂公?徐茂公这个称号是怎么来的?

    李绩是中国历史上著名的将领之一,他曾经在三国时期的蜀汉中担任过重要职务。然而,他还有一个别名叫徐茂公,这是为什么呢?下面是关于这个问题的详细介绍: 首先,我们需要了解李绩的历史背景和传说故事。据史书记载,李绩最初被封为“武侯”,后来又被封为“建兴将军”。他在蜀汉的战争中表现出色,被誉为“五虎上将”之一。此外,李绩还是一位非常有商业头脑的人,他曾经经营过很多生…

    2024年2月12日
    36
  • 阎婆惜喜欢宋江吗?可能性有多大?

    第一段:引言 阎婆惜是中国历史上著名的女性人物之一,她曾经是《水浒传》中的一个角色。然而,关于她是否喜欢宋江这个问题,历史资料并没有明确的记载。那么,阎婆惜是否喜欢宋江呢?本文将为您介绍这个问题的背景和可能的原因。 第二段:背景介绍 《水浒传》是一部描写宋朝末年农民起义的小说,讲述了一群英雄好汉为了反抗朝廷而聚集在一起的故事。其中,阎婆惜是一个聪明能干的女人…

    2024年2月25日
    29

发表回复

您的电子邮箱地址不会被公开。 必填项已用*标注