请打开吊舱舱门，HAL：Meta 的 AI 模拟唇读

• 2023年12月30日上午2:44 • 百科分享 • 阅读 133

众所周知，人们不仅通过耳朵聆听，而且还通过观察说话者的嘴部动作来获取线索，从而听到讲话。

同样，将视觉观察与音频相结合可以帮助计算机更好地解析人类语音。从某种意义上说，计算机程序可以读唇语，尽管这对工程师来说是一项艰巨的任务。

Meta 是 Facebook、Instagram 和 WhatsApp 的母公司，其最近的 AI 工作提出了一条更有效的途径，让计算机可以像 David Bowman 博士和 Frank Poole 博士试图逃避其音频时的 HAL 9000 一样读唇语。电影《2001》中吊舱内的传感器。

上周五，Meta 的人工智能科学家发布了一份研究报告，在报告中，他们能够显着减少设计软件来解析录制视频中说话者嘴唇运动的词语所需的工作量。这项工作还能够使用唇读技术有意义地改善噪声环境中的语音识别。

该程序“比最好的视听语音识别系统（它使用说话者的声音和图像来理解人在说什么）准确 75%”，作者说。

当然，这里有一个 Metaverse 的角度：该程序不仅可以用于即时翻译，有朝一日，它还可以“帮助在虚拟现实化身中产生逼真的嘴唇运动，以传递真正的存在感——那种感觉与某人在一起，即使他们在世界的另一端。”

这项工作代表了两条路线的进步。一种是自我监督学习，它避开特定的线索，例如文本抄本，而是让程序自发地在数据中神圣化结构。另一个发展领域是所谓的多模式神经网络，它以一种相互加强的方式组合不同类型的数据。

结果称为 AV-HuBERT，“AV”代表视听，“Hu”代表“隐藏单元”，结合听觉和视觉信号来检测嘴唇运动中的单词。

主要作者 Bowen Shi 和来自 Facebook 的同事 Wei-Ning Hsu、Kushal Lakhotia 和 Abdelrahman Mohamed 上周五在 arXiv 预印本服务器上发布了他们的论文“通过掩蔽多模态集群预测学习视听语音表示”。作者还写了一篇博文，您可能会发现它更容易理解。

正如 Shi & Co. 解释的那样，之前的工作也是多模态的，将视觉数据、视频帧与音频数据、波形片段结合起来，以训练神经网络来预测它们如何匹配。

但此类程序往往依赖于某种额外的、准备好的线索，例如将演讲者的视频转录成文本句子，然后用作标签。新作品走的是自我监督的路线，在没有外部结构的情况下自发地组合模式。

“这是第一个根据未标记数据——尚未转录的原始视频——联合建模语音和嘴唇运动的系统，”作者在他们的博客文章中写道。

许多先前的模型都使用词级注释的唇读视频，”进行训练，“收集这些视频的成本很高，因为它们需要词边界信息。与这些模型相比，我们的模型是使用所提出的方法从头开始进行完全预训练的。

他们发明的 AV-HuBERT 程序建立在 Hsu 及其同事去年推出的名为 HuBERT 的纯音频程序的基础上。顾名思义，HuBERT 使用的是 2018 年谷歌开发的双向 Transformer 神经网络方法。

通过“屏蔽”音频记录的部分，即省略音频波形的部分，HuBERT 神经网络在其训练阶段必须重建哪些音频片段相互配合。

现在，在 AV-HuBERT 中，Shi 和团队将音频位与人们说话的视频帧“融合”在一起。神经网络的训练阶段基本上分两个阶段进行。首先，与最初的纯音频 HuBERT 一样，他们使用注意力方法来屏蔽音频，然后将这些音频波形分组到集群中，这些集群的样本在某种程度上在它们的属性上彼此接近。

这些分组随后成为神经网络第二阶段的目标。 AV-HuBERT 的多模式部分同时屏蔽了说话者嘴唇的图像和音频波形，然后尝试将它们与第一波中建立的集群相匹配。通过这种方式，程序计算出哪些嘴唇配置对应于哪些音频波形，从而“学习”嘴部运动和音频输出的相关性。

也就是说，实际上，这是一种自我监督的方法，可以在没有明确线索的情况下预测结构。

融合意味着将注意力放在图像帧上和放在音频波形上的注意力会相互加强，从而产生比单独使用任何一个都更好的集群。这些集群成为后续任务的“目标”，例如唇读和语音识别。

正如作者所解释的那样，

AV-HuBERT 同时从嘴唇运动和音频流中捕获未屏蔽区域的语言和语音信息到其潜在表示中，然后编码它们的长期时间关系以解决屏蔽预测任务。

一旦 AV-HuBERT 以这种方式进行了自我训练，作者就会通过引入实际标记的视频（数小时）以及告诉机器单词在视频中的位置的正式成绩单来进行微调。

用于测试和训练 AV-HuBERT 程序的主要数据集是 LRS3，由牛津大学的 Triantafyllos Afouras 及其同事于 2018 年开发，这是“迄今为止最大的公开可用的句子级唇读数据集。它包含 400 多个小时视频，摘自 YouTube 上的 TED 和 TEDx 英文演讲。”

作为 AV-HuBERT 自我监督训练的结果，它可以比之前所有尝试更好地预测演讲者视频中的单词，写施和公司。

但是，比原始分数更重要的是训练程序所需的数据量大幅减少。

“AV-HuBERT 使用 433 小时的文本转录达到了最先进的水平，比之前最佳方法中使用的 31,000 小时标记数据少两个数量级，”他们写道。

由于所需的数据少得多，因此可以在数据比其他语言少得多的语言（即所谓的低资源语言）上执行唇读任务。（例如，想想英语、法语和德语以外的语言。）

作者观察到“作为未来的工作，AV-HuBERT 可以应用于低资源语言的多语言唇读”，并且相同的“方法可以扩展到视觉语音表示的其他应用，例如语音增强和生成 ”

Shi 及其同事在上周发表的第二篇论文中补充了他们的发现，该论文描述了 AV-HuBERT 在自动语音识别中的应用。在这里，重点是如何在噪声环境下更好地解析语音。

语音识别“部署在会议场景中会受到嘈杂噪音的影响，而在家庭环境中使用的语音识别自然会遇到音乐、烹饪或吸尘器的噪音。” 他们的疑问是 AV-HuBERT 是否可以克服这种环境噪声。

在训练期间，Shi 和团队将噪声片段与 AV-HuBERT 的视频帧和音频波形样本混合在一起。他们写道，结果是该程序擅长绕过喋喋不休。与以前的语音识别系统相比，AV-HuBERT 的词错误率或 WER（错误词的比例）降低了 50%。

“我们未来的工作包括在现实世界的低资源和多语言环境中应用视听语音识别，”他们写道。

那么，像 HAL 9000 的唇读这样的东西有多真实呢？近年来，AI 的唇读能力优于人类的观点在之前的 AI 研究中有所体现。 AV-HuBERT 的最佳展示中的单词错误率确实远好于人类专业唇语读者，为 26.9%。显然，大多数人类唇读者得到的最好结果只有 40%（他们十有八九是错的。）显然，对于诸如事后转录谈话之类的事情，这可能会对软件程序产生巨大的推动作用。

但在实践中，有一个很大的警告。这真的是模拟唇读。 AV-HuBERT 结果通过了对录制视频的测试，而不是像电影中 Bowman 和 Poole 那样的现场、自由形式、野外对话。

目前，您在吊舱内可能仍然安全。

本文内容由互联网用户自发贡献，该文观点仅代表作者本人。商机网仅提供信息存储空间服务，不拥有所有权，不承担相关法律责任。如发现本站有涉嫌抄袭侵权/违法违规的内容，请发送邮件至 tenspace2022@163.com 举报，一经查实，本站将立刻删除。本文链接：https://www.315965.com/n/66616.html 聚才发母婴好物

、

0 0

人工智能是否找到了治疗脆性 X 的方法

上一篇 2023年12月30日上午2:39

Landing AI 聘请视觉专家 Dechow 纠正大数据谬误

下一篇 2023年12月30日上午2:49

百科分享

揭秘真实的蔡京

最近很多人都在问这个蔡京的故事，很多人也都说了，这个蔡京到底是谁呢？他又有什么样的故事呢？很多人都说这人不知道是不是好人，那么在真正的历史上这个蔡京到底是一位什么样的人呢？这个问题也比较有意思，下面我们不妨就着这个问题一起来具体的分析揭秘看看。 1、蔡京简介蔡京是我国封建王朝历史上任宰相时间最长的历史人物，在任职其间，曾经为北宋未期的社会经济，文化教育等的…

2024年2月25日
38
百科分享

李辅国是不是李唐宗室？历史上是怎么记载的？

李辅国，这个名字在中国历史上可谓家喻户晓，他是唐朝末年的一位著名宦官，因其权倾朝野而声名狼藉。然而，关于他的身世却一直众说纷纭，那么，李辅国究竟是不是李唐宗室呢?本文将带您揭开这段神秘的历史面纱。一、李辅国的身世背景李辅国，原名李福，生于唐朝天宝年间(742-756年)，他的父亲是唐朝著名的宦官李林甫。据史书记载，李辅国自幼聪明过人，勤奋好学，深得父亲宠…

2024年2月15日
38
百科分享

周娥皇为什么被称为大周后？背后有哪些原因？

周娥皇是中国历史上著名的女性人物，她被称为“大周后”，是唐朝时期的一位皇后。那么，周娥皇为什么被称为大周后呢?下面是关于这个问题的详细介绍：首先，需要了解周娥皇的历史背景和生平事迹。据史书记载，周娥皇是唐太宗李世民的皇后，她的丈夫在位期间，国家政治稳定、经济繁荣，被誉为“贞观之治”。同时，周娥皇也是一位非常有才华的女性，擅长诗词歌赋和音乐艺术。其次，需要…

2024年2月12日
38
百科分享

重庆大学排名前十名学校（排名一览表及分数）

重庆目前有69所高等院校，其中26所本科院校，公办本科17所，民办本科9所。在第二轮“双一流”建设高校中，重庆高校只有重庆大学和西南大学一共5个学科入选，重庆大学第二轮“双一流”建设学科：机械工程、电气工程、土木工程，西南大学：教育学、生物学，同首轮双一流相比，第二轮多了一个建设学科，作为重庆唯一一个拥有A档学科的西南政法大学未能入选第二轮“双一流”，还是让…

神明
2023年8月11日
198
百科分享

抖音最火文案吸引人的句子（抖音最火的幽默句子2024）

1.我要好好努力，要不然人家会说我除了长得好看，其他一无是处。 2.把你蒙在鼓里有什么意思蒙在被窝里才好 3.小时候外婆经常给我吃一种洋咖啡，长大了才知道那是板蓝根。 4.没钱没时间旅游的话，买个地球仪吧。世界那么大，你不但可以看看，还可以转转。 5.不要怪“红颜易老、老公易跑”，那是因为“你花钱太少，放弃美好”。 6.我们都爱过，伤过，痛过，恨过，就是没…

神明
2023年8月4日
238
百科分享

消费者维护权益投诉电话(淘宝，拼多多网络消费商家退款投诉调解电话）

在生活中，常常会发现各种各样的产品或服务质量问题想要投诉或者咨询举些例子：买的产品质量不合格、遭遇电信诈骗、驾校不退费、食品安全问题、工资被拖欠、环境污染问题、快递服务问题等等遇到这些问题又该怎么办呢？怎样直接有效地投诉、维权？比较方便快捷的方法就是电话投诉不少人遇事就喜欢打110 但事实上 110并不是万能的有些事情也没法帮到你 110…

神明
2023年12月4日
220
百科分享

德云社辈分排名表图高清（阎鹤祥正式宣布退出德云社）

德云社辈分是按照云鹤九霄排的，具体如下：云字辈：岳云鹏、栾云平、孔云龙、李云杰、陶云圣、李云天、赵云侠、朱云峰、张云雷。鹤字辈：刘鹤春、关鹤柏、李鹤东、靳鹤岚、孙鹤宝、朱鹤松、张鹤舰、刘鹤清、张鹤君、阎鹤祥、杨鹤通、张鹤雯、杨鹤灵、刘鹤龙、曹鹤阳、张鹤擎、刘鹤安、张鹤伦、郎鹤炎、李鹤彪、孟鹤堂、梁鹤坤、张鹤帆、王鹤江、姬鹤武、韩鹤晓、李鹤林。九字辈：张…

神明
2023年12月14日
299
百科分享

李建成和李世民谁优秀

在玄武门之变中，李建成死于李世民之手，所以要对比李建成与李世民哪个更优秀，那我们就只能拿玄武门之变之前的两人军事成就来说事儿了。有些人会认为，要不是因为李建成被杀了，也许政治能力要比李世民更高呢。其实只能说，也许吧。不过李世民的贞观之治可不是随便来的。要说李建成若是当皇帝要比贞观之治还要厉害，那只能说概率非常的渺小。要知道在历史上，皇帝那么多，在政治能力上能…

2024年2月6日
47
百科分享

手机掉厕所了怎么清理干净（手机掉厕所怎么清洗）

问世间手📱机为何物，直教人寸手不离!出门、吃饭、坐车、睡觉……甚至在人生三急之一的如厕，手📱机也不能缺席!但是当机有不测风云，爱机不慎掉进厕所坑里了，臭味难闻，怎么除臭好? 手📱机掉厕所里，虽然臭味难闻但是很多人不会因为这个就放弃这部手📱机，毕竟我们很多人都不是土豪，那么如何除臭呢? 1、到化学药品店里买点活性炭，把手📱机和药品放一起很快就好!要密封放。 2…

神明
2023年8月4日
186
百科分享

对于 Windows 安全，我们遇到的是通信失败源代码

微软上周公布其最近一年的利润为 600 亿美元，销售额为 1650 亿美元——云收入增长惊人。但这个好消息是在一年中传来的，没有一天没有另一个安全问题、另一次勒索软件攻击的报告。是的，Windows 11 将需要能够带来更好安全性的硬件，但这是有代价的。大多数用户的系统不支持 Windows 11，因此我们将只能使用 Windows 10。 Windo…

2024年1月11日
136

请打开吊舱舱门，HAL：Meta 的 AI 模拟唇读

相关推荐

发表回复