2021 年的 AI 状态:生产中的机器学习、MLOps 和以数据为中心的 AI

2021 年的 AI 状态:生产中的机器学习、MLOps 和以数据为中心的 AI

又到了一年中的那个时候:关于 2021 年人工智能状况的报告已经发布。 几天前,ZDNet Big on Data 的同事 Tony Baer 报道了 Matt Turck 的机器学习人工智能和数据报告。 本周,这是由 Nathan Benaich 和 Ian Hogarth 撰写的 2021 年 AI 状况报告。

在发布了可能是关于 2020 年 AI 状况的最全面报告之后,Air Street Capital 和 RAAIS 创始人 Nathan Benaich 以及 AI 天使投资人和 UCL IIPP 客座教授 Ian Hogarth 又回来了。

在即将成为一项重要的年度传统的情况下,我们与 Benaich 和 Hogarth 进行了会面,讨论了报告中对我们来说很突出的主题。

MLOps,生产中的机器学习
首先,这与图尔克和 Baer 报告的主题有重叠,并且有充分的理由。 正如贝尔指出的那样,IPO浪潮和独角兽的泛滥正在将这个市场变成自己的部门,这是不容忽视的。 如需市场趋势概览,我们鼓励读者查看 Baer 的报道。

也就是说,我们的感觉是 2021 年人工智能状况报告涵盖了更多主题:人工智能研究、行业、人才和政治的最新发展,同时它也冒险进行预测。 事实上,Benaich 和 Hogarth 一直在跟踪他们的预测,而且他们做得很好。 例如,他们在 2020 年正确预测了英伟达收购 Arm 以及 AI 和生物技术相关 IPO 的障碍。

正如 Benaich 指出的那样,由于是不同的(主要是处于早期阶段的)机器学习公司的投资者,他们可以接触到主要的人工智能实验室、学术团体、新兴初创公司、大公司以及在政府工作的人。 因此,他们试图将所有这些不同的角度综合到一个开源的公共产品中,旨在全面告知所有利益相关者。

我们选择了一些在报告中对我们来说很突出的总体主题,因为我们也在全年中确定了这些主题。 第一个是 MLOps——将机器学习引入生产的艺术和科学。 在实施 AI 时,重点正在从闪亮的新模型转移到可能更平凡但实用的方面。

随着机器学习模型的能力和可用性不断增强,模型改进带来的收益变得微不足道。 在这种情况下,机器学习社区越来越意识到更好的数据实践以及更普遍的更好的 MLOps 对构建可靠的机器学习产品的重要性。

Benaich 指出,他们认为重要的是要强调在更多具有行业头脑的学术工作中围绕数据质量和最终传播到 ML 模型的数据中可能存在的各种问题重新关注,以确定模型是否预测良好:

“很多学术界都专注于在静态基准上竞争,在这些基准上离线展示模型性能,然后进入工业界。所以第一代有很多关于——让我们得到一个适用于特定问题的模型,然后 随时处理任何问题或任何变化。

MLOps 投入了大量资金、兴趣和工程时间。 这是因为机器学习不像静态软件产品,您可以编写一次就可以忘记。 你必须不断更新它,而不仅仅是更新模型。

您必须查看您的课程可能如何随时间漂移,或者您是否仍在使用正确的基准来确定您训练的新模型是否会在生产中工作。 您可能会遇到一些问题,例如为您的模型选择不同的随机种子,然后在真实世界的数据上看到完全不同的行为,甚至您一直在使用的数据都是垃圾”。

这在直觉上听起来是对的,并且可能与任何使用过机器学习模型和数据管道的人产生共鸣。 现在人们正在为这种现象命名,例如分布变化(数据集版本不匹配)和数据级联(影响下游操作的数据问题)。 由于命名事物是开始分析它们并更认真地对待它们的第一步,这是一件好事。

以数据为中心的人工智能:好数据、坏数据、分布变化和数据级联
当测试/部署时的数据与训练数据不同时,就会发生分布偏移。 在生产中,这通常以概念漂移的形式发生,其中测试数据随时间逐渐变化。

随着机器学习越来越多地用于现实世界的应用程序,对分布变化的深入理解变得至关重要。 Benaich 和 Hogarth 在报告中指出,这始于设计具有挑战性的基准。

Benaich 认为,很难在现实世界中确定具体的分布转移示例,因为组织可能不希望世界知道他们受到此类问题的影响。 但这可能影响的领域之一是各种零售网站的定价。

Benaich 指出,后端通常有一个由机器学习驱动的动态定价引擎,其输出取决于他们掌握了多少关于你的信息。 因此,分销转移可能意味着您最终会为您正在查看的特定产品获得非常非常不同的价格,具体取决于正在使用的数据。 有趣的是,这种做法正是中国市场监管机构针对的对象。

Benaich 强调,至少有两个主要的新数据集发布,旨在处理分布变化,即 WILDS 和 Shifts,分别由许多美国和日本的大学和公司以及 Yandex 开发。

Benaich 指出,在学术界使用更多面向行业的数据集意味着最终的学术项目更有可能在生产环境中取得成功,因为当你从工业界转移到学术界时分布转移较少,反之亦然。

谷歌研究人员将数据级联定义为“导致数据问题产生负面下游影响的复合事件”。 在对来自美国、印度、东非和西非国家的 53 名从业者进行的一项调查的支持下,他们警告说,当前的做法低估了数据质量并导致数据级联。

这是一个相当直观的想法——多米诺骨牌效应。 如果您在开始时遇到问题,那么当您到达最后一张多米诺骨牌时,它很可能会解决。 值得注意的是,绝大多数数据科学家都表示遇到过其中一个问题。

当试图归因于这些问题实际发生的原因时,主要是由于缺乏对数据在 AI 工作背景下的重要性的认识,或者缺乏该领域的培训,或者没有获得足够的专业数据来进行研究。 他们正在解决的特定问题。

这表明在机器学习的世界中,除了“好数据”和“坏数据”之外,还有更多的细微差别。 由于数据集是多方面的,不同的子集在不同的上下文中使用,并且不同的版本不断演变,因此上下文是定义数据质量的关键。 机器学习在生产中的洞察力促使人们将注意力从以模型为中心的人工智能转移到以数据为中心的人工智能。

以数据为中心的 AI 是斯坦福大学 Chris Ré 的研究小组 Hazy Research 提出的一个概念。 如前所述,数据的重要性并不新鲜——已有成熟的数学、算法和系统技术用于处理数据,这些技术已经发展了数十年。

新的是如何根据现代 AI 模型和方法构建和重新检查这些技术。 就在几年前,我们还没有长寿的人工智能系统,也没有目前这种强大的深度模型。

下周加入我们,我们将继续与 Benaich 和 Hogarth 进行对话,涵盖语言模型、AI 商业化和 AI 驱动的生物技术等主题。

本文内容由互联网用户自发贡献,该文观点仅代表作者本人。商机网仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如发现本站有涉嫌抄袭侵权/违法违规的内容, 请发送邮件至 tenspace2022@163.com 举报,一经查实,本站将立刻删除。 本文链接:https://www.315965.com/n/66545.html 聚才发 母婴好物

(0)
上一篇 2023年12月29日 上午4:47
下一篇 2023年12月29日 上午4:56

相关推荐

  • Gmail 企业版:最佳提示、节省时间的方法和高级建议

    警告:如果您仍在使用开箱即用的收件箱,那么您几乎肯定会错过一些有希望的可能性。 Gmail 有潜力成为一个经过精心调整、彻底完善的框架,以提高📮处理效率。 该服务实际上充满了有用的功能和界面增强机会。 但默认情况下,它的许多最佳选项和安排未激活或不可用——或者甚至总是很容易找到。 不过,改变这一点并不需要太多 — 并将 Gmail 从一堆未开发的潜力变成一个…

    2024年1月4日
    143
  • 宋仁宗曹皇后为何历经三朝不倒?曹皇后究竟是怎么做到的?

    前段时间热播的《清平乐》,让很多人认识到了一个努力做好皇后的曹皇后,而剧中的曹皇后与历史上真实的曹皇后,其实还是有一些差距的。真实的曹皇后,看起来更像是一个皇后、太后里面的赢家,因为她历经三朝不倒,死后还有很多的美名,后世对于曹皇后都是非常尊重和推崇的。那么曹皇后究竟是如何做到历经三朝而不倒的呢?她是如何当好一个皇后、太后、太皇太后的呢?下面就让历史资料网的…

    2024年2月21日
    27
  • 噪音扰民24小时投诉电话12319(迅速解决工地酒吧楼上噪音困扰)

    商场叫卖、广场舞、狗吠…… 如今,社会生活噪声 引发的纠纷日益增多 为妥善解决这些问题 即日起 “新噪声法”已正式施行 快来看看哪些变化与你有关 ↓↓↓ 2024年6月5日起,《中华人民共和国噪声污染防治法》(简称“新噪声法”)正式施行,《中华人民共和国环境噪声污染防治法》同时废止。这部人们期待已久的法律对于恼人的夜间施工噪声、机动车轰鸣疾驶噪声、娱乐健身音…

    2023年12月2日
    319
  • 斗罗大陆魂师对决阵容推荐2024(平民最佳强势阵容搭配攻略)

    大家好,我是汉堡包里的何二维一。 今天的策略是另一个总结性质的全策略,涵盖了游戏中几乎所有人都能遇到的战斗场景,包括普通情节副本、困难情节副本、日落森林、猎魂森林、星斗大森林、战场奖励、世界奖励、天斗霸权、战争野兽、国家对抗、灵魂对抗等,希望以下总结能给大家带来一些帮助:(今天总结策略的截止日期是2024年3月7日,截止日期的最后一位魂师是SP波赛西) PS…

    2023年12月12日
    432
  • 情非得已歌词表达什么意思(情非得已是写给谁的)

    今日日晴 听听《情非得已》 ① 生活,有太多的情非得已,太多的无可奈何。要学会乐观,别让情绪,淡了笑容。懂得选择,才能幸福;懂得大气,才能快。 ② 庾澄庆的《情非得已》,是对喜欢上一个人的真情流露。谁都有青春萌动时期,初恋的感觉已永存于心,记忆也永不老去。 ③ 听情非得己,还是在看流星花园的时候!道时寺,杉菜!记得她头梳两麻花辫,被道明寺折磨的惨不忍睹,无路…

    2023年12月7日
    561
  • 木字旁建怎么打

    木字旁如何用五笔打出来 木”与“木字旁”是有区别的。各个五笔输入法里面可能会有些区别。我用的极点五笔,木字旁输入是SGHY,朩。(木字旁是小山旅逗字上面一横,不是木字)如果一定要打成只有半个汉字镇猛宽的那种偏旁,我用的极点五逗卖笔是做不到的。别的输入法不清楚。

    2023年12月28日
    266
  • 描写立冬的唯美诗句简短(适合立冬发朋友圈的古诗抒情文案)

    还来不及欢呼秋色的赠予,就迎来冬日的盛情。今天18时45分,我们将迎来立冬节气。 立冬,是二十四节气之第十九个节气,也是冬季的起始。立,建始也;冬,终也,万物收藏也。立冬,意味着生气开始闭蓄,万物进入休养、收藏状态。气候也由秋季少雨干燥,向阴雨寒冻的冬季气候过渡。 黄花带露,细雨生寒,残枝枯树,红叶满阶。当你用心去感悟冬日的风景时,一定会明白,人间值得。在这…

    2023年12月7日
    157
  • 阿倍仲麻吕与杨玉环什么关系?故事是真的假的?

    在日本文学史上,阿倍仲麻吕(698-770年)以其优美的诗句和深刻的哲理闻名于世。然而,鲜为人知的是,他与唐朝皇帝杨玉环之间竟然有着一段跨越千年的传奇爱情故事。本文将带您揭开这段神秘面纱,一探究竟。 一、阿倍仲麻吕与杨玉环的相识 据史书记载,阿倍仲麻吕在唐朝时期曾出使长安,期间有幸结识了杨玉环。当时,杨玉环正值芳华年少,美貌绝伦,令阿倍仲麻吕为之倾倒。在长安…

    2024年2月16日
    34
  • “换装自拍馆”怎么开店赚钱?

    这期七赚联盟七哥分享一篇关于自拍爱美经济的文章,就是如何开一家“换装自拍馆”店铺赚钱。原文来自vxgongzhonghao新说钱,原文标题3个月回本,年入50万的新项目了解下!   剧本杀火的时候,有人抓住红利开店年入百万,在店铺开的如火如荼时候,当时钱*妹还写过剧本杀带动的一些副业,如今换装自拍馆兴起,对于刚刚起步的爱美创业项目来说,入行适逢其时。   一…

    2023年12月20日
    148
  • 甄嬛到底有多爱果郡王?他们之间有什么故事?

    在清朝的历史长河中,甄嬛和果郡王的爱情故事是一段被人们津津乐道的佳话。他们的爱情故事充满了曲折和悲剧,但也充满了深情和厚意。那么,甄嬛到底有多爱果郡王呢? 首先,从甄嬛对果郡王的关心和照顾来看,我们可以看出她对他的深深的爱意。在果郡王生病的时候,甄嬛不顾自己的身体,日夜守在他的床边,为他照料。这种无私的付出,无疑是爱情的最好诠释。 其次,从甄嬛对果郡王的理解…

    2024年2月16日
    34

发表回复

您的电子邮箱地址不会被公开。 必填项已用*标注