随着机器学习的出现继续扰乱许多行业,越来越清楚的一件事是机器学习需要大量高质量的数据才能正常工作。
根据最近发布的一项调查结果,99% 的受访者表示有一个 ML 项目因训练数据不足而被完全取消,100% 的受访者表示由于训练数据不足而导致项目延迟。
使用合成数据是解决与从现实世界获取和使用高质量数据相关的问题的一种方法。 今天,Rendered.ai 宣布推出面向合成数据工程师和计算机视觉科学家的即服务产品。
Rendered.ai 宣称其是同类中的第一个,以及一个完整的合成数据堆栈,包括开发人员环境、内容管理系统、场景构建、计算编排、后处理工具等。
我们采访了 Rendered.ai 创始人兼首席执行官 Nathan Kundtz,以了解更多关于该可以服务的用例,以及它在幕后如何运作的信息。
人工智能模型的高质量数据很难获得,而且价格昂贵
Kundtz 是一名受过训练的物理学家,拥有博士学位。 来自杜克大学。 他也有之前的创业经验,曾创立并成功移交Kymeta。 Kymeta 是混合卫星蜂窝网络的开发商,Kundtz 一直听说卫星行业的人们在数据方面遇到的挑战。
他将如何应对这些挑战的想法写在了一份白皮书中,并与一些人分享了这份白皮书。 其中一些人决定与他合作,试图构建可以帮助卫星行业的人的工具,尤其是遥感领域的人。 这导致我们在 2019 年启动了 Rendered.ai。
昆茨称遥感涉及“正在建造的城市、生活模式、作物、林业等来自太空的图像”。 这完全属于非结构化可视数据的范畴。 但这并不是 Rendered.ai 所能产生的全部。
视觉数据可以指来自相机的图像类型,但也可以指 X 射线等事物。 Rendered.ai 也做雷达和许多其他不同的传感模式,最终可以使用计算机视觉工具进行转换。 该还可用于非视觉数据,例如表格数据、音频数据或视频数据。
Kundtz 强调了一个用例,其中 Orbital Insight 与 Rendered.ai 合作,作为国家地理空间情报局小企业创新研究资助的一部分。 Orbital Insight 通过使用合成数据证明了物体检测性能的改进结果。
Rendered.ai 帮助他们修改合成图像,因此经过训练的 AI 模型可以泛化到真实图像。 他们还帮助有效地使用大量合成图像和少量真实示例的组合来联合训练模型。
正如 Kundtz 指出的那样,要使图像与计算机视觉相关,需要的不仅仅是图像本身。 需要对图像进行注释,以正确标记需要由 AI 模型识别的描绘项目。
Kundtz 说,要在 RGB 摄影测量中标注 200 公里的测绘带,成本可能高达 65,000 美元。 这并不一定包括赞助注释的人希望训练 AI 模型识别的所有对象。 合成数据背后的想法是生成足够真实的数据,但同时保证包含 AI 模型需要学习的所有内容,并进行预注释,从而降低成本。
逼近真实世界
Rendered.ai 应用了所谓的基于物理的方法。 正如 Kundtz 解释的那样,这在实践中意味着他们应用基于物理的模拟来足够好地近似现实世界的行为以生成有用的数据。 还有其他方法可以生成合成数据,但 Kundtz 认为它们都行不通。
GAN(生成对抗网络)是一种用于生成合成数据的常用方法。 正如 Kundtz 所说,从本质上讲,我们提供了大量图像,然后教授一种算法来制作更像我们已有的图像。 他继续补充说,GAN 的问题在于你没有引入任何新信息。 你生产你已经拥有的东西。
另一种生成合成数据的方法是使用视频游戏引擎。 Kundtz 承认,这里面有很多物理原理,Rendered.ai 也使用它们,但它的范围相当狭窄。 他认为,这种方法不适用于人们需要合成数据的广泛用例。 另外,游戏引擎并没有达到与现实无法区分的地步,有时这会对算法产生重要影响。
Kundtz 说,Rendered.ai 所做的是使其可扩展到各种不同的模拟类型,然后与在这些领域拥有深厚专业知识的公司建立合作伙伴关系。 不仅使用视频游戏引擎代码,还嵌入深厚的物理知识。
无论如何,这不是模拟现实世界,而是模拟您可以为现实世界创建的网格。 根据定义,模拟不会捕捉到真实世界 100% 的保真度。 Kundtz 指出,这意味着您需要做两件事。
首先是克服与现实的差距,避免引入可能混淆 AI 模型的人工制品。 二是应用后处理效果,帮助克服所谓的恐怖谷,提高真实感。
Rendered.ai 的有两个主要组件:开发人员框架和计算机编排图书馆环境。 正如 Kundtz 所说,“任何你可以用 Python 编写脚本的东西,你都可以放入那个开发者框架中”。 还有一个可视化层,Rendered.ai 称之为无代码环境,它使人们无需手动输入所有内容即可生成工作流。
但该方法的核心在于 Rendered.ai 所谓的“图表”。 这是定义不同类型对象、它们的属性和相互依赖性的可视化方式:
“该图不仅定义了一段数据、一张图像或一张表格,而且还定义了一种生成它们的随机方法。因此,您可以使用该图在某个域内不断生成其他数据”,Kundtz 说。
在此背景下,Rendered.ai 定义了合成数据工程师和计算机视觉工程师的角色。 合成数据工程师是编写脚本的人,这些脚本定义了不同图形的可能性。 计算机视觉工程师摄取图形并确定他们希望在特定数据集中看到的内容。
协作,包括计算
Kundtz 还详细阐述了在必要时引入一定量随机性的过程和工具。 这对于确保数据反映真实世界以及生成边缘案例和测试不同场景很有用。
Rendered.ai 声称其引入的部分创新正是流程中这些不同角色的定义,以及支持它们的协作基础设施。 Kundtz 说,大多数模拟工具、3D 建模和游戏工具都是围绕单个用户构建的,但合成数据基本上是多学科的。
Rendered.ai 的入职流程通常从现有代码开始,然后对其进行修改以满足每个客户的需求。 Kundtz 承认合成数据还处于早期阶段,因此教育客户并帮助他们进行实验是 Rendered.ai 使命的重要组成部分。
在这方面有帮助的是,分别以 500 美元/月和 5000 美元/月的价格获得 Developer 或 Professional 计划与 AWS 上的计算捆绑在一起。 尽管实例中确实存在一些限制,但其想法是让用户能够运行他们需要的实验,而不必过分担心他们的 AWS 账单。 还有一个免费层可用于测试。
Rendered.ai 在 2021 年获得了 600 万美元的种子资金,已经发布了一个开源应用程序和相关内容,以帮助用户使用其。 Kundtz 提到他们将为更多领域发布额外的开源应用程序和内容,以吸引更多用户。
“我们可以做很多事情来帮助这个行业的人们。我认为这是人工智能面临的最重要的问题之一,如果不是最重要的问题的话。所以我很高兴能够提供帮助,”他总结道。
注意:本文已于 2024 年 2 月 4 日更新,以更正 Rendered.ai 融资轮次日期及其订阅级别的名称,这些都是之前错误报告的。
本文内容由互联网用户自发贡献,该文观点仅代表作者本人。商机网仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如发现本站有涉嫌抄袭侵权/违法违规的内容, 请发送邮件至 tenspace2022@163.com 举报,一经查实,本站将立刻删除。 本文链接:https://www.315965.com/n/66636.html