Databricks 的 TPC-DS 基准测试助长了分析平台大战

Databricks 的 TPC-DS 基准测试助长了分析平台大战

随着数据源和数据量的增长,以及数据驱动方向越来越被认为是竞争的必要条件,供应商之间为我们的数据提供主要存储库的战争非常激烈。 战争有几个方面,其中之一是分析。 而在这个范围内,数据仓库和数据湖阵营是主要的参战者。

数据仓库方面很强大,因为它包括 Teradata 和 Vertica(现在是 Micro Focus 的一部分)等坚定的现有供应商所有三大云提供商(AWS、Google Cloud、Microsoft Azure)和行业宠儿 Snowflake 的组合。 在数据湖方面,Cloudera 和 Databricks 等独立提供商可能是最具代表性的竞争对手。

几个月前,Databricks 表示它取得了创纪录的性能基准测试结果,使其在这场战斗中取得了胜利,击败了数据仓库模型和拥护它的供应商。 虽然这不再是最新消息,但仍有必要对公告进行一些分析。

不要只是踩水
虽然数据湖(和 Databricks 喜欢称其自己的为“lakehouse”)的支持者可能会批评仓库已经过时,但后者经过了时间考验并享有一定的主导地位。 这将举证责任放在了数据湖端,以证明它可以处理与具有竞争力的性能的仓库相同的工作负载。

Databricks 现在相信它有这样的证据。 去年 11 月,该公司公布了一组由交易处理性能委员会 (TPC) 标准审核并基于其标准的基准测试结果。 这些测试是针对相对较新的——甚至是最近改进的——Databricks SQL 运行的,该是上述 lakehouse 架构的公司基础。 具体来说,基准配置使用 Databricks SQL 8.3,其中包括 Databricks 专有的 Photon 引擎,这是一个向量处理、查询处理器优化的替代品,用于替代用 C++ 编写的 Spark SQL。

具体来说,Databricks SQL,以及一般的 lakehouse 架构,以数据湖技术为核心,结合增强功能——如 ACID 合规性、写回和矢量处理——有助于提供与数据仓库的功能对等。 Databricks SQL 仍然使用运行基于 Spark 的 Databricks Runtime 的机器集群,但它针对数据仓库和商业智能 (BI) 用例中常见的查询类型和用户需求模式优化了这些集群上的节点。

DS、FTW
Databricks 使用了稳定的 TPC-DS 测试,长期以来一直是数据仓库系统基准测试的行业标准。 基准测试是在一个非常强大的 256 节点、2112 核心 Databricks SQL 集群上进行的,Databricks 为其云基础设施定价超过 500 万美元。 顺便说一句,“DS”代表“决策支持”,这是术语商业智能的前身,考虑到 Databricks SQL 的设计和使命,它是非常合适的。

Databricks 对基准测试结果进行了描述,称它为在任何(无论是仓库、湖还是湖屋)上执行的 TPC-DS 性能创造了新的世界纪录。

在 Databricks 的 TPC-DS 基准测试运行规模上,之前的性能记录保持者是阿里巴巴。 这家中国互联网和电子商务巨头在 100TB(每小时决策支持查询,基于涉及 100TB 数据的查询)中取得了 14,861,137 QphDS 的结果,使用了自己定制的——也相当强大的——数据仓库 系统。

与此同时,Databricks 宣布它在 100TB 时取得了 32,941,245 QphDS 的成绩——是阿里巴巴业绩的两倍多。 该公司表示,它在一个系统上这样做,其成本比阿里巴巴的自酿啤酒低 10%。 虽然基准测试由 Databricks 自己进行,但结果由 TPC 审核。

在 Databricks 看来,它创下了历史记录。

该公司进一步认为,现在应该清除所有阻止客户使用 lakehouse 代替仓库的障碍。 这很重要,因为即使在提倡 lakehouse 方法时,Databricks 之前也承认仓库在某些工作负载方面表现更好,而且该公司明白这种性能不足会阻止客户转向 lakehouse。

面对雪花
Databricks 清楚地感觉到这些基准测试结果使其成功经得起数据仓库宠儿 Snowflake 的考验。 说到这一点,除了 TPC 基准测试结果本身,Databricks 还吹捧巴塞罗那超级计算中心 (BSC) 所做的比较 Databricks SQL 和 Snowflake 的工作。 Databricks 表示,这项基于 TPC-DS 基准测试但未经 TPC 审核的工作表明,Databricks SQL 的速度提高了 2.7 倍(请参阅下图,摘自 Databricks 博客文章中有关该主题的文章)。 BSC 还报告说,Databricks SQL 集群在性价比方面比类似规模的 Snowflake 设置好 12 倍。

这里有很多旋转,但 TPC 和 BSC 结果确实表明 lakehouse 架构可以承担这些 BI 工作负载。 这很重要,因为大多数基于 Spark 的系统(包括 Databricks)以前最适合分析领域的数据工程、机器学习和间歇性查询。 让这样一个系统来服务持续的分析工作负载,或涉及多个相互构建的查询的临时分析,是很难实现的。

如果问题是这是否意味着湖屋现在可以完全替代仓库,那么答案就不清楚了。

这种不明确的主要原因与客户的意见有关,为什么以前湖或湖屋不是一个合适的替代品。 是的,对于某些人来说,坚持使用仓库的原因是性能,而这套 TPC 基准测试可能会解决这些问题并影响支持它们的客户。

形式问题
对于其他客户,标准更多地是关于范例——包括数据建模和某种意义上的数据治理——而不是关于性能。 湖的精神是以开放格式的命名文件的形式存储数据,这样数据就可以与一系列数据库和分析引擎兼容,并可以被它们使用。 而且由于数据以文件形式存储在磁盘或云存储中,因此减少了对其建模的需求(和意愿)。

这使得数据不那么正式,通常很少受到审查,也很少经过审查。 控制更加委托,更容易放入数据。(数据湖的这些特征也适用于 Lakehouse 场景。)

数据仓库更正式、更受控制,通常会强制执行更明确、更全面的数据模型。 它不够敏捷,这让用户感到沮丧,但它也有更多的过滤器,可以与普遍更高的数据质量和用户信任度相关联。

一个拥有价值 500 万美元基础设施和海量数据的系统或许能够在阿里巴巴的基准测试中表现出色,但这并不是大多数客户需要或能够负担得起的。 它确实表明 Databricks SQL 可以承担巨大的工作负载,对于某些客户而言,这本身就很重要。

Databricks 基准测试结果的重要性可以通过适当的问题框架得到最好的理解。 Databricks 将其定义为:“哪种模型占主导地位?” 但也许问题是:“哪种模型更能吸引特定客户,尤其是特定用例?” 接下来是:“现在两种型号的性能都足够了吗?”

最终,大多数企业可能会受益于数据仓库和数据湖(屋)。 仓库可以是经过高度审查、仔细整合和建模的数据的存储库,以驱动报告、操作仪表板和“已知未知”领域中的临时查询。 与此同时,Lakes 和 lakehouses 可以容纳更多的数据、更短的入职流程、更少的“写时建模”,并可用于探索性分析和即兴可视化。

胜利,而不是赢家
TPC 结果清楚地表明,这两种模型都运行良好,提供了出色的结果,可以在需要时进行交互,并且可以使用相同的 BI 工具。 它们还具有成本效益、云优先、弹性和敏捷性。 但是,即使仓库/湖屋问题不需要非此即彼的选择,供应商这样看也有好处:对相同客户和相同工作负载的竞争会导致持续创新,从而使客户受益。

TPC 基准是否是最佳选择的最终仲裁者将取决于买方的标准。 但无论如何,Databricks 的 TPC-DS 结果令人印象深刻。 它们是行业的里程碑,也是确保供应商采用持续改进方法的强制功能,无论他们是在兜售湖、湖屋还是仓库。

本文内容由互联网用户自发贡献,该文观点仅代表作者本人。商机网仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如发现本站有涉嫌抄袭侵权/违法违规的内容, 请发送邮件至 tenspace2022@163.com 举报,一经查实,本站将立刻删除。 本文链接:https://www.315965.com/n/66625.html 聚才发 母婴好物

(0)
上一篇 2023年12月30日 上午3:23
下一篇 2023年12月30日 上午3:32

相关推荐

  • 独一无二的生日祝福语简短(送男朋友,老公,闺蜜,儿子,女儿浪漫不烂俗的惊艳高级文案)

    插画师 | 螺丝辣翅面 生日,是人生最重要的日子之一。 不管生活如何,每个人都忍不住对这个日子有几分期待,而真心相待的朋友也会等待着,送上最美好的祝愿。 不管是接受祝福还是祝福别人,一定对千篇一律的祝福语有些疲劳,今日,便特意收集一些关于生日祝福的古诗词,可以用来发朋友圈,发送祝福,或者可以截取部分佳句,重新编辑将美好祝愿发给朋友。 01. 且喜且乐,且以永…

    2023年12月2日
    467
  • 标致307防盗芯片用什么设备

    标致307防盗功能如何? 国内生产的标致系列汽陵闷车全系标配发动机电子棚如防盗系统,且是滚动编码,接近触发型。也就是密码会变化,且车钥匙芯片只有接近发动机的位置才能发挥作用,不会被“无线”盗码。可以说是非常可靠和安全的防盗系统。 除非钥匙掉了,或者生产时错误造成2把同样钥匙和发动机芯片(网友曾反映过),基本上排除被盗的可能。 不过如果对方用拖车拖走的方式除外…

    2024年1月16日
    173
  • 慈溪太后为什么向列强开战 宣战的后果是什么

    相信很多小伙伴都知道,慈禧太后再1900年的时候向十一个列强国家正式宣战。再这一次宣战之前,大清朝就已经输给了列强好几次了,所以才签订了一些不平等的条约。但是就算是这样,慈禧太后为什么还要向列强宣战呢?这一次的宣战后果是什么呢?下面就和小编一起来看看吧! 1、慈溪太后为什么向列强宣战 其实关于慈禧太后这一次向列强宣战,完完全全就是为了满足慈禧太后的虚荣心,以…

    2024年2月7日
    41
  • 何昌期:郭子仪的得力助手,人生是什么样的?

    在中国历史上,有许多英勇善战的将领为国家立下了赫赫战功。其中,何昌期是一位杰出的军事家,他在唐朝时期担任郭子仪的得力助手,共同平定了安禄山叛乱,为国家的安定和繁荣做出了巨大贡献。本文将对何昌期的一生进行简要介绍,以展现他的忠诚、勇敢和智慧。 何昌期的生平 何昌期,字仲卿,唐朝著名将领。他生于唐玄宗年间,自幼聪明好学,博览群书。长大后,他投身军旅,凭借着过人的…

    2024年2月21日
    35
  • 周娥皇生了几个孩子?探索周娥皇的子嗣情况

    周娥皇是中国历史上著名的女性人物,她被称为“大周后”,是唐朝时期的一位皇后。关于周娥皇生了几个孩子的问题,历史上存在争议和猜测。下面是关于这个问题的详细介绍: 首先,需要了解周娥皇的历史背景和生平事迹。据史书记载,周娥皇是唐太宗李世民的皇后,她的丈夫在位期间,国家政治稳定、经济繁荣,被誉为“贞观之治”。同时,周娥皇也是一位非常有才华的女性,擅长诗词歌赋和音乐…

    2024年2月12日
    35
  • ps4游戏推荐排行(2024ps4游戏推荐排行)

    为大家介绍预计在 2024 年 5 月之后发售的 21 款最值得关注的 PS5/PS4 游戏。(排名不分先后,仅按照发售时间的顺序排列) 1.《黄泉之路》 :PS5/PS4/XSX/Xbox One/PC(Steam) 预计发售日:2024 年 5 月 5 日(Steam 版为 2024 年 5 月 6 日) 发行商:Devolver Digital 由美国…

    2023年8月3日
    213
  • 2024最建议买的华为5g手机(华为最新款手机是哪款2024)

    华为迅速崛起,成为全球最大的手📱机品牌之一,在 2019 年取代苹果成为全球智能手📱机销量第二的位置。 抛开安卓不谈,这里有一些我认为是 2024 年可以买到的最好的华为手📱机。 1. 华为 P50 Pro – 最好的华为手📱机 虽然目前的 P50 系列并没有扭转公司手📱机的命运。但在一点上,它更多的是决定华为多年来建立的替代品现在是否值得妥协。   具体就…

    2023年8月5日
    248
  • 古时的楚国是现在的什么地方(战国的六国是现在的哪几个省)

    “楚虽三户,亡秦必楚”,在战国时期,楚国是唯一有希望和秦国争夺天下的国家,而在春秋时期,楚国就是一个比肩晋国的超级大国。 春秋时期,楚国的国土在诸侯国中居于首位,疆域非常广大。 那么,楚国的疆域够包含现在的那些地方呢?“静Yes”认为,春秋长达295年,楚国所囊括的领土也是不断变化的,但总体来说是在不断膨胀的。 简单说来,楚国的疆域变迁有以下几个阶段,“静Y…

    2023年12月8日
    176
  • Landing AI 聘请视觉专家 Dechow 纠正大数据谬误

    深度学习领域一直饱受所谓的大数据谬误的困扰,认为越来越多的数据总是一件好事。 现在可能是时候关注质量而不仅仅是数量了。 Landing AI 的创始人兼首席执行官 Andrew Ng 本周在接受 ZDNet 采访时表示:“许多 AI 都面临着一个非常根本的问题,”Landing AI 是一家致力于完善工业用途技术的初创公司。 “很多人工智能专注于最大限度地增…

    2023年12月30日
    130
  • 索尼开发可以击败顶级游戏玩家的Gran Turismo AI代理

    Sony AI 与 Polyphony Digital (PDI) 和 Sony Interactive Entertainment (SIE) 共同开发了 Gran Turismo (GT) Sophy,这是一种经过训练的 AI 代理,可为 PlayStation 4 赛车模拟游戏 GT Sport 带来逼真的体验。 索尼人工智能表示,GT Sophy 是…

    2023年12月30日
    128

发表回复

您的电子邮箱地址不会被公开。 必填项已用*标注