小米集团用Apache Doris和Apache Paimon实现湖仓一体,性能提升了6倍,是何秘诀?

2026-06-03 18:496阅读0评论建站教程
  • 内容介绍
  • 文章标签
  • 相关推荐

害!大数据那点破事 被小米用Doris+Paimon搞定后 直接起飞

开头先唠句实在话:谁没被数据湖和OLAP坑过?

尊嘟假嘟? 咱就是说啊!做企业数字化转型的同行们应该都懂这种痛—— 一边 data lake喊着「低成本存海量数据」冲过来 但查个聚合后来啊跟便秘似的慢;另一边 OLAP 数据库算得飞起,但存个几年前的数据就跟烧钱一样贵;中间还要搭各种引擎、兼容各种格式……运维小哥天天盯集群报警到脱发;业务部门隔三差五催:「报表怎么还没好?客户等着签单呢!」

我身边好多朋友吐槽:「不是技术不行 是架构天生拧巴啊!」

湖仓一体:小米集团基于 Apache Doris + Apache Paimon 实现 6 倍性能飞跃

直到最近刷到小米的数据实践——靠 Apache Doris + Apache Paimon 搞湖仓一体 性能直接翻6倍 还把成本砍下去一截儿 我瞬间坐直身子:「这不就是咱们想要的答案吗?」

先扒扒小米以前的「烂摊子」:为啥非换这套架构不可?

我无法认同... 作为手机、 IoT、汽车全赛道选手 小米的数据量级那叫一个恐怖——每天几亿条用户行为、千万级设备日志、还有各个业务线攒下来的陈年旧数……早些年他们也走过弯路: - 引擎打架一边用 Presto、Druid、Spark三台大戏;查询的时候要先判断「这条SQL该甩给哪个引擎」 错一次就得重来; - 存储乱套Hive 存冷数、Iceberg 存半结构化、甚至还有遗留的 Parquet 文件……找个数据表要跨三个目录翻半天; - 查询慢到哭记得去年双11 运营要查「全国各省市TOP10热销机型」 Doris单点查要3分钟 Spark批处理更狠直接等半小时……再说说大 boss 拍桌子:「再这么慢 明年BI预算砍一半!」

痛定思痛之后 小米盯上了 Apache Doris + Apache Paimon这对组合——不是随便凑CP哦 是真真正正把俩家伙的「短板」焊死在一块了~

第一招:给HDFS读取「开绿灯」+ Dor

阅读全文

害!大数据那点破事 被小米用Doris+Paimon搞定后 直接起飞

开头先唠句实在话:谁没被数据湖和OLAP坑过?

尊嘟假嘟? 咱就是说啊!做企业数字化转型的同行们应该都懂这种痛—— 一边 data lake喊着「低成本存海量数据」冲过来 但查个聚合后来啊跟便秘似的慢;另一边 OLAP 数据库算得飞起,但存个几年前的数据就跟烧钱一样贵;中间还要搭各种引擎、兼容各种格式……运维小哥天天盯集群报警到脱发;业务部门隔三差五催:「报表怎么还没好?客户等着签单呢!」

我身边好多朋友吐槽:「不是技术不行 是架构天生拧巴啊!」

湖仓一体:小米集团基于 Apache Doris + Apache Paimon 实现 6 倍性能飞跃

直到最近刷到小米的数据实践——靠 Apache Doris + Apache Paimon 搞湖仓一体 性能直接翻6倍 还把成本砍下去一截儿 我瞬间坐直身子:「这不就是咱们想要的答案吗?」

先扒扒小米以前的「烂摊子」:为啥非换这套架构不可?

我无法认同... 作为手机、 IoT、汽车全赛道选手 小米的数据量级那叫一个恐怖——每天几亿条用户行为、千万级设备日志、还有各个业务线攒下来的陈年旧数……早些年他们也走过弯路: - 引擎打架一边用 Presto、Druid、Spark三台大戏;查询的时候要先判断「这条SQL该甩给哪个引擎」 错一次就得重来; - 存储乱套Hive 存冷数、Iceberg 存半结构化、甚至还有遗留的 Parquet 文件……找个数据表要跨三个目录翻半天; - 查询慢到哭记得去年双11 运营要查「全国各省市TOP10热销机型」 Doris单点查要3分钟 Spark批处理更狠直接等半小时……再说说大 boss 拍桌子:「再这么慢 明年BI预算砍一半!」

痛定思痛之后 小米盯上了 Apache Doris + Apache Paimon这对组合——不是随便凑CP哦 是真真正正把俩家伙的「短板」焊死在一块了~

第一招:给HDFS读取「开绿灯」+ Dor

阅读全文