岚图汽车 x Apache Doris : 海量车联网数据实时分析实践


                                                                                                                                                <blockquote> 

岚图汽车作为东风汽车集团旗下的高端智慧新能源品牌,自 2019 年创立以来,以用户型科技企业为定位,构建了覆盖 SUV、MPV、轿车三大品类的产品矩阵。正以技术驱动践行汽车产业的三化转型。面对每日超百亿级车联网数据的实时处理需求与成本控制挑战,传统架构难以支撑。岚图汽车通过引入 Apache Doris 构建实时数仓:实现 4W 高并发点查能力,显著提升运维效率并优化60%存储成本。

岚图汽车作为东风汽车集团旗下高端智慧新能源品牌,自 2019 年创立以来,以用户型科技企业为定位,构建了覆盖 SUV、MPV、轿车三大品类的产品矩阵。依托国务院国资委管理,世界 500 强东风集团五十多年的造车积淀与全产业链资源,岚图汽车坚持自研,打造了 ESSA 原生智能电动架构、中央集中式 SOA 电子电气架构等核心技术,旗下岚图 FREE+、梦想家、追光等车型凭借高品质与技术创新,成为最快实现累计产量突破 20 万辆的央国企新能源高端品牌。2025 年连续月销量破万,产品出口覆盖超 40 个国家和地区,以”零碳智造”标杆工厂与”共岚图”全球化战略,持续引领中国高端新能源品牌向上突破。

海量车联网数据分析的挑战

现代汽车作为移动数据中心,每日持续产生巨量、高速且多样化的数据流,形成大数据领域 3V 特性的进阶形态:百亿级数据规模、毫秒级响应需求与多模态数据类型的融合。车辆数据主要包括三类:

  • 车机埋点数据:来自于车辆上类似 pad 的车机,其中会有一些行为埋点数据,采集分析后用于驱动智能座舱的迭代;
  • 车辆信号数据:即车辆元器件产生的信号,比如刹车、速度、里程等各种 IoT 数据,后续会应用于车辆制造和车辆状态的监测等场景;
  • 视频图像:来自于智能驾驶传感器,比如摄像头采集的数据,后续将应用于智能驾驶模型的迭代;

海量车联网数据分析的挑战.PNG

该体系形成“数据采集-分析-应用”的强反馈回路,要求数据管道必须保持零延迟与高保真传输。每日百亿级数据的实时处理能力,已成为构建车辆数字化、智能化生态的关键基础设施,任何数据链路的中断或失真都将直接导致业务效能衰减。

随着岚图汽车销量攀升,每日百亿级数据规模持续膨胀,如何从海量数据中快速提炼有价值信息支撑研发、生产、销售等环节,成为迫切需求。当前数据平台需突破三大核心挑战:

  • 大规模实时数据写入:车辆搭载的数百个传感器持续产生多模态信号(车门、座椅、刹车等),经汇聚处理后形成每秒数十万级 TPS 的吞吐量,单日新增数据量达 10TB 且保持高速增长;
  • 准确的实时数据分析:车联网场景要求近实时数据处理能力,如智能诊断需快速定位故障原因、预警潜在问题。通过实时分析传感器数据与行驶记录,可实现预防性维护,显著提升车辆可靠性与安全性;
  • 存储与计算成本优化:快速增长的全量写入需求与复杂计算任务,导致存储与计算成本攀升。平台需构建低成本存储架构与高效计算引擎,平衡性能与经济性;

岚图汽车车联网数据分析架构演进

01 早期架构的局限性

岚图汽车最早以 Hive、Clickhouse 为核心构建了数据平台架构,车辆数据和车机埋点数据从车端传送至岚图云端网关,然后由网关将数据写入 Kafka。该架构在早期满足数据处理需求,但随着车辆销量不断增长,当需要面对每天百亿级别的数据处理分析工作时,架构的问题逐步暴露出来:

  • 数据导入时效性低: 在处理大规模数据时,hive on tez 计算速度慢,另外占用的资源也大;
  • 数据查询分析延迟高: 对于 10 亿级别以上大规模表查询,Hive on tez 查询性能较慢,且占用资源多;Clickhouse 在 Join 场景下,速度也较慢;
  • 运维难度高: Clickhouse 集群运维比较复杂,没有对应的运维管理工具;

早期架构的局限性.PNG

基于以上痛点,岚图汽车必须进行数据平台改造。

02 技术评估与选型

面对上述痛点,岚图汽车对数据平台底层基础架构进行了改造,并开展了全面的技术调研。调研范围涵盖了 Apache Doris、ClickHouse、Trino、StarRocks 以及 Impala 等主流 OLAP 解决方案。岚图汽车采用了一套“决策矩阵”来系统性地评估方案,Apache Doris 最终被选定为岚图汽车的数据分析架构产品。

技术评估与选型.PNG

03 基于 Doris 的新架构和架构选型关注点

经过内部多轮沟通和探索,岚图汽车选择 Apache Doris 作为其核心 OLAP 解决方案,主要基于以下几个关键因素:

  • 卓越的实时分析性能:Doris 能够提供“极速”的数据湖分析、高并发查询和强大的实时分析解决方案,直接解决了岚图汽车面临的关键业务痛点;
  • 全面的 Doris Manager 管理工具:官方的 Doris Manager 提供了一站式的集群安装、监控、告警、扩缩容和配置管理能力,极大地提升了运维效率,弥补了早期架构在运维方面的不足;
  • 社区与文档:Apache Doris 拥有活跃的开源社区和详尽的文档,使得岚图能够在短时间内完成 Doris 的部署与集成;
  • 多样化的数据导入能力:Doris 提供了多种数据导入方式,能够满足岚图汽车离线和实时业务场景;

基于 Apache Doris 的最佳实践

将 Apache Doris 全面替换 Apache Flink 后,有效解决了岚图汽车目前面临的挑战。岚图汽车基于 Apache Doris 打造了统一的实时数仓体系,在多个关键场景中实现了效率提升和能力增强:

基于 Apache Doris 的最佳实践.png

01 Doris Manager 巡检提升运维效率

岚图汽车利用社区提供的 Doris Manager 搭建了 Apache Doris 集群。作为 Apache Doris 的原生开源管理工具,Doris Manager 完全免费且深度适配社区版特性,提供了从部署、参数变更管理、告警与监控、日志查看、自动化巡检到 Doris Studio 提供的 SQL 编辑能力。配合 SelectDB Studio 提供的免费可视化 SQL 编辑环境,这些功能使得 70 多台集群的运维工作从繁重的手动操作转变为高效的自动化管理,极大地释放了运维团队的精力,使其能够专注于更高价值的优化工作。

01 Doris Manager 巡检提升运维效率.png

Doris Manager 具备集群巡检能力,可持续优化业务部门使用 Doris 的方式,并对集群的性能和配置进行微调,不断优化业务和优化集群。

01 Doris Manager 巡检提升运维效率-2.png

未来,岚图汽车计划制定全面的使用指南,为开发人员提供有针对性的培训,指导他们如何合理高效地使用 Doris。

02 软硬资源隔离提高稳定性

为满足各业务线对资源硬隔离和软隔离的需求,岚图汽车利用 Doris 的资源组和工作负载分组机制。通过在 FE 节点和 Observer 节点前架设负载均衡器,各业务线能够使用各自的 FE 角色进行 SQL 解析和执行,确保了不同业务负载之间的互不干扰。

02 软硬资源隔离提高稳定性.png

03 冷热数据分层,优化成本与性能

通过 Doris 的冷热数据分层,存储费用降低到原有 1/3,同时可根据实际业务需求进行灵活的配置和调整,以满足不同场景的要求:

  • 热数据:频繁访问且对延迟要求低的核心业务数据,存储在成本较高的 SSD 硬盘上,以确保核心实时业务查询的速度和响应能力。

  • 冷数据:访问频率较低的数据,则逐步迁移到相对低成本的 HDD 硬盘甚至更为,甚至直接迁移到 S3 等对象存储中,以降低整体存储成本。

     03 冷热数据分层,优化成本与性能.png

04 使用 Doris 高并发点查,解决高速查询问题

岚图汽车通过 Apache Doris 实现了高并发点查短路径优化:FE 节点接收请求后直接生成轻量化执行计划,绕过传统 MPP 架构的复杂查询生成与调度流程。该优化使点查性能达到 4 万 QPS/s,精准匹配车联网数据实时分析场景的高并发需求,为智能座舱、故障预警等业务提供亚秒级响应支撑。

 04 使用 Doris 高并发点查,解决高速查询问题.png

05 建设 SQL 熔断机制,保障系统稳定性

05 建设 SQL 熔断机制,保障系统稳定性.png

当 SQL 语句过于复杂时,数据平台常常面临慢查询的挑战。

SQL 熔断机制保障 Doris 集群稳定性:针对低效 SQL 可能瞬间占满 CPU 资源、威胁核心业务的问题,通过 Doris Manager 的 SQL Profile 分析能力,可清晰拆解查询为 Scan、Exchange、Shuffle 等执行算子并展示各节点耗时,从而精准识别全表扫描、高并发数据修改等不当操作,及时触发熔断限制资源消耗,有效避免集群因过载而影响整体稳定性。

查询熔断是一种保护机制,当查询超过预设的资源或时间限制时,熔断机制会自动终止该查询,以避免对系统性能、资源使用以及其他查询造成不利影响

在 Doris 内,有两种熔断策略:

  • 规划时熔断:即 SQL Block Rule,用于阻止符合特定模式的语句执行。阻止规则对任意的语句生效,包括 DDL 和 DML。通常,阻止规则由数据库管理员(DBA)进行配置,用以提升集群的稳定性。比如,
    • 阻止一个查询扫描过多行的数据;
    • 阻止一个查询扫描过多的分区;
    • 阻止一个修改全局变量的语句,以防止集群配置被意外的修改;
    • 阻止一个通常会占用非常多资源的查询模式;
  • 运行时熔断:即 Workload Policy,它是在运行时,实时监测查询的执行时间,扫描的数据量,消耗的内存,实现基于规则的查询熔断。
未经允许不得转载:紫竹林-程序员中文网 » 岚图汽车 x Apache Doris : 海量车联网数据实时分析实践

评论 抢沙发

  • 昵称 (必填)
  • 邮箱 (必填)
  • 网址
关于我们 免责申明 意见反馈 隐私政策
程序员中文网:公益在线网站,帮助学习者快速成长!
关注微信 技术交流
推荐文章
每天精选资源文章推送
推荐文章
随时随地碎片化学习
推荐文章
发现有趣的