CVPR Highlight｜让无人机学会自己认路+锁位目标，国防科大给出一套新解法

在复杂、甚至是 GNSS（全球导航卫星系统）拒止的环境中，如何让仅搭载单目相机的无人机实现精准、无漂移的自我与目标定位？

国防科技大学虚拟现实与视觉计算团队（SAW Lab）联合多所高校推出无人机实时地理定位系统「 PiLoT 」，首次实现仅依靠单目 RGB 序列即可在 GNSS 拒止环境下完成无人机 6-DoF 位姿及任意目标的实时、无漂移地理定位。PiLoT 在嵌入式平台（如 NVIDIA Jetson Orin）上即可达到 25 FPS 的高性能，在复杂真实场景下的定位精度与鲁棒性均达到当前最先进水平，成功解决了大规模场景下跨视角匹配与零样本泛化的难题。该研究成果被 CVPR 2026 接收为 Highlight 论文。

PiLoT 在10km飞行轨迹中的实时无漂移表现。画面主视图展示了无人机在基于实景三维模型构建的数字孪生场景中的飞行轨迹，PiLoT系统解算的实时轨迹（ES_TRACK，绿色光带）与RTK记录的真值航迹（GT_TRACK，粉色光带）高度重合，直观呈现了系统在复杂地理环境下的航迹定位效果。左下角小窗口“Query view”为无人机捕获的实时视频流，“Render view”则是系统根据当前位姿估计值从三维地图中同步渲染生成的地理参考视图，记录了从傍晚到入夜的剧烈光照变化过程。在长达13分钟、航程超过10公里的飞行测试中，PiLoT维持了1.374米的均值定位误差，并保持25~30 FPS的实时推理速度。

论文标题：PiLoT: Neural Pixel-to-3D Registration for UAV-based Ego and Target Geo-localization
收录会议：CVPR 2026 Highlight
所属机构：国防科技大学，浙江大学，西湖大学，杭州电子科技大学
论文链接：https://arxiv.org/abs/2603.20778
项目主页：https://nudt-sawlab.github.io/PiLoT/

研究动机：无人机定位如何摆脱 GNSS 依赖？

怎样的无人机地理定位系统才算理想？通常而言，它至少需要满足三个核心标准：

全局高精度（Drift-free）：能够有效克服传统里程计在长距离、大范围飞行中的累积误差，实现无漂移的一致与精准；
全天时高鲁棒（Long-term）：面对跨时段的光照剧变，以及剧烈机动带来的运动模糊与大视角变化，系统依然能稳定追踪不崩溃；
低算力与载荷门槛（Real-time）：满足严苛的 SWaP（体积 / 重量 / 功耗）限制，无需挂载重型传感器，在受限的边缘平台（如 Jetson）实时运行。

当前的无人机地理定位技术，无论是用于自主导航还是对地目标侦察，大多遵循一套约定俗成的系统架构：先依靠视觉里程计（VIO）和卫星信号（GNSS）算好自身位置，再挂载一台激光测距仪去反推地面目标的坐标。这种架构存在两个弱点：前者高度依赖外部信号，后者则极度依赖重型主动载荷。

直觉告诉我们，这或许并非最佳解法：既然无人机搭载了视觉传感器，如果我们拥有一张已知的三维地图，它能否像人类一样，直接实现 “看图认路”？可否摆脱对 GNSS 的依赖，实现真正无漂移的无人机视频定位？为了回答这一问题，国防科技大学 SAW Lab 团队将目光投向了像素级的 3D 配准，试图从纯视觉视角寻找答案。

核心洞察与解决方案：PiLoT

回看传统的 VIO 系统，它主要通过比较前后两帧图像来计算相对位移。这类似于航位推算，飞行距离越远，微小的测量误差累积得就越多。

研究团队的思路是弱化相对观测，直接建立绝对锚点。通过将每帧 2D 视频像素直接映射到带有绝对坐标的 3D 地理模型上，切断误差的累加路径。这引出了 PiLoT 框架的核心理念：将无人机自定位与目标定位统一重构为像素到 3D 的配准问题。只要将实时画面与三维世界精准对齐，相机的六自由度位姿以及目标的真实地理坐标便能作为联合解自然得出。

理论表明，通过实时画面匹配 3D 地图可以获得无漂移的绝对坐标。但要让这一框架真正满足低算力门槛与全天时鲁棒性，在方法设计上还面临两个核心的技术挑战：

第一，算力如何高效分配？建立 2D 像素到 3D 大规模场景的密集对应关系，意味着地图渲染与特征匹配将消耗巨大的计算资源。若采用 “渲染一帧、定位一帧” 的串行处理模式，轻量级机载平台显然无法满足无人机的实时控制需求。如何设计高效的计算流分配与异步调度机制，是该框架必须跨越的计算瓶颈；

第二是深度网络如何学习几何本质？当前主流的视觉匹配模型多基于地面或室内数据集训练。然而，真实的无人机作业环境极其复杂，不仅存在高空俯视的视角与尺度剧变，还伴随着跨时段的光照与天气干扰。这种从地面到复杂高空的跨度，产生了巨大的域鸿沟（Domain Gap）。面对这种差异，现有模型极易暴露纹理偏置的软肋，它们倾向于过拟合地面训练集中特定的表观纹理，一旦遭遇无人机视角的切换与环境外观的改变，原先依赖的特征就会失效，导致定位鲁棒性大幅下降。因此，如何克服这种偏置，获取一个无惧真实环境干扰的无人机专属特征提取器，便是跨越域鸿沟的关键。

从基于 3D 配准的理论重构，到跨越算力与域鸿沟的双重危机，PiLoT 框架给出了一套优雅的解法。具体而言，其系统架构与方法设计包含以下三大核心创新：

1. 渲染 – 定位双线程解耦：突破线性时序瓶颈

为了打破线性时序瓶颈，PiLoT 摒弃了逐帧渲染、逐帧定位的低效串行模式。研究团队通过将渲染与定位解耦，构建了两个高并发的独立线程。其中，渲染线程负责在后台动态生成带有地理参考的合成视图，而定位线程则专注于在特征空间内将实时视频流与合成视图进行快速配准。这种双线程架构不仅确保了每次定位查询都能获得动态更新的地理锚点约束，还在显著提升系统吞吐量的同时，实现了真正意义上的无漂移连续定位。

PiLoT 双线程解耦框架原理图

2. 百万级全球尺度合成数据集：赋能零样本泛化

为了获取无惧环境干扰的泛化特征，PiLoT 直面核心痛点：即填补无人机领域精确几何真值训练数据的空白。研究团队基于 AirSim、Cesium 和 Unreal 引擎，构建了一个百万级规模的全球尺度合成数据集。该数据集不仅涵盖了极其丰富的气象与光照条件，还提供了绝对像素深度和高精度的六自由度位姿真值。这种强大的几何监督机制，成功迫使轻量级网络专注于学习底层的三维几何结构，而不是单纯拟合特定的场景外观。凭借这一数据驱动策略，PiLoT 有效跨越了合成与真实的界限，在完全未见过的真实世界场景中，依然展现出优异的零样本泛化能力。

PiLoT百万级全球尺度合成数据集。图(a)展示了在Cesium 3D Tiles全球地图上轨迹覆盖区域，以及生成的真实无人机飞行轨迹。图(b)涵盖了多样化的环境模拟，包括多种天气、光照条件以及大幅度旋转和平移的视角变化。图(c)强调了我们数据集的几何一致性监督，通过绝对像素级深度进行严苛的重投影验证，确保特征学习稳定的3D几何结构。图(d)呈现了我们算法在真实场景上零样本泛化表现，Query为实拍夜晚查询图，Reference为同一视角画面，下方为输出特征金字塔对比效果。

3. 极致效能的 Pixel-to-3D 配准框架

在特征提取与配准机制上，PiLoT 专门针对无人机平台的资源限制进行了深度优化。系统采用了轻量化的 MobileOne-Unet 架构，在确保边缘端推理实时性的前提下，利用自建合成数据集的几何监督训练，提取出在昼夜交替、光影剧变等复杂环境下依然稳健的判别性特征。

与传统方法渲染多个视角提供参考不同，PiLoT 引入了一套高效的 “一对多” 配准模式：仅通过渲染单个参考视图提供地理锚点，并结合多位姿假设来扩大搜索空间。这种在单一特征空间内完成投影匹配的方式，大幅降低了渲染开销，实现了计算资源的高效利用。

针对无人机飞行过程中的高机动性，优化器引入了旋转感知采样机制。考虑到无人机平移量对偏航（Yaw）和俯仰（Pitch）动作极度敏感，系统通过各向异性采样，在对应轴向上针对性地扩大了搜索范围。这一设计有效应对了高达 10 米位移与 10 度偏航的剧烈帧间运动，克服了传统优化器易陷入局部最优的局限性。

在最终的位姿解算阶段，优化过程在多尺度特征金字塔上展开，遵循由粗到精的策略逐步收缩搜索空间。为突破显存读写瓶颈，团队设计了定制化的 CUDA 算子，通过并行加速的 LM 优化迭代实现了 30 倍的计算加速，引导位姿平滑、快速地收敛至全局最优解。

PiLoT 整体算法框架

实验结果与分析

为了验证系统性能，研究团队将 PiLoT 与两类具有代表性的定位方法进行了全面对比。第一类是混合定位方法，如结合了 ORB-SLAM3 的 Render2ORB，以及基于 RAFT 光流追踪的 Render2RAFT，这两者均采用 1Hz 的绝对位姿模块进行定期校正；第二类是逐帧绝对定位方法，包括每一帧独立对齐参考视图并采用特征对齐求解位姿的 PixLoc，以及基于渲染 – 对比框架的 Render2Loc。在对比实验中，研究团队为 Render2Loc 集成了 LoFTR、EfficientLoFTR、RoMaV2 以及专门针对航空视觉优化的 Aerial-MASt3R 等四种 SoTA 匹配器。

1. 无人机定位精度：PiLoT 在 SynthCity-6、UAVScenes 及 UAVD4L-2yr 三大基准测试中，凭借 28FPS 的卓越实时性与米级的定位精度，全面超越了所有混合定位与绝对定位基准模型。

无人机自定位精度对比

PiLoT 在高机动飞行条件下的无漂移表现

2. 动态目标定位：得益于精准的无人机自定位，PiLoT 通过射线投射（Ray Tracing）解算得到极高精度的 3D 目标定位，轨迹与 RTK 真值高度贴合。

PiLoT 动态目标指示展示（场景一）

PiLoT 动态目标指示展示（场景二）

总结与思考

PiLoT 让无人机真正学会了 “看图认路” 与 “目标锁位”。它的成功以及未来的演进方向，为我们带来了以下三个核心启发：

1. 破除累积误差，实现真正的无漂移：将实时视频流与带有地理参考的 3D 地图直接对齐，可以有效摆脱对外部脆弱 GNSS 信号和昂贵主动传感器的依赖。这一范式转换为复杂、拒止环境下的无人机自主导航提供了全新解法。

2. Data-Centric AI ：在垂直领域真实数据匮乏时，高质量的仿真合成数据结合严格的底层几何约束，能够有效赋予模型在未见过的真实世界中零样本泛化的能力。

3. 探索更轻量的地图表征：目前的高保真定位一定程度上依赖于 3D Mesh 模型。为了进一步打破地图获取的限制，团队后续会继续研究支持更轻量的通用地图表征（如 DOM 数字正射影像图和 DEM 数字高程模型等），推动该技术在更广阔的荒野与城市场景中实现大规模落地。

]article_adlist–>

            <!-- 非定向300*250按钮    17/09  wenjing  begin -->

            <!-- 非定向300*250按钮  end -->
        </div>

Source link

CVPR Highlight｜让无人机学会自己认路+锁位目标，国防科大给出一套新解法

相关推荐

近期文章