Soul App发布SoulX-LiveAct开源模型，优化实时数字人生成技术

近期，Soul App AI团队（Soul AI Lab）正式发布开源模型SoulX-LiveAct。作为面向实时数字人生成的新方案，该模型围绕长时稳定性与实时推理能力展开技术创新，在自回归扩散（AR Diffusion）框架下实现突破，进一步完善了实时交互类数字人技术体系。

长期以来，实时数字人生成面临两个关键限制：一是显存占用随时间增长而不断扩大，导致系统难以支撑长视频生成；二是在生成长视频过程中，人物身份与细节容易出现漂移，影响整体表现。SoulX-LiveAct从底层结构出发，针对这两个问题进行了系统性改进。在显存管理方面，模型不再依赖传统线性增长的KV cache，而是通过重构条件传播方式与历史信息管理机制，实现了在长时间生成过程中显存保持稳定。Soul App AI团队的这一设计使系统能够在更长时间窗口内持续运行，而无需因资源限制中断或简化历史信息。

在实时性能方面，SoulX-LiveAct同样表现出较高的工程可行性。在512×512分辨率下，模型仅需2张H100或H200即可实现20 FPS的流式推理能力，端到端延迟约为0.94秒。同时，单帧计算成本控制在27.2 TFLOPs/frame的水平，在保证实时性的同时降低了整体算力压力，为实际部署提供了更具可操作性的方案。

除了资源效率与实时能力，长时一致性是评估数字人系统的重要维度。SoulX-LiveAct在这一方面通过结构优化实现了稳定表现。在长时间生成过程中，模型能够维持人物身份一致性，并减少发型、服饰、配饰等细节的漂移现象，同时保证口型与语音的匹配程度。相比常见方法在长时段内容中逐步出现的“失真”问题，该模型在更长时间范围内保持了稳定输出。

从技术实现路径来看，SoulX-LiveAct基于AR Diffusion范式，通过分块生成与上下文承接构建完整的流式推理过程。在此基础上，Soul App 团队为模型引入Neighbor Forcing与ConvKV Memory两项核心机制。Neighbor Forcing通过在同一扩散步下传播相邻帧latent的信息，使模型在训练与推理阶段保持一致的语义空间，从而降低误差累积带来的不稳定性。ConvKVMemory则将历史记忆从线性增长的缓存结构转变为“短期精确+长期压缩”的组合形式，在保证局部细节的同时压缩远期信息，使显存占用维持在可控范围内。此外，通过RoPE Reset对位置编码进行对齐处理，进一步减少长序列中的位置漂移问题。

在训练策略上，Soul App AI团队强调与实际推理场景的一致性。训练过程中，模型不仅学习短时间片段的生成，还通过连续chunk的构造显式模拟长时生成中的误差积累与修正过程。同时，引入与推理一致的记忆压缩机制，使模型在面对被压缩的历史信息时仍能保持稳定表现。这种训练方式使模型在长时间运行中具备更强的鲁棒性。

在多项基准测试中，SoulX-LiveAct展现出综合性能优势。在HDTF数据集上，其Sync-C达到9.40、Sync-D为6.76，同时在分布相似性指标上取得10.05 FID与69.43 FVD；在VBench评估中，Temporal Quality为97.6，Image Quality为63.0，VBench-2.0中的Human Fidelity达到99.9。在EMTD数据集上，模型同样保持稳定表现，Sync-C为8.61、Sync-D为7.29，Temporal Quality达到97.3，Image Quality为65.7，在VBench 上，Human Fidelity为98.9。这些结果表明，该模型在口型同步、动作表达与整体稳定性方面具备均衡能力。

依托上述性能表现，SoulX-LiveAct在多个应用场景中具备落地条件，包括长期在线数字人直播、AI教育、智能服务系统、知识内容生产以及虚拟互动空间等。在需要持续互动与实时响应的环境中，模型能够支持角色长时间运行，并保持一致的表达效果。

Soul App 此次发布的SoulX-LiveAct在长时稳定性、实时性能与资源效率之间建立了新的技术平衡，为实时数字人生成提供了一种具备实际部署价值的实现路径。

            <!-- 非定向300*250按钮    17/09  wenjing  begin -->

            <!-- 非定向300*250按钮  end -->
        </div>

Source link

相关推荐

近期文章