Soul App发布SoulX-LiveAct开源模型,优化实时数字人生成技术


近期,Soul App AI团队(Soul AI Lab)正式发布开源模型SoulX-LiveAct。作为面向实时数字人生成的新方案,该模型围绕长时稳定性与实时推理能力展开技术创新,在自回归扩散(AR Diffusion)框架下实现突破,进一步完善了实时交互类数字人技术体系。

长期以来,实时数字人生成面临两个关键限制:一是显存占用随时间增长而不断扩大,导致系统难以支撑长视频生成;二是在生成长视频过程中,人物身份与细节容易出现漂移,影响整体表现。SoulX-LiveAct从底层结构出发,针对这两个问题进行了系统性改进。在显存管理方面,模型不再依赖传统线性增长的KV cache,而是通过重构条件传播方式与历史信息管理机制,实现了在长时间生成过程中显存保持稳定。Soul App AI团队的这一设计使系统能够在更长时间窗口内持续运行,而无需因资源限制中断或简化历史信息。

在实时性能方面,SoulX-LiveAct同样表现出较高的工程可行性。在512×512分辨率下,模型仅需2张H100或H200即可实现20 FPS的流式推理能力,端到端延迟约为0.94秒。同时,单帧计算成本控制在27.2 TFLOPs/frame的水平,在保证实时性的同时降低了整体算力压力,为实际部署提供了更具可操作性的方案。

除了资源效率与实时能力,长时一致性是评估数字人系统的重要维度。SoulX-LiveAct在这一方面通过结构优化实现了稳定表现。在长时间生成过程中,模型能够维持人物身份一致性,并减少发型、服饰、配饰等细节的漂移现象,同时保证口型与语音的匹配程度。相比常见方法在长时段内容中逐步出现的“失真”问题,该模型在更长时间范围内保持了稳定输出。

从技术实现路径来看,SoulX-LiveAct基于AR Diffusion范式,通过分块生成与上下文承接构建完整的流式推理过程。在此基础上,Soul App 团队为模型引入Neighbor Forcing与ConvKV Memory两项核心机制。Neighbor Forcing通过在同一扩散步下传播相邻帧latent的信息,使模型在训练与推理阶段保持一致的语义空间,从而降低误差累积带来的不稳定性。ConvKVMemory则将历史记忆从线性增长的缓存结构转变为“短期精确+长期压缩”的组合形式,在保证局部细节的同时压缩远期信息,使显存占用维持在可控范围内。此外,通过RoPE Reset对位置编码进行对齐处理,进一步减少长序列中的位置漂移问题。

在训练策略上,Soul App AI团队强调与实际推理场景的一致性。训练过程中,模型不仅学习短时间片段的生成,还通过连续chunk的构造显式模拟长时生成中的误差积累与修正过程。同时,引入与推理一致的记忆压缩机制,使模型在面对被压缩的历史信息时仍能保持稳定表现。这种训练方式使模型在长时间运行中具备更强的鲁棒性。

在多项基准测试中,SoulX-LiveAct展现出综合性能优势。在HDTF数据集上,其Sync-C达到9.40、Sync-D为6.76,同时在分布相似性指标上取得10.05 FID与69.43 FVD;在VBench评估中,Temporal Quality为97.6,Image Quality为63.0,VBench-2.0中的Human Fidelity达到99.9。在EMTD数据集上,模型同样保持稳定表现,Sync-C为8.61、Sync-D为7.29,Temporal Quality达到97.3,Image Quality为65.7,在VBench 上,Human Fidelity为98.9。这些结果表明,该模型在口型同步、动作表达与整体稳定性方面具备均衡能力。

依托上述性能表现,SoulX-LiveAct在多个应用场景中具备落地条件,包括长期在线数字人直播、AI教育、智能服务系统、知识内容生产以及虚拟互动空间等。在需要持续互动与实时响应的环境中,模型能够支持角色长时间运行,并保持一致的表达效果。

Soul App 此次发布的SoulX-LiveAct在长时稳定性、实时性能与资源效率之间建立了新的技术平衡,为实时数字人生成提供了一种具备实际部署价值的实现路径。

            <!-- 非定向300*250按钮    17/09  wenjing  begin -->
            <!-- 非定向300*250按钮  end -->
        </div>



Source link

未经允许不得转载:紫竹林-程序员中文网 » Soul App发布SoulX-LiveAct开源模型,优化实时数字人生成技术
关于我们 免责申明 意见反馈 隐私政策
程序员中文网:公益在线网站,帮助学习者快速成长!
关注微信 技术交流
推荐文章
每天精选资源文章推送
推荐文章
随时随地碎片化学习
推荐文章
发现有趣的