AI教母、斯坦福大学教授李飞飞的创业公司 World Labs 又上新了。当地时间10月16日,李飞飞转发推文介绍全新实时生成式世界模型RTFM(Real-Time Frame Model),称这是一个实时、持持续运行且保持3D一致性的生成式世界模型,亮点是可在单个H100 GPU上运行。

根据官方介绍,RTFM 的设计围绕三个关键原则:效率、可扩展性和持久性,这意味着模型可以在很小的GPU上运行,同时随着数据和计算量的增加而扩展,且这是一个永久的3D世界,“永远不会被遗忘”。
在技术上,RTFM是一款基于大规模视频数据进行端到端训练、效率极高的自回归扩散Transformer模型,最终仅通过观察训练集中的样本就学会了建模 3D 几何、反射、阴影等特征。
World Labs 团队认为,随着技术的发展,日益清晰的一点是,生成式世界模型的算力需求将极其庞大,远超当今的大语言模型。因此,若直接套用现有视频架构,生成60帧的4K交互视频流每秒需产生超过10万个token(约等于首部《哈利·波特》的篇幅),而要维持一小时以上的持续交互,需处理的上下文token更将突破1亿大关。
以当今的计算基础设施而言,这既不可行,也不具备经济效益。团队相信,那些能够随着计算能力的提升而平滑扩展的简单方法,往往将在AI领域占据主导地位,因为它们能够受益于计算成本的指数级下降,而这种下降在过去几十年里推动了所有技术的发展。
因此,李飞飞团队设定了一个简单的目标,设计一个高效的生成式世界模型,使其能够高效部署,并随着计算能力的提升而持续扩展。最终得到了这个能够部署在单个 H100 GPU上的模型,无论用户与其交互多长时间,都能保持交互帧率和持久的世界。

就在上个月, World Labs还上线了空间智能最新研究成果:Marble,强调在空间结构和几何一致性上的突破,只需一张图片,就能生成持久存在的 3D 世界。
有网友表示,这样的世界模型将带来巨大的变革:不仅仅在游戏领域,它让一切想象成为可能。行业认为,从商业化角度来看,这些世界模型或许可以直接面向内容生产行业,瞄准游戏公司或者电影制片厂。
2024年,李飞飞创办了World Labs,目标是开发具备“空间智能”的下一代 AI 系统。随后短短几月内,World Labs 就完成约 2.3亿美元(约合人民币16亿元)的融资,估值迅速突破 10亿美元(约合70亿元),成为 AI 领域最新的独角兽企业。公司投资方阵容包括 a16z、Radical Ventures、英伟达 NVentures、AMD Ventures 和 Intel Capital 等科技与风投界的重量级玩家。
World Labs官网介绍,该公司旨在开发能够利用图像和其他数据对三维世界进行决策的软件,致力于构建“大型世界模型”。公司计划生成虚拟的三维空间,用户可以控制其中的物理等变量,并允许人们创建自己的三维“世界”。李飞飞表示,这项技术对艺术家、设计师、开发者和工程师等职业群体都有重要意义。
李飞飞此前在社交平台表示,“在AI领域中真正难以解决的问题是什么?我的答案是空间智能”,并称这项技术可以赋能并实现在创造、设计、学习、AR/VR、机器人等领域无数可能的用例,具有广泛的应用场景,包括未来的机器人技术和制造业。
对于World Labs未来规划,此前团队曾表示第一阶段将专注于构建对三维性、物理性以及空间和时间概念有深入理解的模型,随后将支持增强现实(AR)技术和机器人技术等领域。此前李飞飞提到,团队刚起步,在盈利模式等问题上有很多边界需要突破,相信团队能够解决。
<!-- 非定向300*250按钮 17/09 wenjing begin -->
<!-- 非定向300*250按钮 end -->
</div>