【TechWeb】10月15日,百度搜索全面升级了文心助手的AIGC创作能力,可支持AI图片、AI视频、AI音乐、AI播客等8种模态创作,且能够一键调用多工具解决多场景问题。
尤其值得一提的是文心助手提供行业领先的长视频生成玩法。输入一段话,即可创作一部 3 分钟的故事大片。而这一能力,得益于视频生成模型百度蒸汽机的再次升级支持。
百度蒸汽机模型自今年5月闯入AI生视频赛道就拿下VBench-I2V全球榜一。
此次百度蒸汽机模型突破传统AI视频生成10秒左右的时长限制,还在行业首次实现AI长视频“实时交互”生成,也就是过程可打断、可编辑,而且生成速度超越国内主流视频生成模型。
目前,每天有千万量级的AIGC内容由用户通过文心助手创作产生。
在接受媒体采访时,百度副总裁、百度搜索总经理赵世奇和百度副总裁、移动生态商业体系负责人陈一凡不约而同的都提到,Sora 2带来启发,随着百度大模型技术的进化,结合大模型的能力,在产品侧,要让AI生视频、AIGC的使用门槛更低、用户玩法更丰富。
此次百度搜索&蒸汽机模型,让AI生视频的体验迈上新台阶。
AI生视频全新交互体验:可任意编辑、控制剧情走向
作为AI生视频背后能力支撑,此次升级后的蒸汽机模型有几大突破:
1、仅上传一张图片和一段提示词就可生成一段长视频。支持长视频流式生成,突破了市面上(包括Sora2),AI生视频工具5s-10s的时长限制,可生成任意时长视频。
2、支持实时交互,也就是用户在生成视频的过程中,可随时打断、任意修改提示词需求,来调整生成的视频内容。这意味着,用户在生成过程中可随时暂停,并基于已生成的画面提交新的Prompt(提示词)来引导后续剧情发展。这极大的方便了视频创作。
使用入口:百度搜索/百度APP/搜索「百度蒸汽机」;绘想平台链接:https://huixiang.baidu.com
据介绍,蒸汽机模型能力支持无限时长生成,产品层面考虑用户应用场景会做一定时长限制。目前,对创意视频时长会限制在1分钟。
现场,百度商业体系商业研发总经理刘林演示了用蒸汽机模型生成沙漠赛车视频时,根据用户不同需求,实现实时生成不同比赛结果(银色车胜出,还是黄色车胜出)的视频效果。
引来现场阵阵掌声。
蒸汽机模型这种具备交互能力的长视频生成技术重塑了人机互动模式,有望推动内容消费方式由“被动接收”向“共同创造”转变,甚至催生新型艺术形式与商业生态。
陈一凡介绍,目前蒸汽机的长视频生成能力已经受到营销圈、娱乐化用户的青睐。
背后技术突破
百度商业研发首席架构师李双龙介绍,此次蒸汽机模型升级的解法与思考是从分治到全局,引入自回归扩散模型(Autoregressive Diffusion Models),同时结合自回归的长序列能力和扩散一致性强的优点,进行优化。
通过引入自回归扩散模型,采用基于流式滑窗的自回归扩散架构,以此来实现低成本无限外推和实时生成。长视频生成过程为流式体验,模型推理出多少,用户即可实时预览多少,无需等待全部生成完成。采用全局规划与局部参考相结合的优化方法,解决生成长视频时的连续性与一致性问题。
同时依托商业强大的工程优化能力,对模型进行极致压缩,优化主要包括模型参数压缩(大模型蒸馏小模型)、window attention降低attention过程中可见序列长度、步数和CFG蒸馏等策略,不断降低推理耗时,最终实现几乎实时性效果。
AI视频生成领域正处在一个技术快速迭代、应用场景不断拓展的关键阶段。
目前,蒸汽机模型还支持生成实时交互数字人,告别以往单向输出的数字人视频模式,支持沉浸式互动,做用户专属的数字人。可拓展AI导购、AI老师、AI陪伴等沉浸式数字人场景。
另外,蒸汽机模型支持开放世界生成,无论是游戏地图、旅游景点体验、还是宇宙空间,都可以任意生成、任意探索,任意创造。
“把AI生视频的门槛降低,就会有更多玩法融入”,刘林表示,AI生成视频打破了长度的限制之后,进一步降低了视频创作门槛,能生成更完整更优质的内容,助力创作者的生产和变现。
另外,李双龙提到,蒸汽机模型下一步重点技术迭代将放在“有声一体化、支持多人、长视频”这些方向。(果青)
<!-- 非定向300*250按钮 17/09 wenjing begin -->
<!-- 非定向300*250按钮 end -->
</div>