北大与字节等联合开源实时长视频生成模型Helios

作者:互联网

2026-03-22

AI模型库

Helios作为突破性的14B参数视频生成模型,由顶尖学术机构与企业联合研发,无需传统加速技术即可实现19.5FPS的分钟级视频实时生成,在文生视频、图生视频等任务上展现出显著优势。

Helios的主要功能

  1. 文本到视频:该模型能够根据文字描述直接生成高质量的视频内容,实现从语言到动态视觉的精准转换。

  2. 图片到视频:静态图像输入后,系统可自动转化为流畅的动态视频,拓展了图像的应用场景。

  3. 视频到视频:支持对现有视频进行续写创作或风格转换,为视频编辑提供全新工具。

  4. 交互生成:用户可在生成过程中实时调整提示词,实现创作过程的动态控制。

  5. 长视频生成:模型稳定输出能力突出,可连贯生成长达1440帧的分钟级视频内容。

Helios的技术原理

  1. 统一历史注入:通过创新性拼接历史帧与噪声帧,将双向预训练模型改造为自回归生成器,实现三种任务模式的自动适配。

  2. 引导注意力机制:在自注意力层和交叉注意力层采用差异化处理策略,有效解耦历史与噪声上下文的统计特性。

  3. 简易抗漂移策略:采用相对位置编码固定时间索引范围,保留首帧作为视觉锚点,并通过训练扰动模拟误差累积。

  4. 深度压缩流:通过多期记忆分块和金字塔统一预测校正器,在保持令牌预算恒定的同时显著降低计算量。

  5. 对抗分层蒸馏:采用分阶段反向仿真和动态重噪声调度,将采样步数从50步压缩至3步,突破教师模型性能上限。

Helios的项目地址

  1. 项目官网:https://pku-yuangroup.github.io/Helios-Page/

  2. GitHub仓库:https://github.com/PKU-YuanGroup/Helios

  3. HuggingFace模型库:https://huggingface.co/collections/BestWishYsh/helios

  4. arXiv技术论文:https://arxiv.org/pdf/2603.04379

Helios的应用场景

  1. 影视与广告制作:显著加速电影预告片和广告创意的制作流程,将传统数小时渲染时间缩短至分钟级。

  2. 游戏与交互娱乐:作为世界模型基础组件,支持实时生成无限长度的游戏场景和动态环境。

  3. 社交媒体与内容创作:降低专业视频制作门槛,赋能个人创作者快速产出高质量短视频。

  4. 设计与原型验证:帮助设计师将静态设计稿转化为动态演示,加速迭代反馈循环。

Helios模型通过多项技术创新实现了视频生成的重大突破,其开源特性将推动相关领域快速发展,为各类视觉内容创作带来革命性变革。

相关标签:

AI工具 AI项目和工具

相关推荐