阿里通义推出视频生成音频框架PrismAudio
作者:互联网
2026-03-26
PrismAudio作为前沿的视频生成音频框架,通过创新技术为无声视频智能配乐,显著提升音画同步体验。下面详细介绍其功能特性和应用价值。

PrismAudio的主要功能
-
视频转音频:系统可自动分析无声视频内容,智能生成匹配的环境音效,如动物脚步声或自然现象声音。
-
语义对齐:通过深度学习确保音频元素与视频中的物体动作精确对应,消除音画不同步问题。
-
时序同步:精确控制声音事件与视觉画面的时间对应关系,实现毫秒级的同步效果。
-
美学优化:生成的音频具有自然层次感,避免电子合成痕迹,显著提升听觉舒适度。
-
空间定位:支持立体声输出,根据画面声源位置自动调整声道平衡,增强空间感知。
-
思维链推理:采用分步推理机制,先分析声音要素再生成音频,使过程透明可控。
PrismAudio的关键信息和使用要求
-
技术类型:基于视频生成音频的V2A创新框架
-
核心创新:采用分解式思维链与多维度强化学习技术
-
模型规模:5.18亿参数的高效轻量级架构
-
输出规格:专业级44kHz立体声音频
-
推理速度:生成9秒音频仅需0.63秒
-
输入格式:兼容常见视频格式的无声视频
-
内容限制:专注环境音效生成,不包含人声配音
-
可选输入:支持文本描述辅助生成(非必需)
-
硬件需求:同时支持GPU加速和CPU运行
PrismAudio的核心优势
-
四维协同优化:独立建模语义、时序、美学、空间四个维度,通过协同优化实现音画统一。
-
先思考再发声:突破传统黑箱模式,首先生成结构化推理文本,再转化为音频输出。
-
高效轻量:5.18亿参数模型实现0.63秒快速生成,速度领先同类产品近一倍。
-
复杂场景适应:在AudioCanvas基准测试中表现优异,多声源场景仍保持稳定输出。
如何使用PrismAudio
-
在线体验:通过Hugging Face平台上传无声视频,可选择输入文本描述辅助生成。
-
本地部署:从开源平台获取代码和模型权重,安装环境后调用推理接口生成音频。
PrismAudio的项目地址
-
项目官网:https://prismaudio-project.github.io/
-
GitHub仓库:https://github.com/FunAudioLLM/ThinkSound/tree/prismaudio
-
HuggingFace模型库:https://huggingface.co/FunAudioLLM/PrismAudio
-
arXiv技术论文:https://arxiv.org/pdf/2511.18833
-
在线体验Demo:https://huggingface.co/spaces/FunAudioLLM/PrismAudio
PrismAudio的同类竞品对比
| 对比维度 | PrismAudio | MMAudio | ThinkSound |
|---|---|---|---|
| 技术路线 | 分解式思维链 + 多维度强化学习 | 多模态Transformer | 单体思维链 |
| 参数量 | 5.18亿 | 约10亿 | 数十亿 |
| 推理速度 | 0.63秒/9秒音频 | 1.30秒/9秒音频 | 1.07秒/9秒音频 |
| 输出音质 | 44kHz立体声 | 44kHz单声道 | 44kHz立体声 |
| 语义一致性 | 0.47 | 0.40 | 0.43 |
| 时序同步性 | 0.41 | 0.46 | 0.55 |
| 空间准确性 | 7.72 | — | 13.47 |
| 音质评分 | 4.21 | 3.95 | 4.05 |
PrismAudio的应用场景
-
影视后期:自动化生成电影环境音效
相关标签:
相关推荐
专题
+ 收藏
+ 收藏
+ 收藏
+ 收藏
+ 收藏
最新数据
相关文章
携程酒店业务借助NebulaGraph实现月均风控止损逾百万元
稀宇科技开源MiniMax Office Skills生产级办公文档引擎
ToClaw由ToDesk打造的专业定制AI智能体
TypeNo 免费开源的中文AI语音输入法 无需配置直接使用
Sub2API 开源人工智能API中转网关平台 具备多账户管理功能
阿里通义推出视频生成音频框架PrismAudio
Luma AI发布Uni-1模型实现图像理解与生成一体化
智象未来发布多模态原生AI应用HiDreamClaw
微软发布MAI-Image-2文生图模型
New API 开源AI大模型网关及资产管理系统
AI精选
