文生音频系统最新突破股票配资平台个人代理,实现精确时间控制与 90 秒长时音频生成!
想象一下,给 AI 发一段复杂指令生成音频:
0-10 秒要有森林风吹声;0-4 秒,鸟儿鸣叫;4-6 秒,木头燃烧;6-16 秒,动物踩在干树叶上的脚步声;10-16 秒,蟋蟀鸣叫;16-19 秒,猫头鹰鸣叫;17-26 秒,溪水流淌。
现在它真能做到每个声音都卡准时间点,请听:
不论是长时间生成还是短时间都轻松拿捏:
1-3 秒,狼嚎声;0-8 秒,蟋蟀鸣叫声。
各种器物以及人的声响也都能复刻:
0-8 秒,柔和的原声吉他拨弦奠定了节奏;8-16 秒,男声加入,伴随着吉他的音乐唱歌;16-22 秒,人声情绪高涨,而吉他声则保持稳定的背景;22-26 秒,歌曲略微柔和,轻柔的吉他声持续演奏。
以前要实现这种效果非常难,要么时间控不准,要么时长撑不过 10 秒。但现在,来自清华大学、生数科技的新成果 FreeAudio 直接把这变成了现实。
更猛的是,它不用额外训练,靠一套"免训练"方法就突破了行业瓶颈,可基于自然语言文本与时间提示实现精确的时间控制与长时音频生成。
实验中,在 10 秒时间控制的生成任务中,FreeAudio 相较以往的免训练方法具有显著提升,且在无需任何时间对齐的音频 - 文本训练数据的情况下,取得了可与最先进基于训练方法媲美的效果。
此外,FreeAudio 首次在长时音频生成任务中实现了时间控制,在大幅降低计算开销的同时,仍表现出与训练式方法相当的性能。
据了解,FreeAudio 系统未来或考虑在 Vidu 产品端上线。该工作目前也已被 ACM Multimedia 2025 录用,并被 AC 推荐为 Oral 录取。
ACM MM 是计算机多媒体领域的国际顶级会议,也是中国计算机学会(CCF)推荐的多媒体领域唯一 A 类国际学术会议,今年将于 10 月 27 日至 31 日在爱尔兰都柏林举行。
下面来看研究细节。
FreeAudio 到底长啥样?
论文中提到,尽管现有的 T2A 生成模型取得了令人瞩目的进展,但在实现精确的时间控制和长时段连贯生成方面仍面临诸多挑战:
一是大多数公开可用的音频数据集长度较短(通常约为 10 秒),且仅提供粗粒度的标签或字幕级注释。
这限制了模型对细粒度时间控制和长时音频生成能力的学习与建模。同时,训练或微调用于时间控制和长时生成的大规模扩散模型,需要大量的计算资源与工程成本。
二是现有方法通常通过引入事件及其时间戳作为条件,增强模型的时间控制能力。
然而,这类方法普遍依赖于预定义的事件类别,难以适应开放式的自然语言描述,因而在实际应用中存在可扩展性差、泛化能力弱的问题。
为了应对上述挑战,本文提出 FreeAudio,一种无需额外训练即可同时支持时间控制与长时生成的文本到音频框架。
该方法利用 LLM 对时间结构进行规划,将文本与时间提示解析为一系列互不重叠的时间窗口,并为每个窗口生成适配的自然语言描述。随后,FreeAudio 依次生成各时间片段的音频内容,并通过上下文融合与参考引导机制实现最终的长时音频合成。
具体来看,FreeAudio 以预训练的 10 秒可变长 DiT-based T2A 扩散模型为基础,引入音频总时长作为独立条件输入。目标是在无需训练的前提下实现时间控制与长时音频生成。
时间可控音频生成分为 LLM Planning 和 Decoupling&Aggregating Attention Control 模块:
在时间可控音频生成方面,FreeAudio 首先借助 LLM 的 Chain-of-Thought(CoT)思维链推理规划能力,将文本提示和时间提示解析为一系列不重叠的时间窗口,再将每个时间窗口对应的一组事件重述为适合 T2A 模型生成的文本提示。
Decoupling&Aggregating Attention Control 模块由两个子机制组成,分别针对局部对齐与全局融合问题进行建模:
Decoupling Attention Control 将原始 Latent 查询按照时间窗口划分,并仅在 Cross-Attention 模块中激活与当前时间窗口对应的子提示。
Aggregating Attention Control 则负责在 Self-Attention 与 Cross-Attention 模块中融合子提示生成的关键区域,按照时间顺序拼接为完整输出,并与全局 Latent 进行插值融合。
另外,长时音频生成的整体架构如下图:
在长时音频生成方面,面对现有 T2A 模型推理长度有限(通常为 10 秒以内)的挑战,FreeAudio 将任意时长的目标音频任务拆解为多个子片段,并采用两项关键技术协同保障整段音频的时序连贯与语义一致:
Contextual Latent Composition:在每一步扩散采样中对相邻片段的潜变量进行上下文融合,尤其在片段重叠区域采用双向拼接策略,有效提升跨段过渡的平滑性;
Reference Guidance:在自注意力模块中引入参考片段特征,作为全局参考,提升长音频在风格、音色与叙事连贯性方面的整体一致性;
最后,在波形重建阶段,对相邻片段的重叠区域进行去重裁剪,仅保留一次有效副本,保证生成音频在时域上的连续性与声学上的自然性。
实验效果如何?
在时间可控音频生成实验中,FreeAudio 在 AudioCondition 测试集上显著优于现有主流方法,全面提升了时间对齐精度与音频质量。
在客观指标方面,FreeAudio 在事件级对齐(Eb)、片段级准确率(At)、FAD、KL 以及 CLAP 相似度等多个关键维度均达到最优或次优表现,兼顾了时间控制能力与整体音频质量,并进一步展示了 FreeAudio 在十类声音事件上的 Eb 与 At 表现。
在主观评估中,FreeAudio 同样获得了最高的时间一致性与音频可听性评分。
进一步的消融实验表明,Decoupling&Aggregating Attention Control 中的两个融合超参数在控制粒度与全局语义保持之间实现了良好平衡,有效提升了系统的可控性和听感稳定性。
在长时音频生成任务中,FreeAudio 在 AudioCaps 和 MusicCaps 数据集上展现出优越的扩展性与稳定性。
在 10 秒、26 秒和 90 秒的生成长度,FreeAudio 始终在多个指标上表现出色,充分验证了其对不同时长的生成能力。
同时,主观评估结果显示,FreeAudio 在音质、连贯性与风格一致性等维度均取得最好效果。
总之,本文提出了 FreeAudio,一种新颖的免训练 T2A 生成框架,在时间条件控制的文本到音频生成任务中展现出优越的性能。
此前生数科技联合清华大学推出的文生音效系统,在全球范围内首个实现了 10 秒内的精准时间控制商业落地系统,支持独立时间窗音效生成。其标志性功能——多音轨时间窗精准可控(如独立设定动物鸣叫 / 环境声的时间区间),已通过生数科技 Vidu 平台落地商用,成为业内领先产业级解决方案。
此次推出的 FreeAudio 系统更是实现全球首个突破 10 秒时长限制,解锁了 10 秒以上场景的文生音效时间精准可控,凭借自主创新的技术方案,解决行业痛点:
避免音效版权风险,解决音效匹配难题
大幅降低音效制作成本
支持多音轨秒级对齐(如环境声 + 动物鸣叫精准叠加)
FreeAudio 系统为音效制作提供了灵活、精准的专业技术解决方案,为专业级影视音效制作打下了坚实技术基础。
未来,团队表示将进一步探索结合自然语言事件描述的训练式时间控制文本到音频生成系统,以提升时间对齐精度和音频生成质量。
在长时音频生成方面,团队计划研究支持更长时长甚至无限长生成的机制,进一步拓展模型的生成范围与稳定性。
此外,团队也希望将本方法拓展至空间音频生成等方向,以支持更多样的听觉场景。
论文链接:https://arxiv.org/abs/2507.08557
Demo 链接:https://freeaudio.github.io/FreeAudio/
一键三连「点赞」「转发」「小心心」
欢迎在评论区留下你的想法!
— 完 —
� � 点亮星标 � �
科技前沿进展每日见股票配资平台个人代理
倍加网配资提示:文章来自网络,不代表本站观点。