微软新出的 VibeVoice-Large(7B)声音克隆效果是真不错,非常大的亮点是生成的语音时长最长 45 分钟,如果是 VibeVoice-1.5B,最长 90 分钟,但我对比了下,1.5 B 生成效果还是要差些
之前用过的一些开源克隆模型最大问题是超过30秒就变样,今天用 VibeVoice-Large 感觉真不错
下面的视频是我的声音克隆效果(和我本人声音很像),Mac 上 ComfyUI 运行 VibeVoice-Large,运行了 24分钟,生成了 1分19秒的音频
VibeVoice-1.5B ,17秒视频生成花了 5分钟
VibeVoice-Large,17秒视频生成花了 12分钟
如果用英伟达的 Win电脑,应该会快很多
显存建议:
1.5B 约需 8 GB VRAM
7B/Large 类约 16 GB VRAM


