欢迎光临
我们一直在努力

微软新出的 VibeVoice-Large(7B)声音克隆

微软新出的 VibeVoice-Large(7B)声音克隆效果是真不错,非常大的亮点是生成的语音时长最长 45 分钟,如果是 VibeVoice-1.5B,最长 90 分钟,但我对比了下,1.5 B 生成效果还是要差些

之前用过的一些开源克隆模型最大问题是超过30秒就变样,今天用 VibeVoice-Large 感觉真不错

下面的视频是我的声音克隆效果(和我本人声音很像),Mac 上 ComfyUI 运行 VibeVoice-Large,运行了 24分钟,生成了 1分19秒的音频
VibeVoice-1.5B ,17秒视频生成花了 5分钟
VibeVoice-Large,17秒视频生成花了 12分钟

如果用英伟达的 Win电脑,应该会快很多

显存建议:
1.5B 约需 8 GB VRAM
7B/Large 类约 16 GB VRAM

https://github.com/Enemyx-net/VibeVoice-ComfyUI

赞(0) 打赏
未经允许不得转载:test » 微软新出的 VibeVoice-Large(7B)声音克隆
分享到: 更多 (0)

评论 抢沙发

  • 昵称 (必填)
  • 邮箱 (必填)
  • 网址

觉得文章有用就打赏一下文章作者

非常感谢你的打赏,我们将继续给力更多优质内容,让我们一起创建更加美好的网络世界!

支付宝扫一扫打赏

微信扫一扫打赏