热搜词: 2025 2026

一手TTS-2语音合成模型安装教程及实际使用

语音合成正从云端调用走向本地部署,TTS-2模型作为开源语音生成方案之一,正在被越来越多开发者尝试落地。本篇文章从环境配置到推理调用,详尽拆解TTS-2的安装流程与使用技巧,为语音产品开发者提供一份可复用的实操指南。

最近一个月,在网上被鬼畜的同音替换视频洗脑了,相信不少人已经看过:(取自bilibili官方视频):https://index-tts.github.io/index-tts2.github.io/

简单说就是:让视频中的对话用相同的语气、情绪,但是说出一段自定义的话。

这就是最近bilibili发布的TTS2模型。

那我天马行空一下,是不是各种语言,各种语气都是可以替换的?作为动手能力极强的我,马上就开干,准备亲手部署TTS2模型并合成一段语音。接下来是我搭配chatPGPT耗时不到2小时的实现。本文分为两大模块,第一块是各种依赖安装,第二模块是模型效果实操。

一、基础准备

首先准备一台电脑(RAM>8G即可)官方说要8G显卡,但实测下来并不需要,我用的是8GRAM,显卡128MB的低配电脑。

然后,按照官方说明,先安装好git和git-lfs。

嗯,不出意外的话,果然要出意外了:

碰到的第一个问题:在克隆远端仓库时爆出了第一个问题:

别急,先问一下GPT。我把完整的报错信息丢给了GPT,并让它帮我分析问题及给出解决方案:

紧接着它又给了我两种解决方案,按照它的建议,我选择了方案1:

再回到gitbash里面执行,回车;

GIT_LFS_SKIP_SMUDGE=1gitclonehttps://github.com/index-tts/index-tts.gitcdindex-tts

#以后也避免自动拉LFSgitlfsinstall–skip-smudgegitconfiglfs.fetchexclude“examples/**”

完美,错误不见了。

接着按照官方的文档继续执行第三步:

官方这里说道建议使用uv安装而不要用pip安装,因为uv安装的速度比pip能快到150倍….

那就信你,所以我要先安装uv,再用uv安装模型。果断执行uv的安装命令:

pipinstall-Uuv

果然,不出意外地又出意外了:

碰到的第二个问题:pip命令找不到

嗯,问题我看懂了,说是这个命令找不到。本着能动嘴坚决不动手,能懒绝不积极的原则,直接把问题抛给GPT:

好吧,就是没有安装python。对于我一个变成小白来说,这实属超纲了。然后在GPT的指引下,我来到了Python官网,下载了对应的版本,安装。

注意:记得勾选“AddPythontoPATH”

安装完Python之后,要手动关掉gitbash窗口,再重新打开:输入命令可以看到已正确安装Python。

然后再继续第四步:这里官方说到“DeepSpeed库可能难以安装一些Windows用户。您可以通过删除标志来跳过它。如果你想要上述任何其他额外功能,您可以手动添加它们特定的功能标志。”

起初我并没有在意到下边这个提示,而是直接执行了命令:

uvsync–all-extras

然后就又双报错了:碰到的第三个问题:路径不对

这一步一个报错,我有点难绷。但想到之后可以随心所欲地替换视频语音,我便又把问题抛给了GPT:

有点被GPT鄙视了…

按照它的说明,我重新进入到项目里,再执行命令:正常了,一切都在有序进行:

事实证明,半场开香槟是大忌!正在我稍有成就感的时候直接又来一个大报错:

碰到的第四个问题:deepspeed构建报错

一种无力感油然而生….

但是很快稳住心态,把问题再抛给GPT,看看什么情况:

它快速定位了问题,原来就是deepspeed的构建问题。原来我就是TTS2官方口中的“那些windows用户”…..

此时我才关注到忽略了官方这里的特别提示,建议不要加–all-extras。

所以命令换成新的,执行一遍:

#在项目根目录(有pyproject.toml的目录

uvsync#不加–all-extras

完美,看起来是把之前的不需要的文件移除了:

终于通过了前期的各项准备之后,要来到重头戏了,通过uvtool安装模型:官方提供了两个下载源,一个是huggingface(抱抱脸),一个是modelscope。我选了后者。(因为抱抱脸会让我想起来抱脸虫…)

无脑执行命令即可:

uvtoolinstall“modelscope”

modelscopedownload–modelIndexTeam/IndexTTS-2–local_dircheckpoints

会看到顺利执行:

但有了上次半场开香槟的尴尬经历后,我谨慎了许多,以防止再有报错。果然,又没让我失望:

碰到的第五个问题:路径不对

同样,再抛给AI:

按照AI的说法执行了一遍,最后试一下看看modelscope是否ok:

uvxmodelscope–help

顺利出现:

至此,模型的安装已经顺利完成~

二、效果实操

完成安装之后,执行下述命令启动:

uvrunwebui.py

然后系统就开始启动,过程有点慢,直到看到出现:

RunningonlocalURL:http://0.0.0.0:7860

去浏览器打开对应地址:

nice!

复杂的功能网上有很多,我就不赘述了,试个简单的吧:

我说了一段话:你好呀,我是白羊武士,很高兴见到你

然后选择用这个语气说:tellmebaby,tellme,why?

然后合成,搞定~

怎么样,很完美!至此,我从0到1跑通了TTS2的本地部署及使用。

我有了一个新思路:把(小)电影中的音频提取出来—>用GPT转成中文—>再把中文上传回TTS2—->生成合成语音—->用剪映剪辑视频和语音。这么一来,看电影再也不会听不懂了。