一手TTS-2语音合成模型安装教程及实际使用

语音合成正从云端调用走向本地部署，TTS-2模型作为开源语音生成方案之一，正在被越来越多开发者尝试落地。本篇文章从环境配置到推理调用，详尽拆解TTS-2的安装流程与使用技巧，为语音产品开发者提供一份可复用的实操指南。

最近一个月，在网上被鬼畜的同音替换视频洗脑了，相信不少人已经看过：（取自bilibili官方视频）:https://index-tts.github.io/index-tts2.github.io/

简单说就是：让视频中的对话用相同的语气、情绪，但是说出一段自定义的话。

这就是最近bilibili发布的TTS2模型。

那我天马行空一下，是不是各种语言，各种语气都是可以替换的？作为动手能力极强的我，马上就开干，准备亲手部署TTS2模型并合成一段语音。接下来是我搭配chatPGPT耗时不到2小时的实现。本文分为两大模块，第一块是各种依赖安装，第二模块是模型效果实操。

一、基础准备

首先准备一台电脑（RAM>8G即可）官方说要8G显卡，但实测下来并不需要，我用的是8GRAM，显卡128MB的低配电脑。

然后，按照官方说明，先安装好git和git-lfs。

嗯，不出意外的话，果然要出意外了：

碰到的第一个问题：在克隆远端仓库时爆出了第一个问题：

别急，先问一下GPT。我把完整的报错信息丢给了GPT，并让它帮我分析问题及给出解决方案：

紧接着它又给了我两种解决方案，按照它的建议，我选择了方案1：

再回到gitbash里面执行，回车；

GIT_LFS_SKIP_SMUDGE=1gitclonehttps://github.com/index-tts/index-tts.gitcdindex-tts

#以后也避免自动拉LFSgitlfsinstall–skip-smudgegitconfiglfs.fetchexclude“examples/**”

完美，错误不见了。

接着按照官方的文档继续执行第三步：

官方这里说道建议使用uv安装而不要用pip安装，因为uv安装的速度比pip能快到150倍….

那就信你，所以我要先安装uv，再用uv安装模型。果断执行uv的安装命令：

pipinstall-Uuv

果然，不出意外地又出意外了：

碰到的第二个问题：pip命令找不到

嗯，问题我看懂了，说是这个命令找不到。本着能动嘴坚决不动手，能懒绝不积极的原则，直接把问题抛给GPT：

好吧，就是没有安装python。对于我一个变成小白来说，这实属超纲了。然后在GPT的指引下，我来到了Python官网，下载了对应的版本，安装。

注意：记得勾选“AddPythontoPATH”

安装完Python之后，要手动关掉gitbash窗口，再重新打开：输入命令可以看到已正确安装Python。

然后再继续第四步：这里官方说到“DeepSpeed库可能难以安装一些Windows用户。您可以通过删除标志来跳过它。如果你想要上述任何其他额外功能，您可以手动添加它们特定的功能标志。”

起初我并没有在意到下边这个提示，而是直接执行了命令：

uvsync–all-extras

然后就又双报错了：碰到的第三个问题：路径不对

这一步一个报错，我有点难绷。但想到之后可以随心所欲地替换视频语音，我便又把问题抛给了GPT：

有点被GPT鄙视了…

按照它的说明，我重新进入到项目里，再执行命令：正常了，一切都在有序进行：

事实证明，半场开香槟是大忌！正在我稍有成就感的时候直接又来一个大报错：

碰到的第四个问题：deepspeed构建报错

一种无力感油然而生….

但是很快稳住心态，把问题再抛给GPT，看看什么情况：

它快速定位了问题，原来就是deepspeed的构建问题。原来我就是TTS2官方口中的“那些windows用户”…..

此时我才关注到忽略了官方这里的特别提示，建议不要加–all-extras。

所以命令换成新的，执行一遍：

#在项目根目录（有pyproject.toml的目录

uvsync#不加–all-extras

完美，看起来是把之前的不需要的文件移除了：

终于通过了前期的各项准备之后，要来到重头戏了，通过uvtool安装模型：官方提供了两个下载源，一个是huggingface（抱抱脸），一个是modelscope。我选了后者。（因为抱抱脸会让我想起来抱脸虫…）

无脑执行命令即可：

uvtoolinstall“modelscope”

modelscopedownload–modelIndexTeam/IndexTTS-2–local_dircheckpoints

会看到顺利执行：

但有了上次半场开香槟的尴尬经历后，我谨慎了许多，以防止再有报错。果然，又没让我失望：

碰到的第五个问题：路径不对

同样，再抛给AI：

按照AI的说法执行了一遍，最后试一下看看modelscope是否ok：

uvxmodelscope–help

顺利出现：

至此，模型的安装已经顺利完成~

二、效果实操

完成安装之后，执行下述命令启动：

uvrunwebui.py

然后系统就开始启动，过程有点慢，直到看到出现：

RunningonlocalURL:http://0.0.0.0:7860

去浏览器打开对应地址：

nice！

复杂的功能网上有很多，我就不赘述了，试个简单的吧：

我说了一段话：你好呀，我是白羊武士，很高兴见到你

然后选择用这个语气说：tellmebaby,tellme,why?

然后合成，搞定～

怎么样，很完美！至此，我从0到1跑通了TTS2的本地部署及使用。

我有了一个新思路：把（小）电影中的音频提取出来—>用GPT转成中文—>再把中文上传回TTS2—->生成合成语音—->用剪映剪辑视频和语音。这么一来，看电影再也不会听不懂了。