AllTalk TTS:给本地大模型装上嘴巴

发布时间:2026/6/27 14:19:19
AllTalk TTS:给本地大模型装上嘴巴 文章目录AllTalk TTS给本地大模型装上嘴巴AllTalk TTS给本地大模型装上嘴巴AllTalk TTS 是一个开源的文字转语音项目目前在 GitHub 上拿到了 2,392 个 Star。它可以作为独立应用运行也能接入 Text-generation-webui、SillyTavern、KoboldCPP 这些常见的本地大模型前端。简单说它解决的问题就是你在本地跑了一个文字生成模型想让它把回答念出来AllTalk 就干这个事。核心功能AllTalk 基于 XTTSv2 模型支持本地和 API 两种调用方式。比较实用的功能有几个声音微调可以用一段目标声音的录音来训练模型让生成的语音更贴近特定的说话人。DeepSpeed 加速在 Nvidia 显卡上开启后生成速度能提升 2 到 3 倍。低显存模式显存不够的时候可以跑这个模式适合显卡内存紧张的用户。旁白功能主角色和旁白可以用不同的声音来读做有声内容的时候比较方便。批量生成可以把大段文本一次性转成语音文件也能逐段回放试听。API 接口支持 JSON 调用第三方应用可以通过接口来调用语音合成。安装方式AllTalk 提供了快捷安装脚本Windows 和 Linux 都支持。步骤不复杂把仓库克隆到本地或者从 Releases 页面下载 zip 包。运行对应的安装脚本Windows 是atsetup.batLinux 是./atsetup.sh。按照屏幕提示选择安装方式等依赖装完就行。DeepSpeed 需要单独安装建议先把基础功能跑通再考虑。项目也支持手动安装文档里有详细的步骤说明macOS 用户需要走手动安装的路子。使用场景AllTalk 的定位是本地 TTS 引擎。典型用法是配合 SillyTavern 做角色对话的语音输出或者在 Text-generation-webui 里给模型的回答加上语音。因为支持 API 调用也可以集成到自己写的应用里。举个例子你在 SillyTavern 里跑了一个角色扮演的对话模型文字回复有了但想让角色真的开口说话。接上 AllTalk 之后每条回复会自动生成对应的语音文件点一下就能听到。旁白功能还能让叙述部分和角色对白用不同的声音来区分做剧情类内容的时候效果更明显。项目状态AllTalk 目前有 v1 和 v2 两个版本。v2 是主要的开发方向功能更多修复了 v1 的不少问题推荐新用户直接用 v2。v1 的文档和功能仍然保留在仓库里老用户可以继续使用。项目文档比较全内置了一个网页版的文档界面遇到问题可以直接在里面查。作者在 README 里也提到这是一个个人项目支持响应时间不一定快但基本的使用问题在文档和社区讨论区里都能找到答案。个个人项目支持响应时间不一定快但基本的使用问题在文档和社区讨论区里都能找到答案。