MegaTTS介绍
MegaTTS 3是字节跳动团队开发的一个文本转语音(TTS)模型。 虽然只有 0.45B 参数,但效果一点不输大模型:中英文随便切换,读出来又自然又有情感,还能做 语音克隆,用几秒音频就能模仿出某个人的声音。它最核心的功能是声音克隆,只需要一段几秒钟的简短音频,就能模仿这个人的声音说出任何话。
这个模型在技术上做了一些创新,比如它不是直接处理原始的音频文件,而是先用一个叫WaveVAE的工具把音频压缩成数字摘要,这样处理起来更快。 然后,它使用一种类似AI画画的“扩散”技术,从随机的噪音数据开始,一步步生成清晰的语音。 为了让生成的声音听起来更自然,不像机器人,它还用了一种叫做“稀疏对齐”的技术来处理停顿和语调,使得说话的节奏感更像真人。 目前这个工具支持中文和英文。 虽然字节跳动开源了模型代码,但最初没有提供声音克隆所需的关键部分(WaveVAE编码器),后来由社区开发者发布了兼容的编码器,才让所有人都能使用完整的克隆功能。
功能列表
- 高质量声音克隆: 仅需一段简短的音频(最短3秒),即可克隆出非常逼真的声音。
- 支持双语: 支持中文和英文的文本转语音,也支持中英混合的文本。
- 可控制的口音: 用户可以调整参数来控制生成语音的口音强度,比如让一个非母语者说出更标准的普通话。
- 轻量化模型: 模型参数量只有4.5亿,相对较小,运行效率更高。
- 命令行界面: 提供了命令行工具,用户可以直接在终端中使用。
- 网页操作界面: 提供了一个基于Gradio的网页界面,方便不熟悉命令行的用户上传音频和输入文本进行操作。
- 跨平台支持: 提供了在Linux、Windows和Docker环境下的详细安装和使用说明。
- 多样的子模块: 项目包含了多个可以独立使用的子模块,如用于语音和文本对齐的Aligner模型、用于字素到音素转换的G2P模型等。
二、相关安装(文末网盘下载合集)
插件地址:https://github.com/billwuhao/ComfyUI_MegaTTS3
安装的话需要编译一下轮子
轮子地址:https://github.com/billwuhao/pynini-windows-wheels/releases/tag/v2.1.6.post1
下载和自己本地python对应的版本即可
下载后可以放在python目录下,执行命令
python.exe -m pip install pynini-2.1.6.post1-cp310-cp310-win_amd64.whl
安装上即可。
模型的话文末网盘也提供下载链接,存放到ComfyUI\models\TTS
,加起来4G左右。
也可自行前往抱脸网下载:https://huggingface.co/ByteDance/MegaTTS3
三、工作流及体验
单人音频:
双人音频
音频示例:
综上所述,ComfyUI_MegaTTS3 项目凭借其卓越的功能和灵活性,在文本转语音领域具有很高的实用价值和市场前景。开发者可以轻松集成该项目,为用户提供更加自然和个性化的语音交互体验。
感谢分享,下来看看