Comfyui最强音色克隆：字节开源项目 MegaTTS

MegaTTS介绍

MegaTTS 3是字节跳动团队开发的一个文本转语音（TTS）模型。虽然只有 0.45B 参数，但效果一点不输大模型：中英文随便切换，读出来又自然又有情感，还能做语音克隆，用几秒音频就能模仿出某个人的声音。它最核心的功能是声音克隆，只需要一段几秒钟的简短音频，就能模仿这个人的声音说出任何话。

这个模型在技术上做了一些创新，比如它不是直接处理原始的音频文件，而是先用一个叫WaveVAE的工具把音频压缩成数字摘要，这样处理起来更快。然后，它使用一种类似AI画画的“扩散”技术，从随机的噪音数据开始，一步步生成清晰的语音。为了让生成的声音听起来更自然，不像机器人，它还用了一种叫做“稀疏对齐”的技术来处理停顿和语调，使得说话的节奏感更像真人。目前这个工具支持中文和英文。虽然字节跳动开源了模型代码，但最初没有提供声音克隆所需的关键部分（WaveVAE编码器），后来由社区开发者发布了兼容的编码器，才让所有人都能使用完整的克隆功能。

功能列表

高质量声音克隆: 仅需一段简短的音频（最短3秒），即可克隆出非常逼真的声音。
支持双语: 支持中文和英文的文本转语音，也支持中英混合的文本。
可控制的口音: 用户可以调整参数来控制生成语音的口音强度，比如让一个非母语者说出更标准的普通话。
轻量化模型: 模型参数量只有4.5亿，相对较小，运行效率更高。
命令行界面: 提供了命令行工具，用户可以直接在终端中使用。
网页操作界面: 提供了一个基于Gradio的网页界面，方便不熟悉命令行的用户上传音频和输入文本进行操作。
跨平台支持: 提供了在Linux、Windows和Docker环境下的详细安装和使用说明。
多样的子模块: 项目包含了多个可以独立使用的子模块，如用于语音和文本对齐的Aligner模型、用于字素到音素转换的G2P模型等。

二、相关安装（文末网盘下载合集）

插件地址：https://github.com/billwuhao/ComfyUI_MegaTTS3

安装的话需要编译一下轮子

轮子地址：https://github.com/billwuhao/pynini-windows-wheels/releases/tag/v2.1.6.post1

下载和自己本地python对应的版本即可

Comfyui最强音色克隆：字节开源项目 MegaTTS

下载后可以放在python目录下，执行命令

python.exe -m  pip install pynini-2.1.6.post1-cp310-cp310-win_amd64.whl

安装上即可。

模型的话文末网盘也提供下载链接，存放到ComfyUI\models\TTS，加起来4G左右。

也可自行前往抱脸网下载：https://huggingface.co/ByteDance/MegaTTS3

三、工作流及体验

单人音频：
Comfyui最强音色克隆：字节开源项目 MegaTTS

双人音频

Comfyui最强音色克隆：字节开源项目 MegaTTS

音频示例：

综上所述，ComfyUI_MegaTTS3 项目凭借其卓越的功能和灵活性，在文本转语音领域具有很高的实用价值和市场前景。开发者可以轻松集成该项目，为用户提供更加自然和个性化的语音交互体验。

下载权限

查看

￥

免费下载

评论并刷新后下载

登录后下载
免费下载

免费下载：

签到可领取积分

查看演示

{{attr.name}}：

您当前的等级为

登录后免费下载登录小黑屋反思中，不准下载！评论后刷新页面下载评论支付免费指引：【签到得积分即可下载】请先登录您今天的下载次数（次）用完了，请明天再来支付积分免费指引：【签到得积分即可下载】立即支付支付免费指引：【签到得积分即可下载】立即支付您当前的用户组不允许下载升级会员

您已获得下载权限您可以每天下载资源次，今日剩余次

温馨提示：本站提供的一切软件、教程和内容信息都来自网络收集整理，仅限用于学习和研究目的；不得将上述内容用于商业或者非法用途，否则，一切后果请用户自负，版权争议与本站无关。在未征得本站同意时，禁止复制、盗用、采集、发布本站内容到任何网站、书籍等各类媒体平台。如若本站内容侵犯了原著者的合法权益，可联系我们进行处理。