正文

媲美原声的声音克隆神器：MaskGCT

李海 V管理员 /03-20 /0 评论 /654 阅读

0320

由港中大（深圳）联手趣丸科技联合推出了新一代大规模声音克隆神器，MaskGCT。与先有的文本转语音模型相比，MaskGCT 生成的语音更自然、更连贯。而且这个开源模型，支持控制生成的语音的总长度、语速、停顿、预期等特征，可以修改已经生成的语音或者支持声音克隆。

开源地址：https://github.com/open-mmlab/Amphion/tree/main/models/tts/maskgct

可以通过声音来辨别人目前处于何种情绪状态，比如愤怒、开心、恐惧等，MaskGCT 对此也实现了精准模拟。

MaskGCT（Masked Generative Codec Transformer）的全新非自回归式（NAR）文本到语音（TTS）模型。MaskGCT 的设计旨在解决传统自回归（AR）和非自回归（NAR）TTS系统的不足之处。MaskGCT采用了两阶段架构：第一阶段模型使用文本预测从语音自监督学习模型中提取的语义 tokens；第二阶段则在语义 tokens 的条件下生成声学 tokens。MaskGCT 能够实现在没有对齐监督的情况下，可以直接合成出高质量的语音。支持语音内容编辑，借助遮罩与预测机制，通过对语义tokens的部分遮罩，MaskGCT可以实现零样本语音内容编辑。能够语音转换，MaskGCT 支持零样本语音转换，能够根据参考音频将源语音转换为目标语音的音色，而保持语义内容不变。

版权声明：除非注明，否则均为李海博客原创文章，转载或复制请以超链接形式并注明出处！

相关阅读

您需要登录账户后才能发表评论

发表评论取消回复

评论列表（暂无评论，654人围观）

还没有评论，来说两句吧...

目录[+]

微信二维码

微信二维码

支付宝二维码