阿里巴巴通义实验室推出的 CosyVoice 2.0 这个 AI 语音生成神器。它不仅在多语言支持、语音克隆、情感控制等方面表现出色,还首次实现了双向流式语音合成,适用于直播、客服等对响应速度要求极高的场景。
① 多语言与跨语言生成CosyVoice 支持中、英、日、韩等 10+ 语言的语音合成,并实现跨语言语音生成,例如用中文输入文本直接生成英语语音,无需额外翻译步骤。
开源地址:https://github.com/FunAudioLLM/CosyVoice
② 零样本语音克隆仅需 3 秒的语音样本,即可克隆目标音色,生成自然流畅的语音,且支持对音色、语速、情感的精细化调节。
③ 双向流式语音合成突破传统 TTS 的延迟限制,支持实时流式输出,适用于直播、客服等对响应速度要求极高的场景。
④ 富文本与情感控制通过自然语言指令(如“用欢快的语气强调第二句”)实现语音的韵律、情感控制,让合成语音更贴近真人表达。
还没有评论,来说两句吧...