CosyVoice2 语音合成模型
阿里通义实验室语音团队正式发布语音合成模型CosyVoice2。该模型支持文本和语音的双向流式传输,支持多语种、混合语种和方言,提供更准确、更稳定、更快、更好的语音生成能力。
硅基流动SiliconCloud正式上线推理加速版CosyVoice2-0.5B(价格为¥105/ M UTF-8 bytes,每个字符占用1到4个字节),包含网络传输时间在内,让模型输出延迟低至150ms,为你的生成式AI应用带来更高效的用户体验。与SiliconCloud上的其他语言合成模型一样,CosyVoice2支持开箱即用的8种预置音色,支持用户预置音色以及动态音色,并可自定义语速、音频增益和输出采样率。
在线体验与文档
- 体验地址:https://cloud.siliconflow.cn/playground/text-to-speech/17885302679
- API文档:https://docs.siliconflow.cn/api-reference/audio/create-speech
注意
首次使用需要注册SiliconCloud账号,完成实名认证并获取API授权。
Amadeus系统集成
在Amadeus系统中,你需要在登录后的AI配置页面填写CosyVoice2或其他TTS服务的API密钥和配置。系统会保存这些设置,以便在对话中实时生成语音。
模型特点
结合SiliconCloud此前上线的阿里语音识别模型SenseVoice-Small(可免费使用)及平台上其他各类大模型,开发者轻松调用模型API即可高效开发端到端语音交互应用,包括有声读物、流媒体音频输出、虚拟助手等应用。
技术特点
CosyVoice2是一个基于大语言模型的流式语音合成模型,采用统一的流式/非流式框架设计:
- 通过有限标量量化(FSQ)提升语音token的编码本利用率
- 简化了文本到语音的语言模型架构
- 开发了支持不同合成场景的分块感知因果流匹配模型
- 流式模式下实现150ms的超低延迟,同时保持与非流式模式几乎相同的合成质量
核心优势
与CosyVoice 1.0版本相比,2.0版本具有显著优势:
多语言支持
- 支持语言:中文、英文、日文、韩文、中文方言(粤语、四川话、上海话、天津话、武汉话等)
- 跨语言 & 混合语言:支持跨语言和代码切换场景下的零样本语音克隆
超低延迟
- 双向流式支持:集成了离线和流建模技术
- 快速首包合成:在保持高质量音频输出的同时,实现低至150毫秒的延迟
高精度
- 发音改进:与CosyVoice 1.0相比,发音错误减少30%到50%
- 基准成就:在Seed-TTS评估集的困难测试集上达到最低的字符错误率
强稳定性
- 音色一致性:确保零样本和跨语言语音合成的音色可靠一致
- 跨语言合成:与1.0版本相比有显著改进
自然流畅度
- 韵律和音质增强:将MOS评估分数从5.4提高到5.53
- 情感和方言灵活性:支持更精细的情感控制和方言口音调整
应用场景
CosyVoice2特别适合以下应用场景:
- 有声读物生成
- 直播和流媒体配音
- 虚拟助手和客服系统
- 语音导航和提示
- 多语言内容本地化
开发者评价
CosyVoice2.0一经发布,部分开发者率先体验后表示,它支持超精细的控制功能,语音合成声音更逼真自然,是目前市场上最为出色的语音合成解决方案之一。
使用提示
- 请合理使用API额度,避免浪费资源
- 建议在生产环境中进行充分测试后再部署
在Amadeus系统中配置
登录Amadeus系统后,在AI配置页面,你需要填写以下信息:
- TTS服务API密钥
- 语音输出语言(可选择中文、日语或英语)
系统会记住这些配置,使你的虚拟角色能够使用你选择的声音与你交流。
配置步骤
- 登录Amadeus系统,进入AI配置页面
- 在TTS配置区域填入以下信息:
- 硅基流动API Token
- 进行语音克隆并保存配置
完成配置后,你的虚拟角色将使用你克隆的声音进行对话。