CosyVoice2 语音合成模型

阿里通义实验室语音团队正式发布语音合成模型CosyVoice2。该模型支持文本和语音的双向流式传输，支持多语种、混合语种和方言，提供更准确、更稳定、更快、更好的语音生成能力。

硅基流动SiliconCloud正式上线推理加速版CosyVoice2-0.5B（价格为￥105/ M UTF-8 bytes，每个字符占用1到4个字节），包含网络传输时间在内，让模型输出延迟低至150ms，为你的生成式AI应用带来更高效的用户体验。与SiliconCloud上的其他语言合成模型一样，CosyVoice2支持开箱即用的8种预置音色，支持用户预置音色以及动态音色，并可自定义语速、音频增益和输出采样率。

在线体验与文档

体验地址：https://cloud.siliconflow.cn/playground/text-to-speech/17885302679
API文档：https://docs.siliconflow.cn/api-reference/audio/create-speech

注意

首次使用需要注册SiliconCloud账号，完成实名认证并获取API授权。

Amadeus系统集成

在Amadeus系统中，你需要在登录后的AI配置页面填写CosyVoice2或其他TTS服务的API密钥和配置。系统会保存这些设置，以便在对话中实时生成语音。

模型特点

结合SiliconCloud此前上线的阿里语音识别模型SenseVoice-Small（可免费使用）及平台上其他各类大模型，开发者轻松调用模型API即可高效开发端到端语音交互应用，包括有声读物、流媒体音频输出、虚拟助手等应用。

技术特点

CosyVoice2是一个基于大语言模型的流式语音合成模型，采用统一的流式/非流式框架设计：

通过有限标量量化（FSQ）提升语音token的编码本利用率
简化了文本到语音的语言模型架构
开发了支持不同合成场景的分块感知因果流匹配模型
流式模式下实现150ms的超低延迟，同时保持与非流式模式几乎相同的合成质量

核心优势

与CosyVoice 1.0版本相比，2.0版本具有显著优势：

多语言支持

支持语言：中文、英文、日文、韩文、中文方言（粤语、四川话、上海话、天津话、武汉话等）
跨语言 & 混合语言：支持跨语言和代码切换场景下的零样本语音克隆

超低延迟

双向流式支持：集成了离线和流建模技术
快速首包合成：在保持高质量音频输出的同时，实现低至150毫秒的延迟

高精度

发音改进：与CosyVoice 1.0相比，发音错误减少30%到50%
基准成就：在Seed-TTS评估集的困难测试集上达到最低的字符错误率

强稳定性

音色一致性：确保零样本和跨语言语音合成的音色可靠一致
跨语言合成：与1.0版本相比有显著改进

自然流畅度

韵律和音质增强：将MOS评估分数从5.4提高到5.53
情感和方言灵活性：支持更精细的情感控制和方言口音调整

应用场景

CosyVoice2特别适合以下应用场景：

有声读物生成
直播和流媒体配音
虚拟助手和客服系统
语音导航和提示
多语言内容本地化

开发者评价

CosyVoice2.0一经发布，部分开发者率先体验后表示，它支持超精细的控制功能，语音合成声音更逼真自然，是目前市场上最为出色的语音合成解决方案之一。

使用提示

请合理使用API额度，避免浪费资源
建议在生产环境中进行充分测试后再部署

在Amadeus系统中配置

登录Amadeus系统后，在AI配置页面，你需要填写以下信息：

TTS服务API密钥
语音输出语言（可选择中文、日语或英语）

系统会记住这些配置，使你的虚拟角色能够使用你选择的声音与你交流。

配置步骤

登录Amadeus系统，进入AI配置页面
在TTS配置区域填入以下信息：
- 硅基流动API Token
进行语音克隆并保存配置

完成配置后，你的虚拟角色将使用你克隆的声音进行对话。

CosyVoice2 语音合成模型 ​

在线体验与文档 ​

模型特点 ​

技术特点 ​

核心优势 ​

多语言支持 ​

超低延迟 ​

高精度 ​

强稳定性 ​

自然流畅度 ​

应用场景 ​

开发者评价 ​

在Amadeus系统中配置 ​

配置步骤 ​