Skip to content

CosyVoice2 语音合成模型

阿里通义实验室语音团队正式发布语音合成模型CosyVoice2。该模型支持文本和语音的双向流式传输,支持多语种、混合语种和方言,提供更准确、更稳定、更快、更好的语音生成能力。

硅基流动SiliconCloud正式上线推理加速版CosyVoice2-0.5B(价格为¥105/ M UTF-8 bytes,每个字符占用1到4个字节),包含网络传输时间在内,让模型输出延迟低至150ms,为你的生成式AI应用带来更高效的用户体验。与SiliconCloud上的其他语言合成模型一样,CosyVoice2支持开箱即用的8种预置音色,支持用户预置音色以及动态音色,并可自定义语速、音频增益和输出采样率。

在线体验与文档

注意

首次使用需要注册SiliconCloud账号,完成实名认证并获取API授权。

Amadeus系统集成

在Amadeus系统中,你需要在登录后的AI配置页面填写CosyVoice2或其他TTS服务的API密钥和配置。系统会保存这些设置,以便在对话中实时生成语音。

模型特点

结合SiliconCloud此前上线的阿里语音识别模型SenseVoice-Small(可免费使用)及平台上其他各类大模型,开发者轻松调用模型API即可高效开发端到端语音交互应用,包括有声读物、流媒体音频输出、虚拟助手等应用。

技术特点

CosyVoice2是一个基于大语言模型的流式语音合成模型,采用统一的流式/非流式框架设计:

  • 通过有限标量量化(FSQ)提升语音token的编码本利用率
  • 简化了文本到语音的语言模型架构
  • 开发了支持不同合成场景的分块感知因果流匹配模型
  • 流式模式下实现150ms的超低延迟,同时保持与非流式模式几乎相同的合成质量

核心优势

与CosyVoice 1.0版本相比,2.0版本具有显著优势:

多语言支持

  • 支持语言:中文、英文、日文、韩文、中文方言(粤语、四川话、上海话、天津话、武汉话等)
  • 跨语言 & 混合语言:支持跨语言和代码切换场景下的零样本语音克隆

超低延迟

  • 双向流式支持:集成了离线和流建模技术
  • 快速首包合成:在保持高质量音频输出的同时,实现低至150毫秒的延迟

高精度

  • 发音改进:与CosyVoice 1.0相比,发音错误减少30%到50%
  • 基准成就:在Seed-TTS评估集的困难测试集上达到最低的字符错误率

强稳定性

  • 音色一致性:确保零样本和跨语言语音合成的音色可靠一致
  • 跨语言合成:与1.0版本相比有显著改进

自然流畅度

  • 韵律和音质增强:将MOS评估分数从5.4提高到5.53
  • 情感和方言灵活性:支持更精细的情感控制和方言口音调整

应用场景

CosyVoice2特别适合以下应用场景:

  • 有声读物生成
  • 直播和流媒体配音
  • 虚拟助手和客服系统
  • 语音导航和提示
  • 多语言内容本地化

开发者评价

CosyVoice2.0一经发布,部分开发者率先体验后表示,它支持超精细的控制功能,语音合成声音更逼真自然,是目前市场上最为出色的语音合成解决方案之一。

使用提示

  • 请合理使用API额度,避免浪费资源
  • 建议在生产环境中进行充分测试后再部署

在Amadeus系统中配置

登录Amadeus系统后,在AI配置页面,你需要填写以下信息:

  • TTS服务API密钥
  • 语音输出语言(可选择中文、日语或英语)

系统会记住这些配置,使你的虚拟角色能够使用你选择的声音与你交流。

配置步骤

  1. 登录Amadeus系统,进入AI配置页面
  2. 在TTS配置区域填入以下信息:
    • 硅基流动API Token
  3. 进行语音克隆并保存配置

完成配置后,你的虚拟角色将使用你克隆的声音进行对话。