CosyVoice 2

arXiv2024-12-13 更新2024-12-17 收录

语音合成

多语言

资源简介：

CosyVoice 2是由阿里巴巴集团开发的多语言语音合成数据集，旨在通过大规模多语言数据集训练，实现高质量的流式语音合成。数据集通过有限标量量化技术改进语音令牌的利用率，并结合预训练的大型语言模型作为骨干，支持流式和非流式合成。数据集的创建过程包括文本令牌化、监督语义语音令牌化、统一文本-语音语言模型和块感知流匹配模型等步骤。该数据集主要应用于语音合成领域，旨在解决高延迟和低自然度的问题，提供接近人类水平的语音合成质量。

原始地址：

https://github.com/FunAudioLLM/CosyVoice

提供机构：

阿里巴巴集团

创建时间：

2024-12-13

CosyVoice 数据集概述

版本信息

CosyVoice 2.0:
- Demos
- Paper
- Modelscope
CosyVoice 1.0:
- Demos
- Paper
- Modelscope

主要特点

多语言支持

支持语言: 中文、英语、日语、韩语、中国方言（粤语、四川话、上海话、天津话、武汉话等）
跨语言与混合语言: 支持跨语言和代码转换场景的零样本语音克隆。

超低延迟

双向流支持: 集成离线和流式建模技术。
快速首包合成: 在保持高质量音频输出的同时，延迟低至150ms。

高准确性

发音改进: 与CosyVoice 1.0相比，发音错误减少30%至50%。
基准测试成绩: 在Seed-TTS评估集的硬测试集上达到最低的字符错误率。

强稳定性

音色一致性: 确保零样本和跨语言语音合成的可靠语音一致性。
跨语言合成: 与版本1.0相比有显著改进。

自然体验

韵律和音质增强: 合成音频的对齐得到改善，MOS评估分数从5.4提升至5.53。
情感和方言灵活性: 支持更细粒度的情感控制和口音调整。

安装与使用

安装步骤

克隆仓库: sh git clone --recursive https://github.com/FunAudioLLM/CosyVoice.git cd CosyVoice git submodule update --init --recursive
创建Conda环境: sh conda create -n cosyvoice python=3.10 conda activate cosyvoice conda install -y -c conda-forge pynini==2.1.5 pip install -r requirements.txt -i https://mirrors.aliyun.com/pypi/simple/ --trusted-host=mirrors.aliyun.com

模型下载

推荐下载预训练模型: python from modelscope import snapshot_download snapshot_download(iic/CosyVoice2-0.5B, local_dir=pretrained_models/CosyVoice2-0.5B) snapshot_download(iic/CosyVoice-300M, local_dir=pretrained_models/CosyVoice-300M) snapshot_download(iic/CosyVoice-300M-25Hz, local_dir=pretrained_models/CosyVoice-300M-25Hz) snapshot_download(iic/CosyVoice-300M-SFT, local_dir=pretrained_models/CosyVoice-300M-SFT) snapshot_download(iic/CosyVoice-300M-Instruct, local_dir=pretrained_models/CosyVoice-300M-Instruct) snapshot_download(iic/CosyVoice-ttsfrd, local_dir=pretrained_models/CosyVoice-ttsfrd)

基本使用

CosyVoice2 使用: python cosyvoice = CosyVoice2(pretrained_models/CosyVoice2-0.5B, load_jit=True, load_onnx=False, load_trt=False)
CosyVoice 使用: python cosyvoice = CosyVoice(pretrained_models/CosyVoice-300M-SFT, load_jit=True, load_onnx=False, fp16=True)

讨论与交流

Github Issues: 讨论

致谢

代码参考自 FunASR、FunCodec、Matcha-TTS、AcademiCodec、WeNet。

免责声明

本内容仅供学术用途，旨在展示技术能力。部分示例来源于网络，如涉及侵权，请联系我们删除。

数据集介绍

构建方式

CosyVoice 2 数据集的构建基于大规模多语言数据集，通过引入有限标量量化（Finite Scalar Quantization, FSQ）技术，改进了语音令牌的码本利用率。数据集的构建过程中，使用了预训练的大型语言模型（LLM）作为文本到语音语言模型的骨干，简化了模型架构，并开发了块级因果流匹配模型，以支持流式和非流式合成的统一框架。此外，数据集还通过监督语义语音令牌器和文本令牌器，确保了语音生成过程中的语义和声学信息的分离，从而实现了高质量的语音合成。

特点

CosyVoice 2 数据集的主要特点在于其支持流式和非流式合成的统一框架，能够在单一模型中实现两种合成模式的无损切换。此外，数据集通过有限标量量化技术，显著提升了码本利用率，捕捉了更多的语音信息。数据集还集成了指令生成能力，支持情感、口音、角色风格等细粒度控制，使得语音合成更加多样化和生动。

使用方法

CosyVoice 2 数据集可用于多种语音合成任务，包括流式和非流式合成。用户可以通过预训练的文本到语音语言模型生成语音令牌，并结合块级因果流匹配模型生成高质量的语音波形。数据集还支持指令生成，用户可以通过输入自然语言指令或细粒度指令，控制语音的情感、语速、口音等特征。此外，数据集还支持多说话人微调，用户可以通过微调模型生成特定说话人的语音，进一步提升合成语音的相似度和自然度。

背景与挑战

背景概述

CosyVoice 2是由阿里巴巴集团的研究团队开发的多语言流式语音合成模型，其核心研究问题是如何在保持高自然度和内容一致性的同时，实现低延迟的流式语音合成。该模型基于大规模多语言数据集进行训练，结合了有限标量量化（FSQ）、预训练的大型语言模型（LLM）以及分块感知的因果流匹配模型，旨在统一流式和非流式合成，提供近乎无损的流式合成质量。CosyVoice 2的提出标志着在零样本语音合成领域的重要进展，尤其是在多模态大语言模型背景下，流式合成的响应延迟和实时性对交互体验至关重要。

当前挑战

CosyVoice 2在构建过程中面临多项挑战。首先，如何在流式合成中保持与非流式合成相同的合成质量，尤其是在处理复杂语境和长文本时，是一个关键问题。其次，多语言支持的挑战在于不同语言之间的字符集重叠可能导致合成质量下降，尤其是中日韩语言的处理。此外，模型在处理情感、口音等细粒度控制时，如何确保指令的准确性和自然性也是一个难点。最后，流式合成中的低延迟要求对模型的计算效率提出了更高的要求，如何在保证合成质量的同时优化计算资源的使用，是CosyVoice 2需要解决的技术难题。

常用场景

经典使用场景

CosyVoice 2 数据集的经典使用场景主要集中在多语言零样本语音合成（Zero-Shot TTS）任务中。该数据集通过结合大规模语言模型（LLMs）和流式语音合成技术，能够在不依赖特定说话人数据的情况下，生成高质量、自然流畅的语音。其核心优势在于支持流式合成，能够在实时交互场景中实现低延迟的语音生成，适用于语音助手、在线聊天、虚拟角色对话等应用场景。

衍生相关工作

CosyVoice 2 数据集的发布催生了一系列相关研究工作，尤其是在多语言零样本语音合成和流式合成领域。基于该数据集，研究者们进一步探索了如何通过预训练语言模型提升语音合成的自然度和多样性，并提出了多种改进的流式合成算法。此外，CosyVoice 2 的成功也激发了对语音合成中情感控制、语音风格迁移等方向的研究，推动了语音合成技术的整体进步。

数据集最近研究