Chinese Polyphones with Pinyin (CPP) 数据集是由韩国科学技术院创建,旨在解决汉语拼音转换中的多音字问题。该数据集包含超过99,000个句子,专门用于训练和测试多音字发音的识别模型。数据集通过从维基百科提取中文文本,并由两名母语为中文的标注者进行人工标注,确保每个多音字的发音准确无误。CPP数据集的应用领域主要集中在汉语语音合成系统中,以提高多音字发音的准确性和自然度。
原始地址:
https://github.com/kakaobrain/g2pM
提供机构:
韩国科学技术院
创建时间:
2020-04-07
数据集介绍
构建方式
在构建Chinese Polyphones with Pinyin (CPP)数据集时,研究团队首先从最新的中文维基百科数据中提取了纯中文文本,并过滤掉包含繁体字或长度不符合要求的句子。随后,他们筛选出包含至少一个多音字的句子,并在这些句子中随机标记一个多音字。为了确保数据的平衡性,团队对每个多音字的句子数量进行了裁剪,使其在10到250之间。最后,两名母语为中文的标注者对每个多音字进行标注,并确保标注结果的一致性。
Chinese Polyphones with Pinyin (CPP) 数据集在汉语拼音转换系统中扮演着至关重要的角色。其经典使用场景主要体现在汉语多音字的发音消歧任务中。通过提供大量包含多音字的句子及其正确拼音标注,CPP 数据集为训练和评估拼音转换模型提供了坚实的基础。例如,在文本到语音(TTS)系统中,正确识别多音字的发音对于生成自然流畅的语音输出至关重要。