Chinese Minority Headline Generation (CMHG)

arXiv2025-09-12 更新2025-09-16 收录

自然语言处理

少数民族语言

资源简介：

CMHG数据集是由中国民族大学等研究机构创建，专门针对中国少数民族语言（藏语、维吾尔语、蒙古语）的新闻标题生成任务。该数据集包含10万个藏语样本和各5万个维吾尔语和蒙古语样本，由网络爬虫从中国政府文件和新闻文章等在线平台收集。为了保证数据质量，研究人员对收集到的数据进行清洗和去重，并与母语者合作进行标注和评估。该数据集旨在解决少数民族语言资源匮乏的问题，推动少数民族语言自然语言处理研究的发展。

原始地址：

https://huggingface.co/KEVVVV/CMHG

提供机构：

中国民族大学

创建时间：

2025-09-12

CMHG 数据集概述

数据集基本信息

语言：藏语（bo）、蒙古语（mn）、维吾尔语（ug）
许可证：CC BY 4.0
任务类别：文本生成
任务ID：标题生成

数据集规模

总条目数：200,000
训练集大小：1,415,800,000 字节
语言分布：
- 藏语：100,000 条目
- 蒙古语：50,000 条目
- 维吾尔语：50,000 条目

数据结构

数据集包含以下特征字段：

id：唯一标识符（字符串类型）
title：生成的标题（字符串类型）
content：原始内容/文本（字符串类型）
title_match_1：第一位标注者对标题-内容相关性的评估分数（浮点型）
title_match_2：第二位标注者对标题-内容相关性的评估分数（浮点型）
tendency：情感或倾向分类（字符串类型）
average_score：两位标注者的平均分数（浮点型）
score_difference：两位标注者分数的差异（浮点型）

数据质量控制

每种语言标注了 3,000 个条目进行质量控制
采用双标注者评估机制
基于标注结果进行数据质量分类

数据质量分类

高质量数据：平均分数 ≥ 4（文件：average_score_4_or_higher.csv）
低质量数据：平均分数 < 4（文件：average_score_below_4.csv）

目录结构

bo/ average_score_4_or_higher.csv average_score_below_4.csv bo-all.csv mn/ average_score_4_or_higher.csv average_score_below_4.csv mn-all.csv ug/ average_score_4_or_higher.csv average_score_below_4.csv ug-3.csv

引用信息

bibtex @inproceedings{xu2025cmhg, title = {{CMHG}: A Dataset and Benchmark for Headline Generation of Minority Languages in China}, author = {Guixian Xu and Zeli Su and Ziyin Zhang and Jianing Liu and Xu Han and Ting Zhang and Yushuang Dong}, booktitle = {The 2025 Conference on Empirical Methods in Natural Language Processing}, year = {2025}, url = {https://openreview.net/forum?id=bmkwrhOmC2} }

数据集介绍

构建方式

在自然语言处理领域，针对中国少数民族语言标题生成任务的数据稀缺问题，CMHG数据集通过系统化的构建流程得以实现。数据源自中国政府文档和新闻网站等在线平台，采用网络爬虫技术自动采集，其中网页标题作为 headline，正文内容作为源文本。为确保数据质量，实施了多阶段清洗策略：剔除广告、导航栏等非文本元素；基于哈希算法进行去重处理；采用 Unicode 标准化实现文本归一化；结合正则表达式与语言识别工具进行语种纯净度验证。最终构建的语料规模达 20 万条，涵盖藏语（10 万条）、维吾尔语与蒙古语（各 5 万条），形成了高质量的多语言生成数据集。

特点

CMHG数据集的显著特征体现在其语言多样性与质量控制的协同设计。作为首个专门针对中国少数民族语言标题生成的大规模开源数据集，其覆盖藏语、维吾尔语和蒙古语三种具有独特文字系统的语言，有效填补了该领域资源空白。数据集呈现明显的语言特性差异：藏语标题平均长度为 12.3 个词符，而蒙古语和维吾尔语分别达到 27.2 和 30.2 个词符，反映了不同语言的表达习惯。通过母语者标注构建的 3000 条高质量评测子集，平均匹配评分达 6.9/7，确保了评估基准的可靠性。数据来源中政府文档占比 66%-100%，新闻文本占比 0-34%，形成了领域均衡的语料分布。

使用方法

该数据集支持多种自然语言处理范式的应用探索。对于监督学习场景，研究者可利用非标注数据训练编码器-解码器架构的生成模型，如采用 CINO 编码器与 Transformer 解码器的组合模型，通过微调实现跨语言的标题生成。在少样本学习场景中，大型语言模型如 Qwen2.5-72B 可通过动态插入两个标注样本作为提示范例，实现零样本迁移。评测时建议采用 ROUGE-L 作为自动评估指标，同时结合母语者标注的高质量测试集进行人工评估。数据集提供按语言划分的训练/测试分割，支持跨语言对比研究与单语言深度优化，为少数民族语言生成任务提供了标准化实验基准。

背景与挑战

背景概述

中国少数民族语言标题生成数据集（CMHG）由中央民族大学与上海交通大学联合团队于2025年创建，旨在解决藏语、维吾尔语和蒙古语等低资源语言在自然语言处理领域的语料稀缺问题。该数据集包含20万条高质量平行语料，涵盖政府文档与新闻文本双领域，通过母语者标注与多重质量控制机制，为少数民族语言生成任务提供了首个标准化基准。其发布显著推动了跨语言预训练模型在非汉语语境下的适应性研究，为语言资源均衡化发展提供了重要基础设施。

当前挑战

该数据集核心挑战集中于低资源语言的语言复杂性：藏语黏着语特性与蒙古语屈折变化导致生成模型面临形态学泛化困境；维吾尔语右向书写系统与汉语编码差异加剧了序列对齐难度。构建过程中需克服多源文本混杂（如 CulturaX 数据集中34%维吾尔语文本实际含哈萨克语）、母语标注者稀缺性，以及政府文档与新闻文本的领域适应性平衡问题，需通过正则过滤与动态奖励机制确保跨语言一致性。

常用场景

经典使用场景

在自然语言处理领域，CMHG数据集为藏语、维吾尔语和蒙古语等中国少数民族语言的新闻标题生成任务提供了标准化评估基准。该数据集通过精心构建的新闻文本与标题配对，支持序列到序列模型的训练与验证，显著提升了生成标题的准确性与流畅性。研究者可利用其大规模语料开展跨语言对比分析，探索少数民族语言特有的语法结构与语义特征对生成效果的影响。

衍生相关工作

基于CMHG数据集衍生出多项创新研究，包括跨语言共享权重模型SWCM与少数民族语言预训练模型CINO的优化。这些工作推动了多任务学习框架在低资源语言处理中的应用，并催生了面向特定语言的评估指标体系建设，为后续藏文-汉文双语生成、蒙古语语法纠错等细分领域研究提供了范式参考。

数据集最近研究