资源简介:
C3 是一个自由形式的多选中文机器阅读理解数据集。我们展示了第一个自由形式的多选中文机器阅读理解数据集(C^3),包含 13,369 个文档(对话或更正式的混合体裁文本)及其相关的 19,577 个从中文收集的自由形式选择题-作为第二语言的考试。我们对这些现实世界问题所需的先验知识(即语言、特定领域和一般世界知识)进行了全面分析。我们实施了基于规则和流行的神经方法,发现性能最佳的模型 (68.5%) 和人类读者 (96.0%) 之间仍然存在显着的性能差距,尤其是在需要先验知识的问题上。我们进一步研究了基于英语翻译相关数据集的干扰物合理性和数据增强对模型性能的影响。我们预计 C^3 将对现有系统提出巨大挑战,因为回答 86.8% 的问题需要随附文档内外的知识,我们希望 C^3 可以作为研究如何利用各种先验知识的平台更好地理解给定的书面或口头文本。 C^3 可在 https://dataset.org/c3/ 获得。
原始地址:
https://opendatalab.org.cn/OpenDataLab/C3