facebook/mlqa
hugging_face
2024-01-18 更新
2024-06-15 收录
跨语言问答
多语言数据集
资源简介:
MLQA(多语言问答)数据集是一个涵盖多种语言(包括英语、德语、西班牙语、阿拉伯语、中文、越南语和印地语)的问答数据集。该数据集的任务类别是问答任务,具体任务类型是抽取式问答。数据集的创建者是通过众包方式完成的,数据集的大小在10K到100K之间。数据集的配置信息详细列出了每种语言的训练、验证和测试集的特征、大小和示例数量。
原始地址:
https://hf-mirror.com/datasets/facebook/mlqa
提供机构:
facebook
MLQA (MultiLingual Question Answering) 数据集概述
基本信息
名称
: MLQA (MultiLingual Question Answering)
语言
:
英语 (en)
德语 (de)
西班牙语 (es)
阿拉伯语 (ar)
中文 (zh)
越南语 (vi)
印地语 (hi)
许可证
: CC-BY-SA-3.0
数据来源
: 原始数据
数据规模
: 10K<n<100K
数据创建者
: 众包
标注创建者
: 众包
多语言性
: 多语言
任务类别
: 问答
任务ID
: 抽取式问答 (extractive-qa)
Papers with Code ID
: mlqa
数据集配置信息
配置: mlqa-translate-train.ar
特征
:
context: string
question: string
answers:
answer_start: int32
text: string
id: string
分割
:
train:
字节数: 101227245
样本数: 78058
validation:
字节数: 13144332
样本数: 9512
下载大小
: 63364123
数据集大小
: 114371577
配置: mlqa-translate-train.de
特征
:
context: string
question: string
answers:
answer_start: int32
text: string
id: string
分割
:
train:
字节数: 77996825
样本数: 80069
validation:
字节数: 10322113
样本数: 9927
下载大小
: 63364123
数据集大小
: 88318938
配置: mlqa-translate-train.vi
特征
:
context: string
question: string
answers:
answer_start: int32
text: string
id: string
分割
:
train:
字节数: 97387431
样本数: 84816
validation:
字节数: 12731112
样本数: 10356
下载大小
: 63364123
数据集大小
: 110118543
配置: mlqa-translate-train.zh
特征
:
context: string
question: string
answers:
answer_start: int32
text: string
id: string
分割
:
train:
字节数: 55143547
样本数: 76285
validation:
字节数: 7418070
样本数: 9568
下载大小
: 63364123
数据集大小
: 62561617
配置: mlqa-translate-train.es
特征
:
context: string
question: string
answers:
answer_start: int32
text: string
id: string
分割
:
train:
字节数: 80789653
样本数: 81810
validation:
字节数: 10718376
样本数: 10123
下载大小
: 63364123
数据集大小
: 91508029
配置: mlqa-translate-train.hi
特征
:
context: string
question: string
answers:
answer_start: int32
text: string
id: string
分割
:
train:
字节数: 168117671
样本数: 82451
validation:
字节数: 22422152
样本数: 10253
下载大小
: 63364123
数据集大小
: 190539823
配置: mlqa-translate-test.ar
特征
:
context: string
question: string
answers:
answer_start: int32
text: string
id: string
分割
:
test:
字节数: 5484467
样本数: 5335
下载大小
: 10075488
数据集大小
: 5484467
配置: mlqa-translate-test.de
特征
:
context: string
question: string
answers:
answer_start: int32
text: string
id: string
分割
:
test:
字节数: 3884332
样本数: 4517
下载大小
: 10075488
数据集大小
: 3884332
配置: mlqa-translate-test.vi
特征
:
context: string
question: string
answers:
answer_start: int32
text: string
id: string
分割
:
test:
字节数: 5998327
样本数: 5495
下载大小
: 10075488
数据集大小
: 5998327
配置: mlqa-translate-test.zh
特征
:
context: string
question: string
answers:
answer_start: int32
text: string
id: string
分割
:
test:
字节数: 4831704
样本数: 5137
下载大小
: 10075488
数据集大小
: 4831704
配置: mlqa-translate-test.es
特征
:
context: string
question: string
answers:
answer_start: int32
text: string
id: string
分割
:
test:
字节数: 3916758
样本数: 5253
下载大小
: 10075488
数据集大小
: 3916758
配置: mlqa-translate-test.hi
特征
:
context: string
question: string
answers:
answer_start: int32
text: string
id: string
分割
:
test:
字节数: 4608811
样本数: 4918
下载大小
: 10075488
数据集大小
: 4608811
配置: mlqa.ar.ar
特征
:
context: string
question: string
answers:
answer_start: int32
text: string
id: string
分割
:
test:
字节数: 8216837
样本数: 5335
validation:
字节数: 808830
样本数: 517
下载大小
: 75719050
数据集大小
: 9025667
配置: mlqa.ar.de
特征
:
context: string
question: string
answers:
answer_start: int32
text: string
id: string
分割
:
test:
字节数: 2132247
样本数: 1649
validation:
字节数: 358554
样本数: 207
下载大小
: 75719050
数据集大小
: 2490801
配置: mlqa.ar.vi
特征
:
context: string
question: string
answers:
answer_start: int32
text: string
id: string
分割
:
test:
字节数: 3235363
样本数: 2047
validation:
字节数: 283834
样本数: 163
下载大小
: 75719050
数据集大小
: 3519197
配置: mlqa.ar.zh
特征
:
context: string
question: string
answers:
answer_start: int32
text: string
id: string
分割
:
test:
字节数: 3175660
样本数: 1912
validation:
字节数: 334016
样本数: 188
下载大小
: 75719050
数据集大小
: 3509676
配置: mlqa.ar.en
特征
:
context: string
question: string
answers:
answer_start: int32
text: string
id: string
分割
:
test:
字节数: 8074057
样本数: 5335
validation:
字节数: 794775
样本数: 517
下载大小
: 75719050
数据集大小
: 8868832
配置: mlqa.ar.es
特征
:
context: string
question: string
answers:
answer_start: int32
text: string
id: string
分割
:
test:
字节数: 2981237
样本数: 1978
validation:
字节数: 223188
样本数: 161
下载大小
: 75719050
数据集大小
: 3204425
配置: mlqa.ar.hi
特征
:
context: string
question: string
answers:
answer_start: int32
text: string
id: string
分割
:
test:
字节数: 2993225
样本数: 1831
validation:
字节数: 276727
样本数: 186
下载大小
: 75719050
数据集大小
: 3269952
配置: mlqa.de.ar
特征
:
context: string
question: string
answers:
answer_start: int32
text: string
id: string
分割
:
test:
字节数: 1587005
样本数: 1649
validation:
字节数: 195822
样本数: 207
下载大小
: 75719050
数据集大小
: 1782827
配置: mlqa.de.de
特征
:
context: string
question: string
answers:
answer_start: int32
text: string
id: string
分割
:
test:
字节数: 4274496
样本数: 4517
validation:
字节数: 477366
样本数: 512
下载大小
: 75719050
数据集大小
: 4751862
配置: mlqa.de.vi
特征
:
context: string
question: string
answers:
answer_start: int32
text: string
id: string
分割
:
test:
字节数: 1654540
样本数: 1675
validation:
字节数: 211985
样本数: 182
下载大小
: 75719050
数据集大小
: 1866525
配置: mlqa.de.zh
特征
:
context: string
question: string
answers:
answer_start: int32
text: string
id: string
分割
:
test:
字节数: 1645937
样本数: 1621
validation:
字节数: 180114
样本数: 190
下载大小
: 75719050
数据集大小
: 1826051
配置: mlqa.de.en
特征
:
context: string
question: string
answers:
answer_start: int32
text: string
id: string
分割
:
test:
字节数: 4251153
样本数: 4517
validation:
字节数: 474863
样本数: 512
下载大小
: 75719050
数据集大小
: 4726016
配置: mlqa.de.es
特征
:
context: string
question: string
answers:
answer_start: int32
text: string
id: string
分割
:
test:
字节数: 1678176
样本数: 1776
validation:
字节数: 166193
样本数: 196
下载大小
: 75719050
数据集大小
: 1844369
配置: mlqa.de.hi
特征
:
context: string
question: string
answers:
answer_start: int32
text: string
id: string
分割
:
test:
字节数: 1343983
样本数: 1430
validation:
字节数: 15067
相关数据集
未查询到数据集
热门搜索
人脸识别数据集
自动驾驶训练数据集
大模型预训练数据集
图像识别数据集