facebook/mlqa
hugging_face2024-01-18 更新2024-06-15 收录
跨语言问答
多语言数据集
资源简介:
MLQA(多语言问答)数据集是一个涵盖多种语言(包括英语、德语、西班牙语、阿拉伯语、中文、越南语和印地语)的问答数据集。该数据集的任务类别是问答任务,具体任务类型是抽取式问答。数据集的创建者是通过众包方式完成的,数据集的大小在10K到100K之间。数据集的配置信息详细列出了每种语言的训练、验证和测试集的特征、大小和示例数量。
原始地址:
提供机构:
facebook

MLQA (MultiLingual Question Answering) 数据集概述

基本信息

  • 名称: MLQA (MultiLingual Question Answering)
  • 语言:
    • 英语 (en)
    • 德语 (de)
    • 西班牙语 (es)
    • 阿拉伯语 (ar)
    • 中文 (zh)
    • 越南语 (vi)
    • 印地语 (hi)
  • 许可证: CC-BY-SA-3.0
  • 数据来源: 原始数据
  • 数据规模: 10K<n<100K
  • 数据创建者: 众包
  • 标注创建者: 众包
  • 多语言性: 多语言
  • 任务类别: 问答
  • 任务ID: 抽取式问答 (extractive-qa)
  • Papers with Code ID: mlqa

数据集配置信息

配置: mlqa-translate-train.ar

  • 特征:
    • context: string
    • question: string
    • answers:
      • answer_start: int32
      • text: string
    • id: string
  • 分割:
    • train:
      • 字节数: 101227245
      • 样本数: 78058
    • validation:
      • 字节数: 13144332
      • 样本数: 9512
  • 下载大小: 63364123
  • 数据集大小: 114371577

配置: mlqa-translate-train.de

  • 特征:
    • context: string
    • question: string
    • answers:
      • answer_start: int32
      • text: string
    • id: string
  • 分割:
    • train:
      • 字节数: 77996825
      • 样本数: 80069
    • validation:
      • 字节数: 10322113
      • 样本数: 9927
  • 下载大小: 63364123
  • 数据集大小: 88318938

配置: mlqa-translate-train.vi

  • 特征:
    • context: string
    • question: string
    • answers:
      • answer_start: int32
      • text: string
    • id: string
  • 分割:
    • train:
      • 字节数: 97387431
      • 样本数: 84816
    • validation:
      • 字节数: 12731112
      • 样本数: 10356
  • 下载大小: 63364123
  • 数据集大小: 110118543

配置: mlqa-translate-train.zh

  • 特征:
    • context: string
    • question: string
    • answers:
      • answer_start: int32
      • text: string
    • id: string
  • 分割:
    • train:
      • 字节数: 55143547
      • 样本数: 76285
    • validation:
      • 字节数: 7418070
      • 样本数: 9568
  • 下载大小: 63364123
  • 数据集大小: 62561617

配置: mlqa-translate-train.es

  • 特征:
    • context: string
    • question: string
    • answers:
      • answer_start: int32
      • text: string
    • id: string
  • 分割:
    • train:
      • 字节数: 80789653
      • 样本数: 81810
    • validation:
      • 字节数: 10718376
      • 样本数: 10123
  • 下载大小: 63364123
  • 数据集大小: 91508029

配置: mlqa-translate-train.hi

  • 特征:
    • context: string
    • question: string
    • answers:
      • answer_start: int32
      • text: string
    • id: string
  • 分割:
    • train:
      • 字节数: 168117671
      • 样本数: 82451
    • validation:
      • 字节数: 22422152
      • 样本数: 10253
  • 下载大小: 63364123
  • 数据集大小: 190539823

配置: mlqa-translate-test.ar

  • 特征:
    • context: string
    • question: string
    • answers:
      • answer_start: int32
      • text: string
    • id: string
  • 分割:
    • test:
      • 字节数: 5484467
      • 样本数: 5335
  • 下载大小: 10075488
  • 数据集大小: 5484467

配置: mlqa-translate-test.de

  • 特征:
    • context: string
    • question: string
    • answers:
      • answer_start: int32
      • text: string
    • id: string
  • 分割:
    • test:
      • 字节数: 3884332
      • 样本数: 4517
  • 下载大小: 10075488
  • 数据集大小: 3884332

配置: mlqa-translate-test.vi

  • 特征:
    • context: string
    • question: string
    • answers:
      • answer_start: int32
      • text: string
    • id: string
  • 分割:
    • test:
      • 字节数: 5998327
      • 样本数: 5495
  • 下载大小: 10075488
  • 数据集大小: 5998327

配置: mlqa-translate-test.zh

  • 特征:
    • context: string
    • question: string
    • answers:
      • answer_start: int32
      • text: string
    • id: string
  • 分割:
    • test:
      • 字节数: 4831704
      • 样本数: 5137
  • 下载大小: 10075488
  • 数据集大小: 4831704

配置: mlqa-translate-test.es

  • 特征:
    • context: string
    • question: string
    • answers:
      • answer_start: int32
      • text: string
    • id: string
  • 分割:
    • test:
      • 字节数: 3916758
      • 样本数: 5253
  • 下载大小: 10075488
  • 数据集大小: 3916758

配置: mlqa-translate-test.hi

  • 特征:
    • context: string
    • question: string
    • answers:
      • answer_start: int32
      • text: string
    • id: string
  • 分割:
    • test:
      • 字节数: 4608811
      • 样本数: 4918
  • 下载大小: 10075488
  • 数据集大小: 4608811

配置: mlqa.ar.ar

  • 特征:
    • context: string
    • question: string
    • answers:
      • answer_start: int32
      • text: string
    • id: string
  • 分割:
    • test:
      • 字节数: 8216837
      • 样本数: 5335
    • validation:
      • 字节数: 808830
      • 样本数: 517
  • 下载大小: 75719050
  • 数据集大小: 9025667

配置: mlqa.ar.de

  • 特征:
    • context: string
    • question: string
    • answers:
      • answer_start: int32
      • text: string
    • id: string
  • 分割:
    • test:
      • 字节数: 2132247
      • 样本数: 1649
    • validation:
      • 字节数: 358554
      • 样本数: 207
  • 下载大小: 75719050
  • 数据集大小: 2490801

配置: mlqa.ar.vi

  • 特征:
    • context: string
    • question: string
    • answers:
      • answer_start: int32
      • text: string
    • id: string
  • 分割:
    • test:
      • 字节数: 3235363
      • 样本数: 2047
    • validation:
      • 字节数: 283834
      • 样本数: 163
  • 下载大小: 75719050
  • 数据集大小: 3519197

配置: mlqa.ar.zh

  • 特征:
    • context: string
    • question: string
    • answers:
      • answer_start: int32
      • text: string
    • id: string
  • 分割:
    • test:
      • 字节数: 3175660
      • 样本数: 1912
    • validation:
      • 字节数: 334016
      • 样本数: 188
  • 下载大小: 75719050
  • 数据集大小: 3509676

配置: mlqa.ar.en

  • 特征:
    • context: string
    • question: string
    • answers:
      • answer_start: int32
      • text: string
    • id: string
  • 分割:
    • test:
      • 字节数: 8074057
      • 样本数: 5335
    • validation:
      • 字节数: 794775
      • 样本数: 517
  • 下载大小: 75719050
  • 数据集大小: 8868832

配置: mlqa.ar.es

  • 特征:
    • context: string
    • question: string
    • answers:
      • answer_start: int32
      • text: string
    • id: string
  • 分割:
    • test:
      • 字节数: 2981237
      • 样本数: 1978
    • validation:
      • 字节数: 223188
      • 样本数: 161
  • 下载大小: 75719050
  • 数据集大小: 3204425

配置: mlqa.ar.hi

  • 特征:
    • context: string
    • question: string
    • answers:
      • answer_start: int32
      • text: string
    • id: string
  • 分割:
    • test:
      • 字节数: 2993225
      • 样本数: 1831
    • validation:
      • 字节数: 276727
      • 样本数: 186
  • 下载大小: 75719050
  • 数据集大小: 3269952

配置: mlqa.de.ar

  • 特征:
    • context: string
    • question: string
    • answers:
      • answer_start: int32
      • text: string
    • id: string
  • 分割:
    • test:
      • 字节数: 1587005
      • 样本数: 1649
    • validation:
      • 字节数: 195822
      • 样本数: 207
  • 下载大小: 75719050
  • 数据集大小: 1782827

配置: mlqa.de.de

  • 特征:
    • context: string
    • question: string
    • answers:
      • answer_start: int32
      • text: string
    • id: string
  • 分割:
    • test:
      • 字节数: 4274496
      • 样本数: 4517
    • validation:
      • 字节数: 477366
      • 样本数: 512
  • 下载大小: 75719050
  • 数据集大小: 4751862

配置: mlqa.de.vi

  • 特征:
    • context: string
    • question: string
    • answers:
      • answer_start: int32
      • text: string
    • id: string
  • 分割:
    • test:
      • 字节数: 1654540
      • 样本数: 1675
    • validation:
      • 字节数: 211985
      • 样本数: 182
  • 下载大小: 75719050
  • 数据集大小: 1866525

配置: mlqa.de.zh

  • 特征:
    • context: string
    • question: string
    • answers:
      • answer_start: int32
      • text: string
    • id: string
  • 分割:
    • test:
      • 字节数: 1645937
      • 样本数: 1621
    • validation:
      • 字节数: 180114
      • 样本数: 190
  • 下载大小: 75719050
  • 数据集大小: 1826051

配置: mlqa.de.en

  • 特征:
    • context: string
    • question: string
    • answers:
      • answer_start: int32
      • text: string
    • id: string
  • 分割:
    • test:
      • 字节数: 4251153
      • 样本数: 4517
    • validation:
      • 字节数: 474863
      • 样本数: 512
  • 下载大小: 75719050
  • 数据集大小: 4726016

配置: mlqa.de.es

  • 特征:
    • context: string
    • question: string
    • answers:
      • answer_start: int32
      • text: string
    • id: string
  • 分割:
    • test:
      • 字节数: 1678176
      • 样本数: 1776
    • validation:
      • 字节数: 166193
      • 样本数: 196
  • 下载大小: 75719050
  • 数据集大小: 1844369

配置: mlqa.de.hi

  • 特征:
    • context: string
    • question: string
    • answers:
      • answer_start: int32
      • text: string
    • id: string
  • 分割:
    • test:
      • 字节数: 1343983
      • 样本数: 1430
    • validation:
      • 字节数: 15067
相关数据集
未查询到数据集