zjunlp/iepile
hugging_face2024-04-11 更新2024-05-25 收录
信息抽取
大规模语料库
资源简介:
IEPile是一个大规模的信息抽取语料库,专注于基于模式的信息抽取任务。该数据集整合了26个英文和7个中文的信息抽取数据集,涵盖了通用、医疗、金融等多个领域。通过提出的“基于模式的批量指令生成方法”,构建了一个包含约0.32B个标记的高质量信息抽取微调数据集。数据集用于微调Baichuan2和LLaMA2模型,实验表明微调后的模型在全监督训练集上表现优异,并在零样本信息抽取任务中取得了显著提升。数据格式包括任务、来源、指令和输出四个字段,指令采用JSON字符串格式。
原始地址:
提供机构:
zjunlp

数据集概述

数据集名称

IEPile: A Large-Scale Information Extraction Corpus

数据集描述

IEPile是一个大规模的信息提取数据集,专注于基于schema的指令生成方法。该数据集整合了26个英文和7个中文信息提取(IE)数据集,覆盖多个领域,如通用、医疗、金融等。

数据集内容

  • 语言: 英文(en)和中文(zh)
  • 任务类别: 文本到文本生成(text2text-generation)
  • 数据格式: 每个实例包含四个字段:task, source, instruction, output。其中instruction采用JSON-like字符串结构,包含instruction, schema, input三个主要组件。
  • 数据集结构: 包含训练集(train.json)、验证集(dev.json)以及针对英文和中文的统一格式数据(IE-en, IE-zh)。

数据集使用

  • 模型训练: 基于IEPile,使用Lora技术对Baichuan2-13B-Chat和LLaMA2-13B-Chat模型进行微调,显著提升了零样本信息提取任务的性能。
  • 数据集更新: 数据集可能会进行更新,建议使用最新版本。

许可证

数据集遵循CC BY-NC-SA 4.0许可协议。

数据集限制

  • 主要关注schema-based IE,未探索Open IE。
  • 目前仅包含英文和中文数据,未来计划扩展到更多语言。
  • 由于计算资源限制,仅评估了Baichuan和LLaMA模型。

引用信息

若使用IEPile或相关代码,请引用以下文献:

@article{DBLP:journals/corr/abs-2402.14710, author = {Honghao Gui and Lin Yuan and Hongbin Ye and Ningyu Zhang and Mengshu Sun and Lei Liang and Huajun Chen}, title = {IEPile: Unearthing Large-Scale Schema-Based Information Extraction Corpus}, journal = {CoRR}, volume = {abs/2402.14710}, year = {2024}, url = {https://doi.org/10.48550/arXiv.2402.14710}, doi = {10.48550/ARXIV.2402.14710}, eprinttype = {arXiv}, eprint = {2402.14710}, timestamp = {Tue, 09 Apr 2024 07:32:43 +0200}, biburl = {https://dblp.org/rec/journals/corr/abs-2402-14710.bib}, bibsource = {dblp computer science bibliography, https://dblp.org} }

数据集介绍
main_image_url
构建方式
IEPile数据集的构建过程着重于指令型信息抽取,因此指令中的模式构建至关重要。该数据集通过整合26个英文信息抽取数据集和7个中文信息抽取数据集,采用‘模式化批量指令生成方法’,成功构建了一个大规模、高质量的信息抽取微调数据集,包含约0.32亿个标记。此方法解决了传统模式处理策略中存在的两个主要问题:指令中模式查询数量不一致和指令中模式区分不足。通过引入硬负模式和批量指令生成策略,确保了训练和评估阶段模式查询数量的一致性,并提高了模式间的区分度。
特点
IEPile数据集的主要特点在于其大规模和高质量的信息抽取数据,涵盖了多个领域,包括通用、医疗和金融等。该数据集支持多语言(英语和中文),并采用了模式化批量指令生成方法,确保了指令中模式查询数量的一致性和模式间的区分度。此外,IEPile数据集还支持多种信息抽取任务,如命名实体识别(NER)、关系抽取(RE)、事件抽取(EE)等,为模型训练提供了丰富的数据资源。
使用方法
使用IEPile数据集进行模型训练时,用户需访问官方GitHub仓库获取详细的训练和推理指南。数据集中的每个实例包含四个字段:任务类型、数据来源、指令和输出。指令字段采用JSON字符串格式,包含任务描述、模式列表和输入文本。输出字段为字典格式的JSON字符串,键为模式,值为提取的内容。用户可以根据具体任务需求,选择合适的子集进行模型训练和评估。
背景与挑战
背景概述
IEPile数据集是由浙江大学自然语言处理实验室(ZJUNLP)的研究团队创建的一个大规模信息抽取语料库。该数据集的核心研究问题是如何通过模式驱动的批量指令生成方法,构建高质量的信息抽取数据集,以提升模型在零样本信息抽取任务中的表现。IEPile数据集的创建时间为2024年,主要研究人员包括Honghao Gui、Lin Yuan、Hongbin Ye、Ningyu Zhang等。该数据集整合了26个英文和7个中文信息抽取数据集,覆盖了通用、医疗、金融等多个领域,对信息抽取领域的研究具有重要影响。
当前挑战
IEPile数据集在构建过程中面临的主要挑战包括:1) 模式查询数量在训练和评估阶段的不一致性,可能导致模型性能下降;2) 指令中模式之间的区分度不足,可能导致大型语言模型(LLMs)的混淆。此外,该数据集主要关注模式驱动的信息抽取,限制了其在非模式化指令中的应用。同时,IEPile目前仅包含英文和中文数据,未来希望扩展到更多语言。从模型角度来看,由于计算资源限制,研究仅评估了Baichuan和LLaMA模型,未来可应用于更多大型语言模型。
常用场景
经典使用场景
IEPile数据集在信息抽取领域中被广泛应用于训练和评估模型,特别是在命名实体识别(NER)、关系抽取(RE)、事件抽取(EE)等任务中。通过提供大规模、高质量的标注数据,IEPile帮助研究人员和开发者训练出更精确的信息抽取模型,从而提升模型在实际应用中的表现。
实际应用
在实际应用中,IEPile数据集被用于训练和优化各种信息抽取模型,广泛应用于金融、医疗、法律等多个行业。例如,在金融领域,IEPile可以帮助自动提取和分析新闻中的关键信息,如公司名称、股票代码和交易事件,从而提高金融分析的效率和准确性。
衍生相关工作
基于IEPile数据集,研究者们开发了多种信息抽取模型,如Baichuan2-IEPile和LLaMA2-IEPile,这些模型在多个公开数据集上表现优异。此外,IEPile还启发了许多相关的研究工作,包括但不限于跨语言信息抽取、零样本学习和大规模预训练模型的微调,进一步推动了信息抽取技术的前沿研究。
以上内容由AI搜集并总结生成
相关数据集
未查询到数据集