zjunlp/iepile_数据集

zjunlp/iepile

hugging_face2024-04-11 更新2024-05-25 收录

信息抽取

大规模语料库

资源简介：

IEPile是一个大规模的信息抽取语料库，专注于基于模式的信息抽取任务。该数据集整合了26个英文和7个中文的信息抽取数据集，涵盖了通用、医疗、金融等多个领域。通过提出的“基于模式的批量指令生成方法”，构建了一个包含约0.32B个标记的高质量信息抽取微调数据集。数据集用于微调Baichuan2和LLaMA2模型，实验表明微调后的模型在全监督训练集上表现优异，并在零样本信息抽取任务中取得了显著提升。数据格式包括任务、来源、指令和输出四个字段，指令采用JSON字符串格式。

原始地址：

https://hf-mirror.com/datasets/zjunlp/iepile

提供机构：

zjunlp

数据集概述

数据集名称

IEPile: A Large-Scale Information Extraction Corpus

数据集描述

IEPile是一个大规模的信息提取数据集，专注于基于schema的指令生成方法。该数据集整合了26个英文和7个中文信息提取（IE）数据集，覆盖多个领域，如通用、医疗、金融等。

数据集内容

语言: 英文（en）和中文（zh）
任务类别: 文本到文本生成（text2text-generation）
数据格式: 每个实例包含四个字段：task, source, instruction, output。其中instruction采用JSON-like字符串结构，包含instruction, schema, input三个主要组件。
数据集结构: 包含训练集（train.json）、验证集（dev.json）以及针对英文和中文的统一格式数据（IE-en, IE-zh）。

数据集使用

模型训练: 基于IEPile，使用Lora技术对Baichuan2-13B-Chat和LLaMA2-13B-Chat模型进行微调，显著提升了零样本信息提取任务的性能。
数据集更新: 数据集可能会进行更新，建议使用最新版本。

许可证

数据集遵循CC BY-NC-SA 4.0许可协议。

数据集限制

主要关注schema-based IE，未探索Open IE。
目前仅包含英文和中文数据，未来计划扩展到更多语言。
由于计算资源限制，仅评估了Baichuan和LLaMA模型。

引用信息

若使用IEPile或相关代码，请引用以下文献：

@article{DBLP:journals/corr/abs-2402.14710, author = {Honghao Gui and Lin Yuan and Hongbin Ye and Ningyu Zhang and Mengshu Sun and Lei Liang and Huajun Chen}, title = {IEPile: Unearthing Large-Scale Schema-Based Information Extraction Corpus}, journal = {CoRR}, volume = {abs/2402.14710}, year = {2024}, url = {https://doi.org/10.48550/arXiv.2402.14710}, doi = {10.48550/ARXIV.2402.14710}, eprinttype = {arXiv}, eprint = {2402.14710}, timestamp = {Tue, 09 Apr 2024 07:32:43 +0200}, biburl = {https://dblp.org/rec/journals/corr/abs-2402-14710.bib}, bibsource = {dblp computer science bibliography, https://dblp.org} }

数据集介绍

构建方式

IEPile数据集的构建过程着重于指令型信息抽取，因此指令中的模式构建至关重要。该数据集通过整合26个英文信息抽取数据集和7个中文信息抽取数据集，采用‘模式化批量指令生成方法’，成功构建了一个大规模、高质量的信息抽取微调数据集，包含约0.32亿个标记。此方法解决了传统模式处理策略中存在的两个主要问题：指令中模式查询数量不一致和指令中模式区分不足。通过引入硬负模式和批量指令生成策略，确保了训练和评估阶段模式查询数量的一致性，并提高了模式间的区分度。

特点

IEPile数据集的主要特点在于其大规模和高质量的信息抽取数据，涵盖了多个领域，包括通用、医疗和金融等。该数据集支持多语言（英语和中文），并采用了模式化批量指令生成方法，确保了指令中模式查询数量的一致性和模式间的区分度。此外，IEPile数据集还支持多种信息抽取任务，如命名实体识别（NER）、关系抽取（RE）、事件抽取（EE）等，为模型训练提供了丰富的数据资源。

使用方法

使用IEPile数据集进行模型训练时，用户需访问官方GitHub仓库获取详细的训练和推理指南。数据集中的每个实例包含四个字段：任务类型、数据来源、指令和输出。指令字段采用JSON字符串格式，包含任务描述、模式列表和输入文本。输出字段为字典格式的JSON字符串，键为模式，值为提取的内容。用户可以根据具体任务需求，选择合适的子集进行模型训练和评估。

背景与挑战

背景概述

IEPile数据集是由浙江大学自然语言处理实验室（ZJUNLP）的研究团队创建的一个大规模信息抽取语料库。该数据集的核心研究问题是如何通过模式驱动的批量指令生成方法，构建高质量的信息抽取数据集，以提升模型在零样本信息抽取任务中的表现。IEPile数据集的创建时间为2024年，主要研究人员包括Honghao Gui、Lin Yuan、Hongbin Ye、Ningyu Zhang等。该数据集整合了26个英文和7个中文信息抽取数据集，覆盖了通用、医疗、金融等多个领域，对信息抽取领域的研究具有重要影响。

当前挑战

IEPile数据集在构建过程中面临的主要挑战包括：1) 模式查询数量在训练和评估阶段的不一致性，可能导致模型性能下降；2) 指令中模式之间的区分度不足，可能导致大型语言模型（LLMs）的混淆。此外，该数据集主要关注模式驱动的信息抽取，限制了其在非模式化指令中的应用。同时，IEPile目前仅包含英文和中文数据，未来希望扩展到更多语言。从模型角度来看，由于计算资源限制，研究仅评估了Baichuan和LLaMA模型，未来可应用于更多大型语言模型。

常用场景

经典使用场景

IEPile数据集在信息抽取领域中被广泛应用于训练和评估模型，特别是在命名实体识别（NER）、关系抽取（RE）、事件抽取（EE）等任务中。通过提供大规模、高质量的标注数据，IEPile帮助研究人员和开发者训练出更精确的信息抽取模型，从而提升模型在实际应用中的表现。

实际应用

在实际应用中，IEPile数据集被用于训练和优化各种信息抽取模型，广泛应用于金融、医疗、法律等多个行业。例如，在金融领域，IEPile可以帮助自动提取和分析新闻中的关键信息，如公司名称、股票代码和交易事件，从而提高金融分析的效率和准确性。

衍生相关工作

基于IEPile数据集，研究者们开发了多种信息抽取模型，如Baichuan2-IEPile和LLaMA2-IEPile，这些模型在多个公开数据集上表现优异。此外，IEPile还启发了许多相关的研究工作，包括但不限于跨语言信息抽取、零样本学习和大规模预训练模型的微调，进一步推动了信息抽取技术的前沿研究。

以上内容由AI搜集并总结生成