FineFake

arXiv2024-04-28 更新2024-06-24 收录

假新闻检测

多模态分析

资源简介：

FineFake是一个包含16,909个数据样本的多领域知识增强基准，涵盖六个语义主题和八个平台。每个新闻项目都丰富了多模态内容、潜在的社会背景、半手动验证的常识和细粒度注释，超越了传统的二元标签。

原始地址：

https://github.com/Accuser907/FineFake

创建时间：

2024-03-30

FineFake 数据集概述

数据集介绍

FineFake 数据集用于 FineFake : A Knowledge-Enriched Dataset for Fine-Grained Multi-Domain Fake News Detection 研究。该数据集包含文本数据、元数据、图像数据和知识数据。

数据集结构

数据集分为六个主题和八个平台：

主题：政治、娱乐、商业、健康、社会、冲突
平台：Snopes、Twitter、Reddit、CNN、Apnews、Cdc.gov、Nytimes、Washingtonpos

数据文件格式

数据以 pickle 文件形式存储，可以通过以下代码打开： python pip install pickle pip install pandas import pickle as pkl import pandas as pd with open(file_name,"rb") as f: data_df = pkl.load(f) # data_df 是 DataFrame 格式

数据列说明

pickle 文件包含 13 列，每列及其含义如下：

列名	含义
text	新闻正文
image_path	图片路径（相对路径）
entity_id	文本实体的维基ID
topic	六个主题之一
label	标签
fine-grained label	细粒度标签
knowledge_embedding	知识嵌入
description	文本实体描述
relation	关系
platform	新闻来源
author	作者
date	新闻发布日期
comment	评论

标签说明

二元标签："0" 表示假新闻，"1" 表示真新闻。
细粒度标签及其含义：

标签含义

0 真新闻

1 文本-图像不一致

2 内容-知识不一致

3 基于文本的假新闻

4 基于图像的假新闻

5 其他

标签	含义
0	真新闻
1	文本-图像不一致
2	内容-知识不一致
3	基于文本的假新闻
4	基于图像的假新闻
5	其他

数据集介绍

构建方式

FineFake数据集的构建方式体现了对多领域假新闻检测的深刻理解与创新实践。该数据集通过整合来自六个语义主题和八个平台的16,909个数据样本，实现了对真实场景中新闻多样性的全面捕捉。每个新闻条目不仅包含多模态内容，还融入了潜在的社会背景、半手动验证的常识知识以及超越传统二元标签的细粒度注释。这种构建方式确保了数据集在内容和结构上的丰富性与准确性，为后续的假新闻检测研究提供了坚实的基础。

特点

FineFake数据集的显著特点在于其多领域知识增强和细粒度注释的独特结合。该数据集不仅涵盖了广泛的新闻主题和平台，还通过引入外部知识图谱和细粒度分类标签，显著提升了数据集的深度和广度。这种设计使得FineFake能够更精确地揭示假新闻的制造策略和内在原因，从而为模型训练和评估提供了更为丰富的信息支持。此外，数据集的公开性和开源性也为全球研究者提供了共享和协作的平台。

使用方法

FineFake数据集的使用方法灵活多样，适用于多种假新闻检测任务。研究者可以利用该数据集进行二元分类、细粒度分类以及多领域适应性任务的训练和评估。具体而言，数据集支持基于文本、图像和外部知识的多模态特征提取，并提供了详细的注释信息以辅助模型理解新闻的真实性和虚假性。通过这些丰富的数据和注释，研究者可以开发和验证更为复杂和精确的假新闻检测模型，从而推动该领域的技术进步。

背景与挑战

背景概述

在当今数字化社会中，社交媒体已成为获取新闻的主要渠道，同时也成为虚假信息传播的温床。为了应对这一挑战，虚假新闻检测成为一个重要的研究领域。FineFake数据集由北京航空航天大学和北京邮电大学的研究团队于2018年创建，旨在通过多领域知识增强和细粒度标注，提供一个全面的虚假新闻检测基准。该数据集包含了16,909个样本，涵盖六个语义主题和八个平台，每个新闻条目都丰富了多模态内容、潜在社交上下文、半手动验证的常识知识以及超越传统二元标签的细粒度标注。FineFake的提出填补了现有基准数据集在多领域新闻多样性捕捉上的不足，为未来的研究提供了准确和可靠的基准。

当前挑战

FineFake数据集在构建过程中面临多个挑战。首先，多领域新闻的多样性使得数据收集和标注变得复杂，需要跨平台和跨主题的全面覆盖。其次，虚假新闻检测的领域问题，如语义主题间的词汇分布差异和平台间虚假新闻比例的不平衡，引入了经典的协变量偏移和标签偏移问题。此外，现有数据集在关联知识或证据的准确性上存在不足，可能导致噪声信息的引入。FineFake通过引入外部知识图谱和细粒度标注策略，试图解决这些挑战，但其复杂性和多模态数据的处理仍需进一步研究和优化。

常用场景

经典使用场景

FineFake数据集在细粒度多领域假新闻检测中展现了其经典应用场景。该数据集通过整合多模态内容、潜在社交背景、半手动验证的常识知识以及细粒度标注，超越了传统的二元标签，为模型提供了丰富的上下文信息。这些特性使得FineFake在处理跨平台和跨主题的假新闻检测任务中表现出色，特别是在需要精确证据和揭示多样化伪造策略的场景中。

衍生相关工作

基于FineFake数据集，研究者们开发了多种知识增强的假新闻检测模型，如KEAN（Knowledge-Enhanced Domain Adaptation Network）。这些模型利用数据集中的外部知识图谱和细粒度标注，显著提升了假新闻检测的准确性和鲁棒性。此外，FineFake还激发了多模态信息融合和跨领域适应性研究，推动了假新闻检测技术的进一步创新和发展。

数据集最近研究