High-Quality Hallucination Benchmark (HQH)

arXiv2024-06-25 更新2024-06-27 收录

视觉-语言模型

模型评估

资源简介：

High-Quality Hallucination Benchmark (HQH) 是由中国科学院计算技术研究所开发的一个高质量数据集，专注于评估大型视觉-语言模型中的幻觉问题。该数据集通过收集来自Visual Genome的图像，并设计了涵盖多种幻觉类型的图像-指令对，包括属性、动作、计数、环境等。创建过程中，通过计算测试-重测可靠性和平行形式可靠性来确保数据集的可靠性。HQH数据集的应用领域主要集中在深度分析现有模型中的幻觉问题，旨在提高模型在多模态任务中的准确性和可靠性。

原始地址：

https://github.com/HQHBench/HQHBench

提供机构：

中国科学院计算技术研究所

创建时间：

2024-06-25

数据集概述

数据集名称

HQH Benchmark

数据集描述

HQH 是一个高质量的幻觉基准测试数据集，专为大型视觉-语言模型（LVLMs）设计。该数据集基于 Visual Genome 数据集构建，旨在评估 LVLMs 在不同类型的幻觉问题上的表现，并突出其不足之处。数据集包含 1600 个自由形式的视觉问答（VQA）图像-指令对，每种幻觉类型有 200 对。

数据结构

数据集文件 HQH.json 的格式如下：

python [ {"id": 1, "image_id": 150494, "image": "./images/150494.jpg", "instruction": "What is the man in a suit doing?", "ground_truth": "Giving a speech.", "type": "action"}, ... ]

其中：

id：数据在 HQH 中的标识符。
image_id：图像在 Visual Genome 中的标识符。
image：图像路径。
instruction：指令。
ground_truth：标准答案。
type：幻觉类型。

数据下载

图像可以从此链接下载。图像注释保存在 image_data.json 文件中。

评估方法

使用 GPT-3.5 计算幻觉率作为评估指标。评估代码在 evaluate.py 中提供，运行方式如下：

python python evaluate.py --ans_file path/to/your/answer/file --openai_key your/openai/api/key --num model/num/for/evaluation

LVLMs 的答案应组织在一个 JSON 文件中，格式如下：

python [ {"id": 1, "image_id": 150494, "image": "./images/150494.jpg", "instruction": "What is the man in a suit doing?", "ground_truth": "Giving a speech.", "type": "action", "answers": ["The man in the suit is giving a speech to a group of soldiers.",...]}, ... ]

即在 HQH.json 的每个实例中添加一个 "answers" 字段。

数据集介绍

构建方式

HQH数据集的构建基于对现有幻觉基准质量评估的结果。首先，从Visual Genome数据集中收集图像，并设计包含多种幻觉类型的图像-指令对。为确保基准的可靠性，计算每对图像-指令的再测信度和平行形式信度，并筛选出高可靠性样本。最终，HQH包含1600对图像-指令，涵盖属性、动作、计数、环境、（空间）关系、比较、OCR和存在等8种幻觉类型。

特点

HQH数据集的特点在于其高可靠性和有效性。该数据集基于开放任务构建，避免了封闭任务中存在的响应偏差问题。此外，HQH的评估指标采用了简化的过程，即模型只需判断响应是否为幻觉，从而最小化LLM和人类评估者之间的评估能力差距，提高了基准的有效性。

使用方法

HQH数据集的使用方法如下：首先，下载数据集和评估代码。然后，将数据集加载到模型中，并使用评估代码对模型进行评估。评估结果将以幻觉率为指标，展示模型在不同幻觉类型上的表现。用户可以根据评估结果分析模型的幻觉问题，并针对性地进行改进。

背景与挑战

背景概述

近年来，大型视觉语言模型（LVLMs）在人工智能领域取得了显著的进展，然而，这些模型在生成与视觉输入不一致的文本内容时，往往会遭受幻觉问题的困扰。为了评估LVLMs中的幻觉程度，先前的工作提出了一系列具有不同类型任务和评估指标的基准。然而，我们发现在现有的幻觉基准中，其质量参差不齐，其中一些基准在重复测试中表现出不一致的评估结果，并且与人类评估存在偏差。为了解决这些问题，我们提出了一种名为Hallucination benchmark Quality Measurement（HQM）的框架，利用各种指标来评估现有幻觉基准的可靠性和有效性。在此基础上，我们构建了一个名为High-Quality Hallucination Benchmark（HQH）的高质量幻觉基准，用于评估LVLMs的性能。HQH在可靠性、有效性和覆盖幻觉类型方面进行了全面的评估，为LVLMs的研究提供了有价值的参考。

当前挑战

HQH数据集的构建过程中，我们面临着一些挑战。首先，如何确保基准的可靠性是一个关键问题。由于LVLMs容易受到任务设置引入的响应偏差的影响，例如，在是/否问题中，模型倾向于回答“是”或“否”，在多项选择题中，模型倾向于选择特定选项。因此，我们需要在构建基准时避免这些偏差，以确保评估结果的稳定性。其次，如何确保基准的有效性也是一个挑战。由于LVLMs的评估与人类评估存在一定的差距，我们需要找到一个既能准确反映模型性能，又能与人类评估相一致的评估指标。此外，如何全面覆盖不同类型的幻觉也是一个挑战。我们需要确保基准能够涵盖各种类型的幻觉，以便更全面地评估LVLMs的性能。最后，如何利用HQH数据集来推动LVLMs的研究也是一个挑战。我们需要设计合适的实验和分析方法，以深入挖掘数据集的价值，并推动LVLMs的进一步发展。

常用场景

经典使用场景

在大型视觉语言模型（LVLMs）的评估中，HQH数据集被广泛应用于检测和量化模型生成的文本内容与视觉输入之间的不一致性，即幻觉现象。通过该数据集，研究者可以深入分析不同类型的幻觉，如属性、动作、计数、环境、关系、比较、OCR和存在性幻觉，从而全面评估LVLMs的性能和可靠性。

实际应用

在实际应用中，HQH数据集被用于评估和改进LVLMs的性能，帮助开发人员识别和减少模型在生成文本内容时可能出现的幻觉现象。通过使用HQH数据集，可以更准确地评估LVLMs在不同场景下的表现，从而提高模型的可靠性和实用性。

衍生相关工作

HQH数据集的提出和研究，推动了LVLMs幻觉问题的进一步探索，为相关领域的研究提供了新的思路和方法。基于HQH数据集的研究成果，衍生出了许多相关的经典工作，如基于心理测量学的AI评估框架、幻觉类型的全面覆盖和开放式评估方法的探索等，为LVLMs的研究和应用提供了重要的理论和技术支持。

以上内容由AI搜集并总结生成