PROVE

huggingface2024-10-24 更新2024-12-12 收录

视觉语言模型

模型评估

资源简介：

PROVE是一个用于评估视觉语言模型（VLM）对开放式查询响应的基准测试。它通过提供一个大型语言模型（LLM）与高保真场景图表示，生成多样化的问答对和可执行的程序来验证每个问答对，从而构建了一个包含10.5k个具有视觉基础的挑战性问答对的基准。数据集还介绍了如何使用PROVE进行模型评估，并提供了一个排行榜来展示不同模型在PROVE上的表现。

原始地址：

https://huggingface.co/datasets/Salesforce/PROVE

提供机构：

Salesforce

创建时间：

2024-10-18

PROVE 数据集概述

基本信息

许可证: Apache 2.0
语言: 英语
配置:
- 名称: default
- 数据文件:
  - 分割: test
  - 路径: prove.json

数据集描述

名称: Programmatic VLM Evaluation (PROVE)
目标: 评估视觉语言模型（VLM）对开放式查询的响应，量化响应中的幻觉效应。
构建方法: 使用大型语言模型（LLM）生成多样化的问答（QA）对，并通过场景图对象执行程序来验证每个QA对。
规模: 包含10.5k个具有视觉基础的挑战性QA对。

评估方法

策略: 基于场景图的程序化评估策略，测量响应的有用性和真实性。
模型评估: 评估多个VLM在PROVE上的有用性和真实性权衡。

快速开始

安装: bash conda create -n prove python=3.10 conda activate prove; pip3 install -r requirements.txt;
使用: bash python evaluate.py --vlm <vlm_name> --response_json <response_json_path> --scores_path <output_json_path>

排行榜

模型	hscore	tscore	average
Qwen2 (2b)	69.36	80.64	75.0
Intern-VL2 (2b)	73.96	79.51	76.74
Phi-3.5-vision (4B)	73.35	82.27	77.81
LLaVA-1.5 (7B)	72.67	82.58	77.62
llava-next (7b)	74.28	80.03	77.15
Intern-VL2 (8b)	74.55	80.56	77.56
pixtral (12b)	73.34	82.43	77.88
llava-1.5 (13b)	72.46	82.4	77.43
Intern-VL2 (26b)	74.63	79.23	76.93
claude3.5-sonnet	71.06	77.31	74.19
gpt-4o-mini	73.18	79.24	76.21
gemini-1.5-flash	72.73	81.74	77.23
gpt-4o	76.53	80.92	78.72

引用

@misc{prabhu2024prove, title={Trust but Verify: Programmatic VLM Evaluation in the Wild}, author={Viraj Prabhu and Senthil Purushwalkam and An Yan and Caiming Xiong and Ran Xu}, year={2024}, eprint={2410.13121}, archivePrefix={arXiv}, primaryClass={cs.CV}, url={https://arxiv.org/abs/2410.13121}, }

数据集介绍

构建方式

在视觉语言模型（VLMs）领域，生成看似合理但实际错误的响应是一个常见问题。为了量化这种幻觉效应，PROVE数据集通过提供高保真场景图表示，利用大语言模型（LLM）生成多样化的问答对（QA pairs），并设计可执行的程序来验证每个问答对的正确性。最终构建了一个包含10.5k个具有视觉基础的问答对的基准数据集。

使用方法

使用PROVE数据集进行VLMs评估时，首先需要生成对prove.json中问答对的响应，并将其保存为指定格式的JSON文件。随后，通过运行evaluate.py脚本，输入模型名称、响应文件路径和输出分数路径，即可获得模型在帮助性和真实性上的评分。这一流程使得研究者能够便捷地比较不同模型在PROVE基准上的表现。

背景与挑战

背景概述

在视觉-语言模型（VLMs）的研究领域，模型在生成对视觉查询的响应时，常常产生看似合理但实际错误的回答。为了量化这种幻觉效应，研究人员需要一种可靠的方法来验证每个响应中的声明。2024年，Salesforce AI Research的研究团队提出了PROVE（Programmatic VLM Evaluation）这一新的基准测试范式，旨在评估VLMs对开放式查询的响应。PROVE通过提供高保真场景图表示，并利用大语言模型（LLM）生成多样化的问答对及验证程序，构建了一个包含10.5k个具有挑战性但视觉上可验证的问答对的基准。该数据集不仅推动了VLMs在生成响应时的真实性和帮助性之间的平衡研究，还为相关领域的模型评估提供了新的方法论。

当前挑战

PROVE数据集在构建和应用过程中面临多重挑战。首先，视觉-语言模型在生成开放式查询响应时，往往难以避免幻觉现象，即生成看似合理但实际错误的内容。如何准确量化这种幻觉效应，是PROVE试图解决的核心问题。其次，在数据集的构建过程中，研究人员需要确保生成的问答对在视觉上具有可验证性，这要求对高保真场景图进行精细的标注和处理。此外，PROVE采用程序化评估策略，要求模型在统一的场景图框架下同时评估响应的帮助性和真实性，这对模型的综合能力提出了更高的要求。最后，尽管PROVE为VLMs的评估提供了新的基准，但如何在更广泛的场景中推广和应用这一方法，仍是一个亟待解决的问题。

常用场景

经典使用场景

PROVE数据集在视觉-语言模型（VLM）评估领域具有重要应用。该数据集通过构建高保真场景图，生成多样化的问答对，并利用程序化方法验证每个问答对的准确性。这一方法使得PROVE成为评估VLM在开放式查询中生成响应的有效工具，特别是在衡量模型生成内容的真实性和有用性方面。

解决学术问题

PROVE数据集解决了视觉-语言模型在生成开放式查询响应时常见的幻觉问题。通过程序化评估策略，PROVE能够量化模型生成内容的真实性和有用性，从而帮助研究者更好地理解模型的表现。这一方法为VLM的评估提供了新的范式，推动了该领域的研究进展。

实际应用

在实际应用中，PROVE数据集被广泛用于评估和改进视觉-语言模型的性能。通过该数据集，开发者可以测试模型在复杂视觉场景中的表现，优化模型生成内容的准确性和可靠性。此外，PROVE还为模型在自动驾驶、智能客服等领域的应用提供了重要的评估依据。

数据集最近研究