资源简介:
AUTOBENCH-V是由阿卜杜拉国王科技大学等机构创建的一个自动化视觉语言模型评估框架。该数据集旨在通过生成相关的图像样本和视觉问答任务,灵活高效地评估大型视觉语言模型(LVLMs)的特定能力。数据集包含多个难度级别的图像描述和问答任务,涵盖了基础理解、空间理解、语义理解、推理能力和大气理解等多个维度。通过该数据集,研究者可以全面评估LVLMs在不同视觉任务中的表现,揭示其在抽象理解和细节推理方面的优势与不足,为未来的研究提供重要参考。
原始地址:
https://autobench-v.github.io/