Chain-of-Thought Hub
github2023-05-01 更新2025-02-07 收录
链式思维
复杂推理
资源简介:
链式思维中心(Chain-of-Thought Hub)数据集整合了八个开源数据集,构建了一个涵盖复杂推理任务的全面资源库,这些任务涉及数学(GSM8K)、科学(MATH、TheoremQA)、符号(BBH)、知识(MMLU、C-Eval)、编码(HumanEval)以及事实(SummEdits)等领域。评估采用少样本链式思维(few-shot CoT)提示的方法。
原始地址:
提供机构:
University of Edinburgh et al.
创建时间:
2023-05-01

Chain-of-Thought Hub 数据集概述

数据集简介

Chain-of-Thought Hub 是一个专注于评估大型语言模型(LLMs)在复杂推理任务上性能的数据集集合。该数据集由来自爱丁堡大学、华盛顿大学、艾伦人工智能研究所和滑铁卢大学的研究团队创建,旨在衡量模型在数学、科学、符号推理、知识、编码、事实推理和长上下文理解等领域的表现。

数据集分类

主要数据集(Main)

  • GSM8K:8K个小学水平数学问题
  • MATH:12K个竞赛级数学和科学问题
  • MMLU:15K个问题,涵盖57个学科的高中和大学知识
  • BBH:6.5K个问题,包含23个子集的符号和文本推理
  • HumanEval:164个手写Python编程问题
  • C-Eval:13K个中文多选题,涵盖52个学科知识

实验性数据集(Experimental)

  • TheoremQA:800个QA对,涵盖350+个数学、EE&CS、物理和金融定理
  • SummEdits:6.3K个事实一致性推理问题,涵盖10个领域

长上下文数据集(Long Context)

  • Qspr:研究论文上的问答
  • QALT:长篇文章和故事的多选题
  • BkSS:小说部分摘要的重新排序

数据集特点

  • 专注于复杂推理任务,作为LLMs能力的关键区分指标
  • 包含稳定且广泛使用的基准数据集(Main)
  • 包含具有测试未来LLM能力潜力的实验性数据集
  • 特别关注长上下文推理能力评估

评估方法

  • 使用思维链(Chain-of-Thought)提示方法进行评估
  • 主要评估指标为准确率
  • 提供详细的评估脚本和运行说明

数据来源

  • GSM8K:https://arxiv.org/abs/2201.11903
  • MMLU:https://arxiv.org/abs/2210.11416
  • MATH:https://arxiv.org/abs/2206.14858
  • BBH:https://arxiv.org/abs/2210.09261
  • HumanEval:https://github.com/openai/human-eval
  • C-Eval:https://cevalbenchmark.com/
  • TheoremQA:https://github.com/wenhuchen/TheoremQA
  • SummEdits:https://github.com/salesforce/factualNLG

更新记录

  • 2023年12月10日:添加Gemini、Yi-34B、DeepSeek 67B模型结果
  • 2023年6月20日:分离主榜单和实验性榜单,添加长上下文部分
  • 早期更新包括添加评估脚本、新数据集和模型

相关资源

  • 论文:https://arxiv.org/abs/2305.17306
  • 博客:https://yaofu.notion.site/Towards-Complex-Reasoning-the-Polaris-of-Large-Language-Models-c2b4a51355b44764975f88e6a42d4e75
  • Twitter讨论:https://twitter.com/Francis_YAO_/status/1663472109299937280
数据集介绍
main_image_url
构建方式
Chain-of-Thought Hub数据集的构建基于对复杂推理任务的精心挑选,涵盖了数学、科学、符号推理、知识、编码、事实推理及长上下文等多个领域。这些任务被分为主要、实验性和长上下文三类,旨在全面评估大型语言模型(LLMs)在复杂任务中的表现。数据集的构建过程注重任务的多样性和挑战性,确保能够有效区分不同模型的推理能力。
特点
Chain-of-Thought Hub数据集的特点在于其专注于复杂推理任务,这些任务能够显著区分不同模型的性能。数据集包含多个子集,如GSM8K、MATH、MMLU等,每个子集都针对特定的推理能力进行设计。此外,数据集还引入了长上下文任务,如Qspr和QALT,这些任务要求模型在极长的文本中进行推理,进一步挑战模型的极限。
使用方法
Chain-of-Thought Hub数据集的使用方法包括通过提供的脚本和API对模型进行评估。用户可以通过运行特定的Python脚本来测试模型在不同任务上的表现,如MMLU、GSM8K和BBH等。这些脚本支持多种模型,包括GPT-3.5、Claude和LLaMA等,用户可以根据需要选择不同的模型和任务进行测试。此外,数据集还提供了详细的文档和示例,帮助用户快速上手并进行有效的模型评估。
背景与挑战
背景概述
Chain-of-Thought Hub是由来自爱丁堡大学、华盛顿大学、艾伦人工智能研究所和滑铁卢大学的研究团队于2023年创建的一个专注于评估大型语言模型(LLMs)复杂推理能力的基准数据集。该数据集的核心研究问题在于如何准确衡量LLMs在处理复杂任务(如数学、科学、符号推理、知识问答、编程等)时的表现。通过精心挑选的多个子数据集(如GSM8K、MATH、MMLU等),Chain-of-Thought Hub旨在为LLMs的推理能力提供一个全面的评估框架。该数据集不仅推动了LLMs在复杂推理任务上的研究进展,还为未来的LLM应用生态系统奠定了基础。
当前挑战
Chain-of-Thought Hub面临的挑战主要体现在两个方面。首先,在领域问题方面,尽管LLMs在简单对话任务上表现出色,但在复杂推理任务(如数学证明、长文本理解等)上的表现仍有待提升。这些任务要求模型具备更高的逻辑推理能力和上下文理解能力,而当前的模型在这些方面仍存在显著差距。其次,在数据集构建过程中,研究人员需要确保所选任务的多样性和难度,以全面评估模型的推理能力。此外,如何在不同模型之间进行公平比较也是一个挑战,因为模型的训练数据、提示工程和评估方法可能存在差异,导致结果的可比性受到影响。
常用场景
经典使用场景
Chain-of-Thought Hub数据集广泛应用于评估大型语言模型(LLMs)在复杂推理任务中的表现。通过整合多个领域的复杂任务,如数学(GSM8K)、科学(MATH)、符号推理(BBH)、知识(MMLU)、编程(HumanEval)等,该数据集为研究人员提供了一个全面的基准,用于衡量模型在不同推理场景下的能力。
实际应用
在实际应用中,Chain-of-Thought Hub数据集被广泛用于开发和优化智能助手、教育工具、自动化编程系统等领域。例如,通过评估模型在GSM8K上的表现,可以优化教育类应用中的数学问题解答能力;而在HumanEval上的测试则有助于提升编程辅助工具的性能。这些应用直接推动了LLMs在现实场景中的落地。
衍生相关工作
Chain-of-Thought Hub数据集衍生了许多经典研究工作,如基于其评估框架的模型优化算法、新型推理任务的设计以及长上下文推理能力的探索。例如,研究者利用该数据集开发了更高效的提示工程技术,并提出了针对长上下文推理的新基准任务(如Qspr和QALT)。这些工作进一步拓展了LLMs的应用边界,推动了人工智能领域的前沿发展。
以上内容由AI搜集并总结生成
相关数据集
未查询到数据集