Chain-of-Thought Hub

github2023-05-01 更新2025-02-07 收录

链式思维

复杂推理

资源简介：

链式思维中心（Chain-of-Thought Hub）数据集整合了八个开源数据集，构建了一个涵盖复杂推理任务的全面资源库，这些任务涉及数学（GSM8K）、科学（MATH、TheoremQA）、符号（BBH）、知识（MMLU、C-Eval）、编码（HumanEval）以及事实（SummEdits）等领域。评估采用少样本链式思维（few-shot CoT）提示的方法。

原始地址：

https://github.com/FranxYao/chain-of-thought-hub

提供机构：

University of Edinburgh et al.

创建时间：

2023-05-01

Chain-of-Thought Hub 数据集概述

数据集简介

Chain-of-Thought Hub 是一个专注于评估大型语言模型（LLMs）在复杂推理任务上性能的数据集集合。该数据集由来自爱丁堡大学、华盛顿大学、艾伦人工智能研究所和滑铁卢大学的研究团队创建，旨在衡量模型在数学、科学、符号推理、知识、编码、事实推理和长上下文理解等领域的表现。

数据集分类

主要数据集（Main）

GSM8K：8K个小学水平数学问题
MATH：12K个竞赛级数学和科学问题
MMLU：15K个问题，涵盖57个学科的高中和大学知识
BBH：6.5K个问题，包含23个子集的符号和文本推理
HumanEval：164个手写Python编程问题
C-Eval：13K个中文多选题，涵盖52个学科知识

实验性数据集（Experimental）

TheoremQA：800个QA对，涵盖350+个数学、EE&CS、物理和金融定理
SummEdits：6.3K个事实一致性推理问题，涵盖10个领域

长上下文数据集（Long Context）

Qspr：研究论文上的问答
QALT：长篇文章和故事的多选题
BkSS：小说部分摘要的重新排序

数据集特点

专注于复杂推理任务，作为LLMs能力的关键区分指标
包含稳定且广泛使用的基准数据集（Main）
包含具有测试未来LLM能力潜力的实验性数据集
特别关注长上下文推理能力评估

评估方法

使用思维链（Chain-of-Thought）提示方法进行评估
主要评估指标为准确率
提供详细的评估脚本和运行说明

数据来源

GSM8K：https://arxiv.org/abs/2201.11903
MMLU：https://arxiv.org/abs/2210.11416
MATH：https://arxiv.org/abs/2206.14858
BBH：https://arxiv.org/abs/2210.09261
HumanEval：https://github.com/openai/human-eval
C-Eval：https://cevalbenchmark.com/
TheoremQA：https://github.com/wenhuchen/TheoremQA
SummEdits：https://github.com/salesforce/factualNLG

更新记录

2023年12月10日：添加Gemini、Yi-34B、DeepSeek 67B模型结果
2023年6月20日：分离主榜单和实验性榜单，添加长上下文部分
早期更新包括添加评估脚本、新数据集和模型

相关资源

论文：https://arxiv.org/abs/2305.17306
博客：https://yaofu.notion.site/Towards-Complex-Reasoning-the-Polaris-of-Large-Language-Models-c2b4a51355b44764975f88e6a42d4e75
Twitter讨论：https://twitter.com/Francis_YAO_/status/1663472109299937280

数据集介绍

构建方式

Chain-of-Thought Hub数据集的构建基于对复杂推理任务的精心挑选，涵盖了数学、科学、符号推理、知识、编码、事实推理及长上下文等多个领域。这些任务被分为主要、实验性和长上下文三类，旨在全面评估大型语言模型（LLMs）在复杂任务中的表现。数据集的构建过程注重任务的多样性和挑战性，确保能够有效区分不同模型的推理能力。

特点

Chain-of-Thought Hub数据集的特点在于其专注于复杂推理任务，这些任务能够显著区分不同模型的性能。数据集包含多个子集，如GSM8K、MATH、MMLU等，每个子集都针对特定的推理能力进行设计。此外，数据集还引入了长上下文任务，如Qspr和QALT，这些任务要求模型在极长的文本中进行推理，进一步挑战模型的极限。

使用方法

Chain-of-Thought Hub数据集的使用方法包括通过提供的脚本和API对模型进行评估。用户可以通过运行特定的Python脚本来测试模型在不同任务上的表现，如MMLU、GSM8K和BBH等。这些脚本支持多种模型，包括GPT-3.5、Claude和LLaMA等，用户可以根据需要选择不同的模型和任务进行测试。此外，数据集还提供了详细的文档和示例，帮助用户快速上手并进行有效的模型评估。

背景与挑战

背景概述

Chain-of-Thought Hub是由来自爱丁堡大学、华盛顿大学、艾伦人工智能研究所和滑铁卢大学的研究团队于2023年创建的一个专注于评估大型语言模型（LLMs）复杂推理能力的基准数据集。该数据集的核心研究问题在于如何准确衡量LLMs在处理复杂任务（如数学、科学、符号推理、知识问答、编程等）时的表现。通过精心挑选的多个子数据集（如GSM8K、MATH、MMLU等），Chain-of-Thought Hub旨在为LLMs的推理能力提供一个全面的评估框架。该数据集不仅推动了LLMs在复杂推理任务上的研究进展，还为未来的LLM应用生态系统奠定了基础。

当前挑战

Chain-of-Thought Hub面临的挑战主要体现在两个方面。首先，在领域问题方面，尽管LLMs在简单对话任务上表现出色，但在复杂推理任务（如数学证明、长文本理解等）上的表现仍有待提升。这些任务要求模型具备更高的逻辑推理能力和上下文理解能力，而当前的模型在这些方面仍存在显著差距。其次，在数据集构建过程中，研究人员需要确保所选任务的多样性和难度，以全面评估模型的推理能力。此外，如何在不同模型之间进行公平比较也是一个挑战，因为模型的训练数据、提示工程和评估方法可能存在差异，导致结果的可比性受到影响。

常用场景

经典使用场景

Chain-of-Thought Hub数据集广泛应用于评估大型语言模型（LLMs）在复杂推理任务中的表现。通过整合多个领域的复杂任务，如数学（GSM8K）、科学（MATH）、符号推理（BBH）、知识（MMLU）、编程（HumanEval）等，该数据集为研究人员提供了一个全面的基准，用于衡量模型在不同推理场景下的能力。

实际应用

在实际应用中，Chain-of-Thought Hub数据集被广泛用于开发和优化智能助手、教育工具、自动化编程系统等领域。例如，通过评估模型在GSM8K上的表现，可以优化教育类应用中的数学问题解答能力；而在HumanEval上的测试则有助于提升编程辅助工具的性能。这些应用直接推动了LLMs在现实场景中的落地。

衍生相关工作

Chain-of-Thought Hub数据集衍生了许多经典研究工作，如基于其评估框架的模型优化算法、新型推理任务的设计以及长上下文推理能力的探索。例如，研究者利用该数据集开发了更高效的提示工程技术，并提出了针对长上下文推理的新基准任务（如Qspr和QALT）。这些工作进一步拓展了LLMs的应用边界，推动了人工智能领域的前沿发展。

以上内容由AI搜集并总结生成