Chain-of-Thought Hub 是一个专注于评估大型语言模型(LLMs)在复杂推理任务上性能的数据集集合。该数据集由来自爱丁堡大学、华盛顿大学、艾伦人工智能研究所和滑铁卢大学的研究团队创建,旨在衡量模型在数学、科学、符号推理、知识、编码、事实推理和长上下文理解等领域的表现。