PromptCBLUE
arXiv2023-10-22 更新2024-08-06 收录
医学领域
语言模型评估
资源简介:
一个大规模的中文医学语言理解评估基准,适用于评估中文大型语言模型在多种医学任务上的多任务能力,包括医学实体识别、医学文本分类、医学自然语言推理、医学对话理解和医学内容/对话生成。
原始地址:
创建时间:
2023-10-22
数据集介绍
main_image_url
构建方式
PromptCBLUE数据集的构建基于CBLUE基准,旨在为中文医疗领域的大型语言模型(LLM)提供一个大规模的多任务提示调整基准。该数据集包括一系列生物医学任务,如医疗实体识别、医疗文本分类、医疗自然语言推理、医疗对话理解和医疗内容/对话生成。为了适应LLM的评估,所有传统的医疗自然语言处理任务都被重新定义为统一的提示-响应生成形式。数据集的构建过程涉及专家对提示模板的验证,并使用ChatGPT对模板进行改写。数据集的样本格式包括输入文本、目标响应、可能的答案选项、样本ID、任务类型和任务数据集名称。
特点
PromptCBLUE数据集的特点包括:(1)多任务能力评估:数据集涵盖了广泛的生物医学任务,为评估LLM在医疗领域的多任务处理能力提供了一个理想平台。(2)提示调整格式:所有任务都被转换为指令调整格式,方便LLM的评估。(3)数据质量保证:通过专家验证和随机抽样检查,确保了数据集的质量。(4)在线评估平台:数据集托管在一个在线平台上,方便进行测试评估和排行榜展示。
使用方法
PromptCBLUE数据集的使用方法包括:(1)数据集下载:用户可以从数据集发布的网站下载所需的训练、开发和测试数据集。(2)模型训练和评估:用户可以使用数据集进行模型训练和评估,以测试LLM在医疗领域的多任务处理能力。(3)在线评估平台:用户可以在在线平台上提交模型进行评估,并在排行榜上查看模型性能。
背景与挑战
背景概述
PromptCBLUE 数据集是针对医学领域的大型中文提示调整基准,它基于现有的中文生物医学语言理解评估 (CBLUE) 基准,旨在解决当前医学领域大型语言模型 (LLM) 评估的不足。PromptCBLUE 由华东师范大学、杭州核舟唐科技有限公司、哈尔滨工业大学深圳研究生院等机构的研究人员共同创建,旨在为中文 LLM 在医学领域的多任务能力提供一个合适的测试平台和在线评估平台。该数据集涵盖了广泛的生物医学任务,包括医疗实体识别、医疗文本分类、医疗自然语言推理、医疗对话理解和医疗内容/对话生成。研究人员通过实验和报告了目前 9 个经过不同微调技术的中文 LLM 的结果,以建立这些任务的评估标准。PromptCBLUE 数据集的发布为医学 LLM 研究提供了一个重要的测试床和在线平台,有助于推动医学领域 LLM 的发展。
当前挑战
PromptCBLUE 数据集面临的挑战包括:1) 解决领域问题:PromptCBLUE 旨在解决医学领域 LLM 评估的不足,包括当前基准的局限性(例如仅限于英语、侧重于知识探针而忽视实际应用、公开语料库可能泄露给 LLM 等)。2) 构建过程中的挑战:PromptCBLUE 的构建过程中,研究人员需要将传统的医学自然语言处理任务转换为统一的提示-响应生成形式,这需要大量的手动工作和专家验证。此外,PromptCBLUE 还需要收集大量的提示模板,并进行质量检查,以确保数据的质量。
常用场景
经典使用场景
PromptCBLUE数据集是一个针对中文医疗领域的大型提示调整基准测试数据集,用于评估大型语言模型(LLM)在广泛生物医学任务上的多任务能力。该数据集涵盖了包括医疗实体识别、医疗文本分类、医疗自然语言推理、医疗对话理解和医疗内容/对话生成在内的多种任务。PromptCBLUE通过将传统的医疗自然语言处理任务转化为统一的提示-响应生成形式,为中文LLM提供了良好的测试平台,以检验其在医疗领域的应用潜力。
解决学术问题
PromptCBLUE数据集解决了现有生物医学语言理解基准的几个关键问题。首先,它扩展了语言范围,从英语扩展到中文,使得在中文医疗领域复制英语的成功变得更加容易。其次,它不仅关注LLM的知识探测,还评估了LLM如何将这些知识应用于广泛的生物医学任务。最后,它确保了测试集的真实性,防止了数据泄露到LLM的预训练过程中,从而有效地评估LLM的泛化能力和指令跟随能力。
衍生相关工作
PromptCBLUE数据集的提出为中文生物医学自然语言处理领域的研究提供了新的方向。它不仅为中文LLM的发展提供了一个平台,还为研究LLM在医疗领域的多任务能力提供了基准。此外,PromptCBLUE的数据收集和评估方法也为其他领域的LLM研究提供了参考。例如,可以借鉴PromptCBLUE的方法来构建其他领域的多任务基准测试数据集,以评估LLM在不同场景下的应用能力。
以上内容由AI搜集并总结生成
相关数据集
未查询到数据集