CLiB
github2023-06-01 更新2025-02-07 收录
大型语言模型
中文能力评估
资源简介:
CLiB数据集是用于评估大型语言模型(LLMs)中文能力的评估基准。它对48种大型语言模型(无论是商业化的还是开源的)进行了多维度的评估,包括分类、信息抽取、阅读理解以及基于表格的问答。该数据集会定期发布新的评估排名,并提供模型的原始输出结果。
原始地址:
提供机构:
jeinlee1991
创建时间:
2023-06-01

CLiB中文大模型能力评测榜单

数据集概述

  • 模型覆盖:208个大模型,涵盖chatgpt、gpt-4o、谷歌gemini、Claude3.5、智谱GLM-Zero、文心一言等商用模型,以及DeepSeek-R1、llama3.3、phi-4等开源模型。
  • 评测维度:7大领域(医疗、教育、法律、行政公务、心理健康、推理与数学计算、语言与指令遵从),细分约300个维度(如牙科、高中语文等)。
  • 特色数据:提供超100万的大模型错题本,支持研究分析与改进。

核心内容

1. 综合能力排行榜

  • 评分标准:医疗、教育等7领域得分的平均值。
  • 子榜单
    • 推理类模型排行榜
    • 商用大模型排行榜(按输出价格分4档)
    • 开源大模型排行榜(按参数量分3档)

2. 领域专项排行榜

医疗领域

  • 医师考试:规培结业、执业助理医师、执业医师、中级职称、高级职称
  • 专业考试:护理、药师、医技
  • 医学知识:基础医学、临床医学、预防医学与公共卫生学、中医学与中药学
  • 医学考研

教育领域

  • 高考
  • 高中/初中/小学学科

其他领域

  • 法律(律师资格考试)
  • 行政公务(公务员考试)
  • 心理健康
  • 推理与数学计算(含符号推理、算术能力等)
  • 语言与指令遵从(含成语理解、情感分析等)

3. 模型基础信息

  • 字段:模型名称、厂商、是否开源、输入/输出价格、体验链接、下载地址、论文、错误案例
  • 示例模型
    • GLM-4-Flash(智谱AI,商用)
    • internlm2_5-7b-chat(上海人工智能实验室,开源)
    • Yi-1.5-9B-Chat(零一万物,开源)

数据更新

  • 最新版本:v3.11(2025/3/27)
    • 新增"医学考研"排行榜
    • 优化教育领域测试样本
  • 历史版本:自2023年6月起持续更新,详细记录见CHANGELOG.md

数据应用

  • 支持自定义维度筛选榜单
  • 提供模型错误案例分析(如gpt-4o、deepseek-chat-v3等旗舰模型)
  • 开源模型资源汇总及发布历史记录

注:所有排行榜及详细数据可通过原链接查看,此处仅作关键信息摘要。

数据集介绍
main_image_url
构建方式
CLiB中文大模型能力评测榜单的构建基于对164个大模型的全面评估,涵盖商用与开源模型。数据来源包括国内外大厂、创业公司及高校研究机构,确保数据的广泛性和代表性。评测维度涵盖分类能力、信息抽取、阅读理解等15项能力,通过多维度评分体系对模型进行综合评估。榜单的构建过程注重数据的公开透明,所有模型的原始输出结果均对外提供,便于用户自行验证与评估。
特点
CLiB数据集的特点在于其全面性和多样性。它不仅涵盖了广泛的模型类型,还通过多维度能力评测体系对模型进行细致评估。榜单不仅提供综合能力评分,还针对不同领域(如高考、公务员考试、律师资格考试等)进行专项排名,帮助用户更精准地了解模型在不同任务中的表现。此外,榜单还提供了模型的原始输出结果,便于用户进行二次分析与验证,增强了数据的可复用性和透明度。
使用方法
用户可以通过CLiB榜单快速了解各大模型在不同任务中的表现,并根据需求进行模型选型。榜单提供了详细的评分数据和原始输出结果,用户可以根据这些数据进行深入分析,评估模型在实际应用中的潜力。此外,用户还可以通过自定义维度筛选榜单,获取特定领域或任务下的模型排名,从而更高效地进行技术选型与决策。榜单的持续更新机制确保了数据的时效性,帮助用户及时掌握大模型领域的最新动态。
背景与挑战
背景概述
CLiB中文大模型能力评测榜单由多个研究机构和企业共同发起,旨在为中文大模型提供一个全面、公正的评测平台。该榜单自2023年6月首次发布以来,持续更新,涵盖了164个大模型,包括商用和开源模型。榜单的创建旨在解决大模型在中文处理能力上的多样化需求,特别是在分类能力、信息抽取、阅读理解、数据分析等多个维度上的表现。通过这一平台,研究人员和开发者能够更清晰地了解各模型的优缺点,推动中文大模型技术的发展。
当前挑战
CLiB榜单在构建过程中面临多重挑战。首先,中文大模型的多样性使得评测标准的制定变得复杂,如何确保评测的公正性和全面性是一个重要问题。其次,随着新模型的不断涌现,榜单需要频繁更新以保持其时效性和权威性,这对数据收集和处理的效率提出了高要求。此外,评测过程中如何准确衡量模型在不同任务上的表现,尤其是在涉及复杂推理和语义理解的任务中,仍然是一个技术难题。最后,如何平衡商用模型和开源模型的评测标准,确保榜单的广泛适用性,也是榜单维护者需要持续解决的问题。
常用场景
经典使用场景
CLiB数据集广泛应用于大模型的多维度能力评测,尤其是在中文语境下的模型性能评估。通过涵盖分类能力、信息抽取、阅读理解、数据分析等多项任务,CLiB为研究者和开发者提供了一个全面的基准测试平台。其经典使用场景包括模型在高考、公务员考试、律师资格考试等复杂任务中的表现评估,帮助用户深入理解模型在不同领域的实际能力。
衍生相关工作
CLiB数据集的推出催生了一系列相关研究工作,尤其是在大模型评测和优化领域。基于CLiB的评测结果,许多研究团队提出了针对特定任务的模型改进方案,如提升符号推理能力、优化中文编码效率等。此外,CLiB还推动了多维度评测标准的制定,促进了学术界和产业界在大模型评测方法上的共识。其公开的原始数据也为后续研究提供了丰富的实验基础,推动了中文大模型技术的持续发展。
数据集最近研究
最新研究方向
随着大模型技术的快速发展,CLiB中文大模型能力评测榜单在自然语言处理领域的研究中扮演着重要角色。该榜单不仅涵盖了164个大模型,还通过多维度能力评测,如分类能力、信息抽取、阅读理解等,全面评估模型的性能。近年来,研究热点集中在如何通过更细粒度的评测维度(如时间实体抽取、地址实体抽取等)进一步提升模型的实用性和准确性。此外,榜单还引入了高考、公务员考试等实际应用场景的评测,推动了大模型在教育、法律等领域的应用研究。CLiB榜单的持续更新和扩展,为大模型技术的优化和实际应用提供了重要参考,促进了学术界与产业界的深度合作。
以上内容由AI搜集并总结生成
相关数据集
未查询到数据集