moss-003-sft-plugin-data

github2024-07-16 更新2025-01-17 收录

多轮对话

插件增强

资源简介：

moss-moon-003-sft-plugin所使用的插件增强的多轮对话数据，包含支持搜索引擎、文生图、计算器、解方程等四个插件在内的约30万条多轮对话数据。已开源所有数据。

原始地址：

https://github.com/OpenMOSS/MOSS

提供机构：

复旦大学

创建时间：

2024-07-16

MOSS 数据集概述

数据集简介

MOSS 是一个支持中英双语和多种插件的开源对话语言模型，具有160亿参数。该模型在约七千亿中英文以及代码单词上预训练得到，后续经过对话指令微调、插件增强学习和人类偏好训练，具备多轮对话能力及使用多种插件的能力。

数据集内容

模型

moss-moon-003-base: 基座模型，预训练语料包含约700B单词。
moss-moon-003-sft: 基座模型在约110万多轮对话数据上微调得到。
moss-moon-003-sft-plugin: 基座模型在约110万多轮对话数据和约30万插件增强的多轮对话数据上微调得到。
moss-moon-003-sft-int4: 4bit量化版本的moss-moon-003-sft模型。
moss-moon-003-sft-int8: 8bit量化版本的moss-moon-003-sft模型。
moss-moon-003-sft-plugin-int4: 4bit量化版本的moss-moon-003-sft-plugin模型。
moss-moon-003-sft-plugin-int8: 8bit量化版本的moss-moon-003-sft-plugin模型。
moss-moon-003-pm: 偏好模型，将在近期开源。
moss-moon-003: 最终模型，将在近期开源。
moss-moon-003-plugin: 插件增强的最终模型，将在近期开源。

数据

moss-002-sft-data: MOSS-002所使用的多轮对话数据，包含约57万条英文对话和59万条中文对话。
moss-003-sft-data: moss-moon-003-sft所使用的多轮对话数据，约含110万条对话数据。
moss-003-sft-plugin-data: moss-moon-003-sft-plugin所使用的插件增强的多轮对话数据，包含约30万条多轮对话数据。
moss-003-pm-data: 偏好数据，将在近期开源。

工程方案

MOSS Vortex: MOSS部署和推理方案。
MOSS WebSearchTool: MOSS搜索引擎插件部署方案。
MOSS Frontend: 基于flutter实现的MOSS-003前端界面。
MOSS Backend: 基于Go实现的MOSS-003后端。

数据集特点

多语言支持: 支持中英双语。
插件支持: 支持使用搜索引擎、文生图、计算器、解方程等插件。
量化模型: 提供4bit和8bit量化版本，降低推理成本。

数据集局限性

事实性错误: 可能生成包含事实性错误的误导性回复。
有害内容: 可能生成包含偏见/歧视的有害内容。

数据集使用示例

单卡部署: 适用于A100/A800显卡。
多卡部署: 适用于两张或以上NVIDIA 3090显卡。
模型量化: 在显存受限的场景下使用量化模型。
插件增强: 使用插件版MOSS进行多轮对话。

数据集开源协议

代码协议: Apache 2.0。
数据协议: CC BY-NC 4.0。
模型协议: GNU AGPL 3.0。

数据集未来计划

模型开源: 计划开源moss-moon-003-pm、moss-moon-003和moss-moon-003-plugin模型。
数据开源: 计划开源moss-003-pm-data数据。

数据集介绍

构建方式

moss-003-sft-plugin-data数据集构建于MOSS-002内测阶段采集的用户输入数据基础上，结合`gpt-3.5-turbo`模型生成的多轮对话数据，进一步扩展了插件增强的多轮对话内容。该数据集包含了约30万条支持搜索引擎、文生图、计算器、解方程等四种插件的多轮对话数据，旨在提升模型在复杂任务中的表现。

使用方法

使用moss-003-sft-plugin-data数据集时，研究人员可以通过加载数据集并调用相应的插件接口来模拟多轮对话场景。数据集的使用方法包括加载对话数据、调用插件接口并生成插件调用结果，最后将结果反馈给模型以生成完整的对话回复。通过这种方式，研究人员可以评估模型在复杂任务中的表现，并进一步优化模型的插件使用能力。

背景与挑战

背景概述

MOSS-003-SFT-Plugin-Data数据集由复旦大学自然语言处理实验室（OpenLMLab）开发，旨在支持多轮对话语言模型的插件增强学习。该数据集构建于2023年，主要基于MOSS-002内测阶段采集的用户输入数据，并结合GPT-3.5-turbo生成的多轮对话数据。数据集包含约30万条插件增强的多轮对话数据，涵盖搜索引擎、文生图、计算器、解方程等四种插件功能。该数据集的发布推动了对话模型在插件使用和意图理解能力上的进步，为多模态交互和任务导向型对话系统的研究提供了重要支持。

当前挑战

MOSS-003-SFT-Plugin-Data数据集在构建和应用中面临多重挑战。首先，插件增强的多轮对话数据需要精确标注插件调用指令和结果，这对数据质量和一致性提出了极高要求。其次，模型在生成插件调用指令时需具备强大的意图理解能力，以避免生成错误或冗余的指令。此外，数据集的多样性和覆盖范围仍需扩展，以应对更复杂的用户场景和插件功能。最后，如何在保证模型高效推理的同时，降低插件调用带来的计算开销，也是实际应用中的一大难题。

常用场景

经典使用场景

moss-003-sft-plugin-data数据集广泛应用于自然语言处理领域，特别是在多轮对话系统的开发与优化中。该数据集通过包含约30万条插件增强的多轮对话数据，支持搜索引擎、文生图、计算器、解方程等四种插件的使用，能够有效提升对话模型的意图理解能力和插件调用能力。研究人员可以利用该数据集进行模型微调，进一步提升对话系统的实用性和智能化水平。

解决学术问题

moss-003-sft-plugin-data数据集解决了多轮对话系统中插件调用与意图理解的难题。通过提供丰富的插件增强对话数据，该数据集帮助研究人员更好地训练模型，使其能够准确识别用户意图并调用相应的插件完成任务。这不仅提升了对话系统的功能性，还为多模态交互和复杂任务处理提供了新的研究方向，推动了自然语言处理领域的技术进步。

实际应用

在实际应用中，moss-003-sft-plugin-data数据集被广泛用于智能客服、虚拟助手和教育工具的开发。通过该数据集训练的模型能够处理复杂的用户请求，例如通过搜索引擎获取实时信息、使用计算器进行数学运算或生成图像。这些功能显著提升了用户体验，使得智能助手能够更好地满足用户的多样化需求，广泛应用于电商、教育、娱乐等多个行业。

数据集最近研究