SensorBench

arXiv2024-10-15 更新2024-10-16 收录

传感器数据处理

大型语言模型评估

资源简介：

SensorBench是由加州大学洛杉矶分校的研究团队创建的一个综合性基准数据集，旨在评估大型语言模型（LLMs）在基于编码的传感器数据处理中的性能。该数据集包含多种真实世界的传感器数据集，涵盖了从预处理到特征提取等多个任务。数据集的创建过程结合了MATLAB教程和已有的数字信号处理（DSP）教材，确保了任务的实际应用性和学术验证性。SensorBench的应用领域广泛，包括工程、医疗和工业环境中的传感器数据处理，旨在解决LLMs在复杂传感器数据处理任务中的性能评估问题。

原始地址：

https://github.com/nesl/LLM_sensor_processing

提供机构：

加州大学洛杉矶分校

创建时间：

2024-10-15

SensorBench: Benchmarking LLMs in Coding-Based Sensor Processing

数据集概述

SensorBench 是一个用于评估大型语言模型（LLMs）在基于编码的传感器处理任务中的性能的基准数据集。该数据集旨在通过提供多种传感器数据处理问题，测试和比较不同模型的表现。

数据集组成

传感器数据类型：包括心电图（ECG）、步态（gait）、光电容积图（PPG）、语音（speech）等多种类型的传感器数据。
处理问题类型：涵盖去噪、外推、高斯噪声、心率检测、插值、运动噪声、电源线噪声、步态延迟检测、步态周期检测、重采样、回声、Siren噪声、电话铃声等多种信号处理问题。

数据集下载

基准数据集：可以从这里下载并解压到主文件夹。
完整基准数据集（可选）：可以从这里访问。

使用方法

环境设置

安装依赖包： bash pip install -r requirements.txt
使用Docker（可选）：
- 构建Docker镜像： bash docker build -t my-python-app .
- 构建Docker容器： bash docker run -p 4000:80 -v ./:/usr/src/myapp --name my-container my-python-app /bin/bash
- 启动容器： bash docker start my-container
- 在容器中执行代码： bash docker exec -it my-container /bin/bash
  
  或 bash docker exec -it my-container2 python cli.py --mode api --query ecg_data-powerline_2 --openai gpt-4 --index 1 --num_trial 1

设置API密钥

OpenAI密钥：将OpenAI密钥放入key.txt文件中。 bash echo "YOUR_OPENAI_TOKEN" >> key.txt
together.ai密钥（可选）：将together.ai密钥放入together_key.txt文件中。 bash echo "YOUR_TOGETHER_AI_TOKEN" >> together_key.txt

运行代码

示例：尝试从ECG数据样本#1中去除电源线噪声。 bash python cli.py --mode api --query ecg_data-powerline_2 --openai gpt-4 --index 1 --num_trial 1

参数解释

--mode：选择模式，包括text、api、no_api、CoT、react、base。
- text：以数值形式向LLMs提供信号。
- api：Python编码环境 + API访问 + 检查 + ReACT提示。
- no_api：Python编码环境 + 检查 + ReACT提示。
- CoT：Python编码环境 + API访问 + 思维链提示。
- ReAct：Python编码环境 + API访问 + ReAct提示。
- base：Python编码环境 + API访问。
--model：选择模型，包括gpt-3.5-turbo、gpt-4、gpt-4o、gpt-4-0125-preview、gpt-4-turbo、Llama-2-70b、Llama-2-13b、Llama-2-7b、Llama-3-8b、Llama-3-70b、Qwen1.5-110B、Qwen2-72B。
--query：选择信号处理问题类型，包括ecg_data-extrapolation、ecg_data-gaussian、ecg_data-heartrate、ecg_data-imputation、ecg_data-motion、ecg_data-powerline_1、ecg_data-powerline_2、ecg_data-powerline_3、gait-delay_detection、gait-period_detection、ppg-extrapolation、ppg-imputation、resampling、speech-echo、speech-Siren、speech-TelephoneRing1、speech-TelephoneRing2、speech-TelephoneRing3、change_point_detect_1、change_point_detect_2、change_point_detect_3、change_point_detect_4、outlier_detect_1、outlier_detect_2、outlier_detect_3、outlier_detect_4。
--index：选择数据样本的索引，index ∈ {1, 2, 3}。
--num_trial：设置自我验证的轮数，num_trial ∈ {1, 3, 4, 5}。

自定义提示

系统提示：在sys_prompt.py文件中定义提示策略，用户可以添加或修改提示以构建自己的代理。

示例提示

基础提示：定义了信号处理专家的角色和任务。
API提示：定义了使用Python编码环境和API访问的提示策略。
自我验证提示：定义了验证信号处理结果的提示策略。
反思提示：定义了反思和改进信号处理计划的提示策略。

数据集介绍

构建方式

SensorBench的构建旨在评估大型语言模型（LLMs）在基于编码的传感器处理中的性能。该基准集整合了多样化的真实世界传感器数据集，涵盖多种任务类型。构建过程中，研究团队精心挑选了常见的数字信号处理（DSP）任务，这些任务广泛应用于工程、医疗和工业领域。通过参考MATLAB教程和成熟的DSP教科书，确保了任务的真实性和有效性。此外，任务根据单一/组合和参数化/非参数化进行分类，以量化任务的难度，从而全面评估LLMs在不同复杂度任务中的表现。

特点

SensorBench的显著特点在于其全面性和多样性。它不仅包含了多种传感器类型和任务，还通过详细的任务分类和难度分级，提供了对LLMs性能的深入分析。此外，该基准集还探索了四种不同的提示策略，包括自我验证，以评估这些策略在传感器处理任务中的有效性。实验结果表明，自我验证策略在48%的任务中优于其他基线方法，显示出其在提升LLMs处理复杂任务能力方面的潜力。

使用方法

使用SensorBench进行研究时，研究人员可以利用其提供的多样化传感器数据集和任务类型，评估LLMs在不同场景下的表现。通过Python编码环境和预定义的API，LLMs可以执行自动化信号处理任务。研究者还可以探索不同的提示策略，如链式思维（CoT）、反应（ReAct）和自我验证，以优化LLMs的性能。此外，该基准集提供了详细的评估协议和度量标准，如信号失真比（SDR）、F1分数和均方误差（MSE），帮助研究人员全面分析和比较不同模型和策略的效果。

背景与挑战

背景概述

在网络物理系统中，传感器数据的处理、解释和管理已成为关键组成部分。传统上，传感器数据的处理需要深厚的理论知识和信号处理工具的专业技能。然而，最近的研究表明，大型语言模型（LLMs）在处理传感器数据方面展现出巨大的潜力，暗示其可能成为开发传感系统的辅助工具。为了探索这一潜力，Pengrui Quan等研究人员于2024年在UCLA构建了SensorBench，这是一个综合基准，旨在为LLMs在传感器数据处理中的表现提供量化评估。该基准包含多样化的真实世界传感器数据集，用于各种任务，展示了LLMs在简单任务中的显著能力，但在处理复杂任务和参数选择方面仍面临挑战。

当前挑战

SensorBench的构建面临多重挑战。首先，现有研究在传感器数据处理中使用的方法、数据集和评估指标各异，难以形成对LLMs在该领域表现的统一理解。其次，学术和工业界对LLMs在规划和推理任务中的可靠性存在争议。此外，评估LLMs在传感器处理中的全部潜力和局限性缺乏系统性方法。具体任务中，LLMs在处理复杂组合任务和参数选择时表现不佳，与工程专家相比存在显著差距。尽管自验证方法在某些任务中表现优异，但整体上LLMs仍难以达到人类专家的水平。

常用场景

经典使用场景

SensorBench 数据集在传感器数据处理领域中被广泛应用于评估大型语言模型（LLMs）在编码基础传感器处理任务中的表现。其经典使用场景包括对音频、心电图（ECG）、光电容积图（PPG）、运动和压力信号等多通道时间序列数据的预处理、信号重建、频谱分析、异常检测和特征提取等任务。通过这些任务，研究者能够系统地评估和比较不同LLMs在传感器数据处理中的性能，从而为开发基于LLM的传感器处理辅助工具提供量化依据。

衍生相关工作

SensorBench 数据集的推出激发了大量相关研究工作，特别是在探索大型语言模型（LLMs）在传感器数据处理中的应用潜力方面。例如，研究者们基于SensorBench开发了多种提示策略，如链式思维（CoT）、反应（ReAct）和自我验证（self-verification），以提升LLMs在传感器处理任务中的表现。此外，SensorBench还促进了LLMs在健康追踪分析、移动传感应用和人类活动识别等领域的深入研究，推动了LLMs与传感器数据处理技术的融合与发展。

数据集最近研究