SensorBench
arXiv2024-10-15 更新2024-10-16 收录
传感器数据处理
大型语言模型评估
资源简介:
SensorBench是由加州大学洛杉矶分校的研究团队创建的一个综合性基准数据集,旨在评估大型语言模型(LLMs)在基于编码的传感器数据处理中的性能。该数据集包含多种真实世界的传感器数据集,涵盖了从预处理到特征提取等多个任务。数据集的创建过程结合了MATLAB教程和已有的数字信号处理(DSP)教材,确保了任务的实际应用性和学术验证性。SensorBench的应用领域广泛,包括工程、医疗和工业环境中的传感器数据处理,旨在解决LLMs在复杂传感器数据处理任务中的性能评估问题。
原始地址:
提供机构:
加州大学洛杉矶分校
创建时间:
2024-10-15

SensorBench: Benchmarking LLMs in Coding-Based Sensor Processing

数据集概述

SensorBench 是一个用于评估大型语言模型(LLMs)在基于编码的传感器处理任务中的性能的基准数据集。该数据集旨在通过提供多种传感器数据处理问题,测试和比较不同模型的表现。

数据集组成

  • 传感器数据类型:包括心电图(ECG)、步态(gait)、光电容积图(PPG)、语音(speech)等多种类型的传感器数据。
  • 处理问题类型:涵盖去噪、外推、高斯噪声、心率检测、插值、运动噪声、电源线噪声、步态延迟检测、步态周期检测、重采样、回声、Siren噪声、电话铃声等多种信号处理问题。

数据集下载

  • 基准数据集:可以从这里下载并解压到主文件夹。
  • 完整基准数据集(可选):可以从这里访问。

使用方法

环境设置

  1. 安装依赖包: bash pip install -r requirements.txt

  2. 使用Docker(可选):

    • 构建Docker镜像: bash docker build -t my-python-app .

    • 构建Docker容器: bash docker run -p 4000:80 -v ./:/usr/src/myapp --name my-container my-python-app /bin/bash

    • 启动容器: bash docker start my-container

    • 在容器中执行代码: bash docker exec -it my-container /bin/bash

      或 bash docker exec -it my-container2 python cli.py --mode api --query ecg_data-powerline_2 --openai gpt-4 --index 1 --num_trial 1

设置API密钥

  • OpenAI密钥:将OpenAI密钥放入key.txt文件中。 bash echo "YOUR_OPENAI_TOKEN" >> key.txt

  • together.ai密钥(可选):将together.ai密钥放入together_key.txt文件中。 bash echo "YOUR_TOGETHER_AI_TOKEN" >> together_key.txt

运行代码

  • 示例:尝试从ECG数据样本#1中去除电源线噪声。 bash python cli.py --mode api --query ecg_data-powerline_2 --openai gpt-4 --index 1 --num_trial 1

参数解释

  1. --mode:选择模式,包括textapino_apiCoTreactbase

    • text:以数值形式向LLMs提供信号。
    • api:Python编码环境 + API访问 + 检查 + ReACT提示。
    • no_api:Python编码环境 + 检查 + ReACT提示。
    • CoT:Python编码环境 + API访问 + 思维链提示。
    • ReAct:Python编码环境 + API访问 + ReAct提示。
    • base:Python编码环境 + API访问。
  2. --model:选择模型,包括gpt-3.5-turbogpt-4gpt-4ogpt-4-0125-previewgpt-4-turboLlama-2-70bLlama-2-13bLlama-2-7bLlama-3-8bLlama-3-70bQwen1.5-110BQwen2-72B

  3. --query:选择信号处理问题类型,包括ecg_data-extrapolationecg_data-gaussianecg_data-heartrateecg_data-imputationecg_data-motionecg_data-powerline_1ecg_data-powerline_2ecg_data-powerline_3gait-delay_detectiongait-period_detectionppg-extrapolationppg-imputationresamplingspeech-echospeech-Sirenspeech-TelephoneRing1speech-TelephoneRing2speech-TelephoneRing3change_point_detect_1change_point_detect_2change_point_detect_3change_point_detect_4outlier_detect_1outlier_detect_2outlier_detect_3outlier_detect_4

  4. --index:选择数据样本的索引,index ∈ {1, 2, 3}。

  5. --num_trial:设置自我验证的轮数,num_trial ∈ {1, 3, 4, 5}。

自定义提示

  • 系统提示:在sys_prompt.py文件中定义提示策略,用户可以添加或修改提示以构建自己的代理。

示例提示

  1. 基础提示:定义了信号处理专家的角色和任务。
  2. API提示:定义了使用Python编码环境和API访问的提示策略。
  3. 自我验证提示:定义了验证信号处理结果的提示策略。
  4. 反思提示:定义了反思和改进信号处理计划的提示策略。
数据集介绍
main_image_url
构建方式
SensorBench的构建旨在评估大型语言模型(LLMs)在基于编码的传感器处理中的性能。该基准集整合了多样化的真实世界传感器数据集,涵盖多种任务类型。构建过程中,研究团队精心挑选了常见的数字信号处理(DSP)任务,这些任务广泛应用于工程、医疗和工业领域。通过参考MATLAB教程和成熟的DSP教科书,确保了任务的真实性和有效性。此外,任务根据单一/组合和参数化/非参数化进行分类,以量化任务的难度,从而全面评估LLMs在不同复杂度任务中的表现。
特点
SensorBench的显著特点在于其全面性和多样性。它不仅包含了多种传感器类型和任务,还通过详细的任务分类和难度分级,提供了对LLMs性能的深入分析。此外,该基准集还探索了四种不同的提示策略,包括自我验证,以评估这些策略在传感器处理任务中的有效性。实验结果表明,自我验证策略在48%的任务中优于其他基线方法,显示出其在提升LLMs处理复杂任务能力方面的潜力。
使用方法
使用SensorBench进行研究时,研究人员可以利用其提供的多样化传感器数据集和任务类型,评估LLMs在不同场景下的表现。通过Python编码环境和预定义的API,LLMs可以执行自动化信号处理任务。研究者还可以探索不同的提示策略,如链式思维(CoT)、反应(ReAct)和自我验证,以优化LLMs的性能。此外,该基准集提供了详细的评估协议和度量标准,如信号失真比(SDR)、F1分数和均方误差(MSE),帮助研究人员全面分析和比较不同模型和策略的效果。
背景与挑战
背景概述
在网络物理系统中,传感器数据的处理、解释和管理已成为关键组成部分。传统上,传感器数据的处理需要深厚的理论知识和信号处理工具的专业技能。然而,最近的研究表明,大型语言模型(LLMs)在处理传感器数据方面展现出巨大的潜力,暗示其可能成为开发传感系统的辅助工具。为了探索这一潜力,Pengrui Quan等研究人员于2024年在UCLA构建了SensorBench,这是一个综合基准,旨在为LLMs在传感器数据处理中的表现提供量化评估。该基准包含多样化的真实世界传感器数据集,用于各种任务,展示了LLMs在简单任务中的显著能力,但在处理复杂任务和参数选择方面仍面临挑战。
当前挑战
SensorBench的构建面临多重挑战。首先,现有研究在传感器数据处理中使用的方法、数据集和评估指标各异,难以形成对LLMs在该领域表现的统一理解。其次,学术和工业界对LLMs在规划和推理任务中的可靠性存在争议。此外,评估LLMs在传感器处理中的全部潜力和局限性缺乏系统性方法。具体任务中,LLMs在处理复杂组合任务和参数选择时表现不佳,与工程专家相比存在显著差距。尽管自验证方法在某些任务中表现优异,但整体上LLMs仍难以达到人类专家的水平。
常用场景
经典使用场景
SensorBench 数据集在传感器数据处理领域中被广泛应用于评估大型语言模型(LLMs)在编码基础传感器处理任务中的表现。其经典使用场景包括对音频、心电图(ECG)、光电容积图(PPG)、运动和压力信号等多通道时间序列数据的预处理、信号重建、频谱分析、异常检测和特征提取等任务。通过这些任务,研究者能够系统地评估和比较不同LLMs在传感器数据处理中的性能,从而为开发基于LLM的传感器处理辅助工具提供量化依据。
衍生相关工作
SensorBench 数据集的推出激发了大量相关研究工作,特别是在探索大型语言模型(LLMs)在传感器数据处理中的应用潜力方面。例如,研究者们基于SensorBench开发了多种提示策略,如链式思维(CoT)、反应(ReAct)和自我验证(self-verification),以提升LLMs在传感器处理任务中的表现。此外,SensorBench还促进了LLMs在健康追踪分析、移动传感应用和人类活动识别等领域的深入研究,推动了LLMs与传感器数据处理技术的融合与发展。
数据集最近研究
最新研究方向
在传感器数据处理领域,SensorBench数据集的最新研究方向聚焦于评估和提升大型语言模型(LLMs)在编码基础传感器处理任务中的表现。研究者们通过构建一个综合基准,即SensorBench,来量化LLMs在处理真实世界传感器数据时的性能。该基准涵盖了多种传感器类型和任务,揭示了LLMs在简单任务中表现出色,但在涉及参数选择和复杂组合任务时仍面临挑战。此外,研究还探索了四种提示策略,发现自验证方法在48%的任务中优于其他基线,显示出LLMs在模仿专家推理过程中的潜力。这些研究不仅为未来开发基于LLM的传感器处理助手提供了坚实的基础,还为提升LLMs在复杂传感器数据处理中的能力指明了方向。
相关研究论文
  • 1
    SensorBench: Benchmarking LLMs in Coding-Based Sensor Processing加州大学洛杉矶分校 · 2024年
以上内容由AI搜集并总结生成
相关数据集
未查询到数据集