OPERA
arXiv2024-06-24 更新2024-06-26 收录
音频分析
医疗健康
资源简介:
OPERA是一个由剑桥大学创建的大型呼吸音频数据集,包含约136,000个样本,总时长达到440小时。数据集涵盖多种呼吸声音,如咳嗽、呼吸和肺部声音,来源于多个公开数据源。创建过程中,数据经过严格的质量控制和预处理,确保音频质量。OPERA主要应用于健康监测和疾病检测,如呼吸率估计、肺功能评估等,旨在通过音频分析提高医疗诊断的准确性和效率。
原始地址:
提供机构:
剑桥大学
创建时间:
2024-06-24

OPERA 数据集概述

数据集简介

OPERA 是一个开放的呼吸声学基础模型预训练和基准测试系统。该系统收集了大规模的呼吸音频数据集(136K 样本,440 小时),预训练了三个开创性的基础模型,并构建了一个包含 19 个下游呼吸健康任务的基准测试。预训练模型在 19 个任务中的 16 个上表现优于现有的声学模型,并具有良好的泛化能力,适用于未见过的数据集和新呼吸音频模式。

数据集详情

数据来源

数据集名称 来源 访问链接 许可协议
UK COVID-19 IC https://zenodo.org/records/10043978 OGL 3.0
COVID-19 Sounds UoC https://covid-19-sounds.org/blog/neurips_dataset 自定义许可
CoughVID EPFL https://zenodo.org/records/4048312 CC BY 4.0
ICBHI * https://bhichallenge.med.auth.gr CC0
HF Lung * https://gitlab.com/techsupportHF/HF_Lung_V1 CC BY-NC 4.0
Coswara IISc https://github.com/iiscleap/Coswara-Data CC BY 4.0
KAUH KAUH https://data.mendeley.com/datasets/jwyy9np4gv/3 CC BY 4.0
Respiratory@TR ITU https://data.mendeley.com/datasets/p9z4h98s6j/1 CC BY 4.0
SSBPR WHU https://github.com/xiaoli1996/SSBPR CC BY 4.0
MMlung UoS https://github.com/MohammedMosuily/mmlung 自定义许可
NoseMic UoC https://github.com/evelyn0414/OPERA/tree/main/datasets/nosemic 自定义许可

*ICBHI 和 HF Lung 数据集来自多个来源。COVID-19 Sounds、SSBPR、MMLung 和 NoseMic 需要申请访问,其他数据可通过上述链接下载。自定义许可协议详见数据传输协议(DTA)。

预训练模型

预训练模型权重可在以下位置获取:

具体模型包括:

使用指南

  • 安装环境:通过运行以下命令安装所需环境: bash git clone https://github.com/evelyn0414/OPERA.git cd ./OPERA conda env create --file environment.yml sh ./prepare_env.sh source ~/.bashrc conda init conda activate audio sh ./prepare_code.sh

  • 预训练模型:示例训练脚本可在 cola_pretraining.pymae_pretraining.py 中找到。运行以下命令开始预训练: bash sh scripts/multiple_pretrain.sh

  • 基准测试:运行基准测试脚本: bash sh scripts/benchmark.sh

引用

如使用 OPERA,请引用以下论文:

@misc{zhang2024openrespiratoryacousticfoundation, title={Towards Open Respiratory Acoustic Foundation Models: Pretraining and Benchmarking}, author={Yuwei Zhang and Tong Xia and Jing Han and Yu Wu and Georgios Rizos and Yang Liu and Mohammed Mosuily and Jagmohan Chauhan and Cecilia Mascolo}, year={2024}, eprint={2406.16148}, archivePrefix={arXiv}, primaryClass={cs.SD}, url={https://arxiv.org/abs/2406.16148}, }

数据集介绍
main_image_url
构建方式
OPERA数据集的构建基于大规模无标签呼吸音频数据,涵盖了咳嗽、呼吸和肺部声音等多种模态。数据来源于五个公开数据集,经过严格的质量控制和预处理,最终形成了包含约136,000个样本、总计440小时的音频数据。数据预处理包括音频的重新采样、转换为梅尔频谱图,并通过随机裁剪和掩码技术进行增强。这些数据被用于预训练三种基础模型,包括基于对比学习的Transformer模型、基于对比学习的CNN模型和基于生成预训练的Transformer模型。
特点
OPERA数据集的特点在于其多样性和广泛性。数据集涵盖了多种呼吸音频模态,包括咳嗽、呼吸和肺部声音,且数据来源多样,确保了模型的泛化能力。此外,数据集规模庞大,远超现有的呼吸音频数据集,为模型提供了丰富的训练样本。数据集还包含了19个下游任务的标注数据,涵盖了健康状态推断和肺功能估计等多个应用场景,确保了模型的实用性和可扩展性。
使用方法
OPERA数据集的使用方法主要包括预训练和下游任务评估。预训练阶段,模型通过自监督学习从无标签数据中学习呼吸音频的特征表示。下游任务评估阶段,预训练模型通过线性探测或微调的方式应用于19个呼吸健康任务,包括COVID-19检测、COPD分类和肺功能估计等。评估结果表明,OPERA预训练模型在大多数任务上优于现有的通用音频预训练模型,展示了其在呼吸音频领域的强大潜力。
背景与挑战
背景概述
OPERA数据集是由剑桥大学和南安普顿大学的研究团队于2024年提出的,旨在解决呼吸音频数据在医疗应用中的挑战。呼吸音频,如咳嗽和呼吸声,具有广泛的医疗应用潜力,但由于缺乏大规模标注数据,相关研究进展缓慢。OPERA通过构建一个开放式的呼吸音频基础模型预训练和基准测试系统,填补了这一空白。该数据集包含了约13.6万个样本,总计440小时的呼吸音频数据,涵盖了多种呼吸音频模态,并预训练了三个基础模型,构建了19个下游呼吸健康任务的基准测试。OPERA的推出为呼吸音频研究提供了一个开放资源,推动了该领域的进一步发展。
当前挑战
OPERA数据集面临的挑战主要包括两个方面。首先,呼吸音频数据的多样性和复杂性使得模型在捕捉细微的生理特征时面临困难,尤其是在不同健康状态下,呼吸音频的频率分布和突发性变化较大。其次,数据集的构建过程中,研究人员需要处理来自不同来源的异构数据,包括不同的采集设备和采样率,这增加了数据清洗和预处理的难度。此外,由于医疗应用的安全性和可重复性要求,确保模型的开放性和透明性也是一个重要挑战。OPERA通过引入自监督学习方法,利用大规模未标注数据进行预训练,有效缓解了标注数据不足的问题,但仍需进一步优化模型的泛化能力和对不同任务的适应性。
常用场景
经典使用场景
OPERA数据集在呼吸音频分析领域具有广泛的应用,尤其是在健康监测和疾病检测方面。通过大规模的呼吸音频数据,OPERA数据集为开发通用的呼吸音频基础模型提供了丰富的训练资源。其经典使用场景包括基于咳嗽、呼吸声等音频信号的疾病诊断,如COVID-19、哮喘和慢性阻塞性肺病(COPD)的检测。此外,OPERA数据集还被用于肺功能评估,如呼吸频率和肺活量的估计,为临床诊断提供了非侵入性的辅助工具。
解决学术问题
OPERA数据集解决了呼吸音频领域中的多个关键学术问题。首先,它填补了大规模标注数据稀缺的空白,通过自监督学习方法,利用未标注的呼吸音频数据进行预训练,显著提升了模型的泛化能力。其次,OPERA数据集提供了一个包含19个下游任务的基准测试,涵盖了从疾病检测到肺功能评估的多个应用场景,使得研究人员能够全面评估模型的性能。此外,OPERA的开放性和可复现性为呼吸音频基础模型的研究提供了坚实的基础,推动了该领域的进一步发展。
衍生相关工作
OPERA数据集的推出催生了多项相关研究工作。首先,基于OPERA的预训练模型在多个下游任务中表现出色,激发了更多关于呼吸音频基础模型的研究。例如,研究人员探索了不同的自监督学习方法,如对比学习和生成式预训练,以进一步提升模型的性能。其次,OPERA数据集还为呼吸音频领域的基准测试提供了标准,推动了更多开放数据集和模型的开发。此外,OPERA的成功应用还促进了跨领域的研究,如将呼吸音频分析与自然语言处理、计算机视觉等技术结合,开发出更加智能的健康监测系统。
以上内容由AI搜集并总结生成
相关数据集
未查询到数据集