

OPERA 是一个开放的呼吸声学基础模型预训练和基准测试系统。该系统收集了大规模的呼吸音频数据集(136K 样本,440 小时),预训练了三个开创性的基础模型,并构建了一个包含 19 个下游呼吸健康任务的基准测试。预训练模型在 19 个任务中的 16 个上表现优于现有的声学模型,并具有良好的泛化能力,适用于未见过的数据集和新呼吸音频模式。
数据集名称 | 来源 | 访问链接 | 许可协议 |
---|---|---|---|
UK COVID-19 | IC | https://zenodo.org/records/10043978 | OGL 3.0 |
COVID-19 Sounds | UoC | https://covid-19-sounds.org/blog/neurips_dataset | 自定义许可 |
CoughVID | EPFL | https://zenodo.org/records/4048312 | CC BY 4.0 |
ICBHI | * | https://bhichallenge.med.auth.gr | CC0 |
HF Lung | * | https://gitlab.com/techsupportHF/HF_Lung_V1 | CC BY-NC 4.0 |
Coswara | IISc | https://github.com/iiscleap/Coswara-Data | CC BY 4.0 |
KAUH | KAUH | https://data.mendeley.com/datasets/jwyy9np4gv/3 | CC BY 4.0 |
Respiratory@TR | ITU | https://data.mendeley.com/datasets/p9z4h98s6j/1 | CC BY 4.0 |
SSBPR | WHU | https://github.com/xiaoli1996/SSBPR | CC BY 4.0 |
MMlung | UoS | https://github.com/MohammedMosuily/mmlung | 自定义许可 |
NoseMic | UoC | https://github.com/evelyn0414/OPERA/tree/main/datasets/nosemic | 自定义许可 |
*ICBHI 和 HF Lung 数据集来自多个来源。COVID-19 Sounds、SSBPR、MMLung 和 NoseMic 需要申请访问,其他数据可通过上述链接下载。自定义许可协议详见数据传输协议(DTA)。
预训练模型权重可在以下位置获取:
具体模型包括:
安装环境:通过运行以下命令安装所需环境: bash git clone https://github.com/evelyn0414/OPERA.git cd ./OPERA conda env create --file environment.yml sh ./prepare_env.sh source ~/.bashrc conda init conda activate audio sh ./prepare_code.sh
预训练模型:示例训练脚本可在 cola_pretraining.py
和 mae_pretraining.py
中找到。运行以下命令开始预训练:
bash
sh scripts/multiple_pretrain.sh
基准测试:运行基准测试脚本: bash sh scripts/benchmark.sh
如使用 OPERA,请引用以下论文:
@misc{zhang2024openrespiratoryacousticfoundation, title={Towards Open Respiratory Acoustic Foundation Models: Pretraining and Benchmarking}, author={Yuwei Zhang and Tong Xia and Jing Han and Yu Wu and Georgios Rizos and Yang Liu and Mohammed Mosuily and Jagmohan Chauhan and Cecilia Mascolo}, year={2024}, eprint={2406.16148}, archivePrefix={arXiv}, primaryClass={cs.SD}, url={https://arxiv.org/abs/2406.16148}, }