MolPILE
arXiv2025-09-25 更新2025-09-25 收录
分子机器学习
药物设计
资源简介:
MolPILE是一个包含约2.22亿个小化合物的数据集,专为分子表征学习和神经模型预训练而设计。它由6个大型数据库构建,通过自动化的整理流程进行严格筛选。MolPILE跨越了广泛的化学空间,包括元素、结构和性质的广泛变化。数据集的创建过程包括三个阶段:预处理、标准化和过滤,以确保数据质量。该数据集旨在为分子机器学习提供一个统一的和标准化的预训练资源,类似于计算机视觉中的ImageNet和自然语言处理中的PILE。
原始地址:
提供机构:
波兰科学院生物化学与生物物理研究所,克拉科夫AGH科技大学计算机科学学院
创建时间:
2025-09-23

MolPILE 数据集概述

数据集简介

MolPILE 是一个大规模分子数据集,专为化学信息学中的机器学习模型预训练和评估而设计。该数据集从多个主要化学数据库编译而成,包括 UniChem、PubChem、Mcule、ChemSpace、SuperNatural3 和 COCONUT。工作流程包括分子的预处理、标准化和可行性过滤。

数据字典

列定义

  • source:源数据集标识符。与 id 列结合使用,可完全追溯到原始数据条目。
    • 可能的值:PubChemUniChemMculeChemSpaceSuperNatural3COCONUT
  • id:分子的唯一标识符,保留自其源数据库(例如,Mcule ID、PubChem CID)。
    • 示例:MCULE-7212330550
  • SMILES:分子的规范 SMILES 表示,经过 RDKit 处理。
    • 示例:O=C(O)C1=CC=CC(O)C1O

统计信息

描述符
分子数量 221,950,487
中位 SAScore 3.05
环数量 6,422,057
Bemis-Murcko 支架 3,620,809
Ertl 功能基团 128,347
1,089,501

加载 MolPILE 数据集

python import polars as pl from huggingface_hub import hf_hub_download

parquet_file_path = hf_hub_download( repo_id="scikit-fingerprints/MolPILE", repo_type="dataset", filename="molpile.parquet", local_dir="datasets", local_dir_use_symlinks=False )

df = pl.read_parquet(parquet_file_path) print(df.head())

许可证信息

MolPILE 是多个已处理数据集的集合,并非单一数据集。为方便起见,以单个 Parquet 文件形式共享。各个源通过 sourceid 列分隔。每个源都有其独立的许可证,用户可根据来源轻松过滤数据集。MolPILE 作为一个整体没有单一许可证。

各源许可证及引用要求

  • UniChem:CC0(公共领域);需引用:Chambers, Jon, et al. "UniChem: a unified chemical structure cross-referencing and identifier tracking system." Journal of Cheminformatics 5.1 (2013): 3.
  • PubChem:CC-BY-4.0;需引用:Kim, Sunghwan, et al. "PubChem 2023 update." Nucleic Acids Research 51.D1 (2023): D1373-D1380.
  • Mcule:CC-BY-NC-4.0;需引用:Kiss, Robert, Mark Sandor, and Ferenc A. Szalai. "http://Mcule.com: a public web service for drug discovery." Journal of Cheminformatics 4.Suppl 1 (2012): P17.
  • ChemSpace:CC-BY-NC-4.0;需引用链接:https://chem-space.com/compounds/screening-compound-catalog
  • SuperNatural3:未明确指定,仅注明“免费可用”;需引用:Gallo, Kathleen, et al. "SuperNatural 3.0 - a database of natural products and natural product-based derivatives." Nucleic Acids Research 51.D1 (2023): D654-D659.
  • COCONUT:CC0(公共领域);需引用:Sorokina, Maria, et al. "COCONUT online: collection of open natural products database." Journal of Cheminformatics 13.1 (2021): 2.
数据集介绍
main_image_url
构建方式
在分子表示学习领域,数据集的构建质量直接影响基础模型的泛化能力。MolPILE通过整合六个大规模实验数据库(包括UniChem、PubChem、Mcule、ChemSpace及天然产物数据库SuperNatural3和COCONUT),采用自动化流程进行多阶段处理。首先进行数据预处理,统一将异构格式转换为InChI标准;随后通过RDKit工具进行分子结构标准化,包括芳香性校正、价态检查和官能团归一化;最后引入创新的可行性过滤器,剔除分子碎片超过3个、分子量大于2500或logP超出[-10,25]范围等不符合实际合成条件的分子。整个流程确保最终获得2.22亿个去重且结构规范的小分子。
特点
MolPILE的显著特点体现在其规模、多样性与质量的协同优化。作为目前最大的公开实验验证小分子数据集,其元素覆盖范围远超传统数据集,包含28.3%的卤素化合物、16%的类金属元素及0.5%的金属有机分子,有效支持农业化学、生态毒理学等跨领域研究。通过#Circles指标量化结构多样性,其归一化值达到3%,显著高于ZINC的0.81%。同时,合成可行性评分中位数维持在3.05,反映分子具有实际合成潜力。数据集还包含360万独特分子骨架和128种官能团,避免了传统数据集因过度过滤导致的化学空间狭窄问题。
使用方法
该数据集以SMILES格式发布,支持分子表示学习模型的预训练与微调。研究人员可直接将MolPILE作为训练数据输入Transformer或图神经网络架构,如ChemBERTa和Mol2vec等模型。针对计算资源受限场景,数据集提供基于最大多样性选取算法构建的1M、5M和10M分子子集,这些子集通过最大化Tanimoto距离确保化学空间均匀采样。评估时建议采用多基准测试框架,包括MoleculeNet的属性预测、TDC的ADMET任务以及WelQrate的虚拟筛选任务,以全面衡量模型在药物设计、毒性预测等实际场景中的泛化能力。
背景与挑战
背景概述
分子表示学习作为化学信息学的前沿领域,其模型泛化能力严重依赖预训练数据的规模与质量。2025年由克拉科夫AGH大学团队发布的MolPILE数据集,正是为解决现有分子数据集在规模、多样性和质量方面的局限而构建。该数据集整合了UniChem、PubChem等六大权威数据库,通过自动化流程筛选出2.22亿个经实验验证的小分子化合物,旨在成为分子机器学习领域的ImageNet级基准资源。其设计核心在于覆盖更广泛的化学空间,包括传统药物化学之外的自然产物、农业化学及金属有机化合物等领域,为跨领域迁移学习提供坚实基础。
当前挑战
在解决分子性质预测任务时,模型需应对化学空间的高度异质性挑战,如元素分布差异(卤素、金属等)、骨架多样性不足以及合成可行性评估等问题。数据集构建过程中面临多重技术难点:多源数据整合时出现的格式异构性要求统一标准化流程;去重环节需依赖InChI标识符确保结构唯一性;可行性过滤需平衡化学空间覆盖度与分子合理性,避免过度过滤导致多样性损失。此外,SMILES序列转换中的语义一致性维护,以及大规模数据处理中的计算效率优化,均是实现高质量数据集的关键技术壁垒。
常用场景
经典使用场景
在分子表示学习领域,MolPILE数据集作为预训练基准被广泛应用于构建化学基础模型。该数据集通过整合六个大规模实验数据库,形成了包含2.22亿个小分子的标准化集合,其规模与质量使其成为分子机器学习领域的ImageNet级资源。研究人员利用MolPILE训练Transformer架构的化学语言模型(如ChemBERTa)和图神经网络,通过自监督学习任务(如掩码语言建模)捕捉分子结构的深层规律。这种预训练范式显著提升了模型在药物发现任务中的泛化能力,特别是在数据稀缺场景下通过迁移学习实现性能突破。
衍生相关工作
MolPILE催生了多项分子表示学习的重要进展。基于其重构训练的Mol2vec模型在48个基准测试中平均性能提升1.79%,证明了数据质量对嵌入学习的关键影响。ChemBERTa-MolPILE变体在TDC基准的18项任务中取得13项优胜,尤其对药物代谢性质预测实现1.26%的AUC提升。这些成果推动了SMILESTransformer架构的优化,启发研究者开发面向特定化学子领域的自适应分词策略。数据集提供的多样性子集(1M/5M/10M)已成为轻量级模型开发的标准试验场,促进了化学基础模型在资源受限环境下的应用探索。相关工作还延伸至三维分子表征学习,为几何深度学习与语言模型的融合提供了数据支撑。
数据集最近研究
最新研究方向
在分子表示学习领域,MolPILE数据集的推出标志着大规模、高质量化学数据资源建设的重大突破。该数据集通过整合六个大型实验数据库并采用自动化处理流程,构建了包含2.22亿个经过实验验证的小分子化合物,其规模与多样性为化学信息学基础模型的训练提供了前所未有的支持。当前研究聚焦于利用MolPILE解决现有预训练数据集在规模、质量和多样性方面的三重局限,特别是在提升模型对金属有机化合物、天然产物等非传统药物化学空间的泛化能力。前沿工作表明,基于MolPILE重新训练的Mol2vec和ChemBERTa模型在MoleculeNet、TDC等48个基准测试中普遍表现出性能提升,尤其在生态毒理学和虚拟筛选任务上取得显著进展。这一进展不仅推动了分子表示学习模型在药物设计、材料科学等跨领域应用中的边界拓展,更为建立类似ImageNet的标准化化学数据生态奠定了基础。
相关研究论文
  • 1
    MolPILE - large-scale, diverse dataset for molecular representation learningAGH University of Krakow, Poland · 2025年
以上内容由AI搜集并总结生成
相关数据集
未查询到数据集