资源简介:
MolPILE是一个包含约2.22亿个小化合物的数据集,专为分子表征学习和神经模型预训练而设计。它由6个大型数据库构建,通过自动化的整理流程进行严格筛选。MolPILE跨越了广泛的化学空间,包括元素、结构和性质的广泛变化。数据集的创建过程包括三个阶段:预处理、标准化和过滤,以确保数据质量。该数据集旨在为分子机器学习提供一个统一的和标准化的预训练资源,类似于计算机视觉中的ImageNet和自然语言处理中的PILE。
原始地址:
https://huggingface.co/datasets/scikit-fingerprints/MolPILE
提供机构:
波兰科学院生物化学与生物物理研究所,克拉科夫AGH科技大学计算机科学学院
MolPILE 数据集概述
数据集简介
MolPILE 是一个大规模分子数据集,专为化学信息学中的机器学习模型预训练和评估而设计。该数据集从多个主要化学数据库编译而成,包括 UniChem、PubChem、Mcule、ChemSpace、SuperNatural3 和 COCONUT。工作流程包括分子的预处理、标准化和可行性过滤。
数据字典
列定义
- source:源数据集标识符。与
id
列结合使用,可完全追溯到原始数据条目。
- 可能的值:
PubChem
、UniChem
、Mcule
、ChemSpace
、SuperNatural3
、COCONUT
- id:分子的唯一标识符,保留自其源数据库(例如,Mcule ID、PubChem CID)。
- SMILES:分子的规范 SMILES 表示,经过 RDKit 处理。
统计信息
描述符 |
值 |
分子数量 |
221,950,487 |
中位 SAScore |
3.05 |
环数量 |
6,422,057 |
Bemis-Murcko 支架 |
3,620,809 |
Ertl 功能基团 |
128,347 |
盐 |
1,089,501 |
加载 MolPILE 数据集
python
import polars as pl
from huggingface_hub import hf_hub_download
parquet_file_path = hf_hub_download(
repo_id="scikit-fingerprints/MolPILE",
repo_type="dataset",
filename="molpile.parquet",
local_dir="datasets",
local_dir_use_symlinks=False
)
df = pl.read_parquet(parquet_file_path)
print(df.head())
许可证信息
MolPILE 是多个已处理数据集的集合,并非单一数据集。为方便起见,以单个 Parquet 文件形式共享。各个源通过 source
和 id
列分隔。每个源都有其独立的许可证,用户可根据来源轻松过滤数据集。MolPILE 作为一个整体没有单一许可证。
各源许可证及引用要求
- UniChem:CC0(公共领域);需引用:Chambers, Jon, et al. "UniChem: a unified chemical structure cross-referencing and identifier tracking system." Journal of Cheminformatics 5.1 (2013): 3.
- PubChem:CC-BY-4.0;需引用:Kim, Sunghwan, et al. "PubChem 2023 update." Nucleic Acids Research 51.D1 (2023): D1373-D1380.
- Mcule:CC-BY-NC-4.0;需引用:Kiss, Robert, Mark Sandor, and Ferenc A. Szalai. "http://Mcule.com: a public web service for drug discovery." Journal of Cheminformatics 4.Suppl 1 (2012): P17.
- ChemSpace:CC-BY-NC-4.0;需引用链接:https://chem-space.com/compounds/screening-compound-catalog
- SuperNatural3:未明确指定,仅注明“免费可用”;需引用:Gallo, Kathleen, et al. "SuperNatural 3.0 - a database of natural products and natural product-based derivatives." Nucleic Acids Research 51.D1 (2023): D654-D659.
- COCONUT:CC0(公共领域);需引用:Sorokina, Maria, et al. "COCONUT online: collection of open natural products database." Journal of Cheminformatics 13.1 (2021): 2.