BioLiP2-Opt
arXiv2024-11-02 更新2024-11-06 收录
生物学
药物发现
资源简介:
BioLiP2-Opt数据集是由加州大学伯克利分校的研究团队开发的,旨在为蛋白质-配体结合亲和力预测提供高质量的结构数据。该数据集包含约48,000个非共价蛋白质-配体复合物的结构及其结合亲和力注释。数据集的创建过程包括自动化算法对PDBBind数据集的优化和结构准备,确保数据的高质量和一致性。BioLiP2-Opt数据集主要应用于生物学和药物发现领域,旨在提高评分函数(SFs)的准确性和可靠性,从而优化计算机辅助药物设计。
原始地址:
提供机构:
加州大学伯克利分校
创建时间:
2024-11-02
数据集介绍
main_image_url
构建方式
BioLiP2-Opt数据集的构建基于PDBBind-Opt工作流程,该流程通过自动化算法对PDBBind数据集进行精细筛选和结构优化。首先,从RCSB PDB下载pdb和mmcif格式文件,用于结构准备和元数据提取。随后,通过一系列过滤器排除含有共价结合、稀有元素或严重空间冲突的蛋白质-配体复合物。接着,分别对蛋白质和配体进行结构修复,包括添加缺失原子、修正键序和合理化质子化状态。最后,通过约束能量最小化优化复合物结构,确保其物理可行性。
特点
BioLiP2-Opt数据集的主要特点在于其高质量和自动化处理。该数据集通过严格的筛选和结构优化,排除了PDBBind中的常见结构缺陷,如共价结合、稀有元素和空间冲突。此外,数据集的构建过程完全自动化,减少了人为干预,确保了数据的一致性和可重复性。BioLiP2-Opt还提供了详细的元数据,包括结合亲和力注释,使其成为开发和验证蛋白质-配体结合亲和力预测模型的理想资源。
使用方法
BioLiP2-Opt数据集适用于多种蛋白质-配体结合亲和力预测模型的开发和验证。用户可以通过下载gzipped tarball文件,解压后访问每个PDB ID的文件夹,其中包含配体和蛋白质的精细结构文件以及相关元数据。这些数据可用于训练和测试物理基础和机器学习评分函数,以及进行基于结构的药物设计研究。此外,BioLiP2-Opt可作为独立基准数据集,用于评估现有对接方法和评分函数的性能。
背景与挑战
背景概述
在计算机辅助药物发现领域,评分函数(Scoring Functions, SFs)是预测蛋白质-配体结合能的关键工具。这些函数广泛应用于选择最可能的配体几何形状及其与蛋白质的最佳结合姿态。PDBBind数据集自2004年以来一直是训练和测试这些评分函数的主要资源。然而,PDBBind数据集中存在结构缺陷和结合能数据的不一致性,这可能影响评分函数的准确性和可靠性。为了解决这些问题,加州大学伯克利分校的研究团队开发了PDBBind-Opt工作流程,通过自动化算法对PDBBind数据集进行优化,创建了高质量的蛋白质-配体结合数据集BioLiP2-Opt,以提高评分函数在生物学和药物发现领域的应用效果。
当前挑战
BioLiP2-Opt数据集的构建面临多重挑战。首先,PDBBind数据集中存在的结构缺陷,如缺失氢原子、不完整的残基和错误的配体结构,需要在数据集构建过程中进行修正。其次,结合能数据的非均匀报告和不一致性,如IC50值的变异,增加了数据处理的复杂性。此外,数据处理过程的非自动化和非开源性,可能导致不同研究组之间的处理不一致。为了应对这些挑战,PDBBind-Opt工作流程引入了多个模块,包括配体和蛋白质结构的修正、氢原子的添加以及结构优化,以确保数据集的高质量和一致性。
常用场景
经典使用场景
在计算辅助药物发现领域,BioLiP2-Opt数据集被广泛用于训练和测试蛋白质-配体结合亲和力的预测模型。该数据集通过优化PDBBind数据集中的常见结构缺陷,提供了高质量的蛋白质-配体复合物结构及其结合亲和力数据。这些数据对于开发和验证物理学和机器学习评分函数至关重要,确保了预测结果的准确性和可靠性。
解决学术问题
BioLiP2-Opt数据集解决了传统PDBBind数据集中存在的结构错误、统计异常和数据组织不一致的问题。通过自动化工作流程,该数据集纠正了蛋白质和配体结构中的常见缺陷,如缺失氢原子、错误的键序和质子化状态。这不仅提高了评分函数训练和验证的准确性,还增强了模型的泛化能力,为蛋白质-配体相互作用的研究提供了更为可靠的数据支持。
衍生相关工作
基于BioLiP2-Opt数据集,研究者们开发了多种评分函数和机器学习模型,用于预测蛋白质-配体结合亲和力。例如,一些研究团队利用该数据集训练深度学习模型,以捕捉蛋白质和配体之间的复杂相互作用。此外,该数据集还促进了结构生物学和计算化学领域的交叉研究,推动了新型药物设计方法的发展。
以上内容由AI搜集并总结生成
相关数据集
未查询到数据集