minhanhto09/NuCLS_dataset
hugging_face2024-07-13 更新2024-03-04 收录
乳腺癌
计算机视觉
资源简介:
NuCLS数据集包含超过220,000个来自乳腺癌图像的标记细胞核,主要用于细胞核检测、分类和分割算法的开发和验证。数据集由病理学家、病理学住院医师和医学生合作标注,涵盖了单人和多人评估的注释。数据集结构包括1,744个条目,每个条目包含高分辨率RGB图像、掩码图像、可视化图像和细胞核注释坐标。数据集分为六个折叠,每个折叠有自己的训练和测试集,以确保模型在不同机构之间的泛化能力。数据集适用于图像分类、检测和分割等计算机视觉任务。
原始地址:
提供机构:
minhanhto09

NuCLS 数据集

概述

NuCLS 数据集包含来自乳腺癌图像的超过 220,000 个标记的细胞核,源自 TCGA,是用于细胞核检测、分类和分割的最大数据集之一。该数据集由病理学家、病理学住院医师和医学生合作,利用数字切片存档进行标注。数据集用于开发和验证细胞核检测、分类和分割算法,并进行多评者分析研究。当前版本包含约 59,500 个来自修正单评者子集的标记细胞核。

数据访问

可以使用 Python 的 datasets 库加载 NuCLS 数据集。可以选择加载完整数据集或其较小子集。

加载完整数据集: python from datasets import load_dataset dataset = load_dataset("minhanhto09/NuCLS_dataset", name="default")

加载较小子集: python from datasets import load_dataset dataset = load_dataset("minhanhto09/NuCLS_dataset", name="debug")

数据结构

数据模式

修正单评者数据集包含 1,744 个条目,每个条目包含视野图像、掩码图像、可视化图像和细胞核标注坐标列表,共 59,485 个细胞核标注。每个图像的分辨率为 0.2 微米/像素,标注坐标以像素单位提供。

单个数据集条目包含以下详细信息:

  • file_name:唯一文件名,编码每个示例及其相关数据的最相关信息。
  • rgb_image:乳腺癌组织的高分辨率 RGB 图像。
  • mask_image:每个细胞核标记的掩码图像。类别标签编码在第一通道中,第二和第三通道用于创建每个细胞核的唯一标识符。视野(灰色区域)标记以界定标注区域。
  • visualization_image:RGB 和掩码图像的叠加可视化图像,以辅助解释性。
  • annotation_coordinates:每个实例包含细胞核的标注列表,每个标注包括:
    • raw_classification:细胞核的基本类别,有 13 种可能的类别,如 tumor 或 lymphocyte。
    • main_classification:细胞核的高级类别,有 7 个类别,包括 tumor_mitotic 和 nonTILnonMQ_stromal。
    • super_classification:细胞核的最广泛类别标签,有 4 个选项,包括 sTIL 或 nonTIL_stromal。
    • type:使用的标注形式,rectangle 或 polyline。
    • xmin, ymin, xmax, ymax:细胞核的边界框坐标。
    • coords_x, coords_y:细胞核的特定边界坐标。

数据分割

数据集分为六个折叠,每个折叠有自己的训练和测试集。这种分割基于来源医院,以捕获医学成像实践的变异性,并确保在不同机构间泛化良好的模型。

数据集分割如下:

  • train_fold_1:1,481 个示例
  • test_fold_1:263 个示例
  • train_fold_2:1,239 个示例
  • test_fold_2:505 个示例
  • train_fold_3:1,339 个示例
  • test_fold_3:405 个示例
  • train_fold_4:1,450 个示例
  • test_fold_4:294 个示例
  • train_fold_5:1,467 个示例
  • test_fold_5:277 个示例
  • train_fold_999:21 个示例
  • test_fold_999:7 个示例

调试配置使用 train_fold_999test_fold_999 由于其示例数量较少。

使用示例

该数据集适用于各种计算机视觉任务,包括图像分类、检测和分割。提供了探索性数据分析(EDA)技术和图像检测任务的示例。

许可

数据集采用 CC0 1.0 许可

限制

目前,数据集仅包含修正单评者数据。后续版本应扩展到包含未修正单评者和多评者数据集。

数据集介绍
main_image_url
构建方式
NuCLS数据集的构建基于对乳腺癌图像中超过220,000个核的详细标注,这些标注来源于TCGA项目中的乳腺癌图像。数据集的构建过程涉及病理学家、病理学居民和医学生的协作,他们利用数字切片档案进行注释。该数据集不仅包括单评者的标注,还涵盖了多评者的评估结果,特别是包含了约59,500个经过校正的单评者标注核。
使用方法
使用NuCLS数据集时,可以通过Python的`datasets`库加载完整数据集或其子集。数据集适用于多种计算机视觉任务,如图像分类、检测和分割。具体使用方法包括加载数据集、选择训练和测试集、以及利用提供的注释信息进行模型训练和评估。数据集的详细使用示例和探索性数据分析技术可在提供的文档中找到。
背景与挑战
背景概述
NuCLS数据集是由Mohamed Amgad等人创建的,旨在解决乳腺癌图像中细胞核检测、分类和分割的问题。该数据集包含了来自TCGA(The Cancer Genome Atlas)的超过220,000个标记的细胞核,这些细胞核来自乳腺癌的苏木精和伊红染色的数字切片。数据集的创建涉及病理学家、病理学住院医师和医学生的协作,他们利用数字切片档案进行注释。NuCLS数据集不仅支持细胞核检测、分类和分割算法的开发和验证,还为跨评价者分析研究提供了宝贵的资源。该数据集的发布标志着在病理学图像分析领域迈出了重要的一步,为计算机视觉技术在医学领域的应用提供了新的可能性。
当前挑战
NuCLS数据集在构建过程中面临了多重挑战。首先,数据集的规模庞大,涉及超过220,000个细胞核的注释,这要求高效的注释工具和方法。其次,细胞核的多样性和复杂性使得分类和分割任务变得尤为困难,需要高精度的算法来处理。此外,数据集目前仅包含修正后的单评价者数据,未来版本需要扩展到未修正的单评价者和多评价者数据,以进一步提高数据集的全面性和实用性。这些挑战不仅涉及技术层面的算法开发,还包括数据管理和注释质量控制,以确保数据集在实际应用中的可靠性和有效性。
常用场景
经典使用场景
NuCLS数据集在病理学领域中被广泛应用于核检测、分类和分割任务。其经典使用场景包括开发和验证用于识别和分类乳腺癌图像中细胞核的算法。通过提供大量标注的细胞核图像,该数据集支持研究人员训练和评估深度学习模型,以实现高精度的细胞核检测和分类。
解决学术问题
NuCLS数据集解决了病理学研究中细胞核检测和分类的常见学术问题。通过提供大规模、高质量的标注数据,该数据集显著提升了细胞核检测算法的准确性和鲁棒性。此外,数据集的多评分者标注特性还支持进行评分者间一致性分析,从而推动了病理学图像分析的标准化和自动化进程。
实际应用
在实际应用中,NuCLS数据集被用于开发和优化乳腺癌诊断和治疗中的计算机辅助诊断系统。通过训练基于深度学习的模型,医疗专业人员可以更快速、准确地识别和分类乳腺癌组织中的细胞核,从而提高诊断的准确性和效率。此外,该数据集还支持开发用于病理学图像分析的自动化工具,有助于减轻病理学家的工作负担。
数据集最近研究
最新研究方向
在病理学领域,NuCLS数据集的最新研究方向主要集中在利用深度学习技术进行细胞核检测、分类和分割。该数据集通过大规模的标注工作,为研究者提供了丰富的乳腺癌细胞核图像资源,促进了计算机视觉算法在病理图像分析中的应用。前沿研究不仅关注于提高检测和分类的准确性,还探索了多评分者之间的差异性分析,以增强算法的鲁棒性和泛化能力。此外,数据集的开放性和多样性也为跨机构合作提供了基础,推动了病理学图像分析技术的标准化和普及化。
以上内容由AI搜集并总结生成
相关数据集
未查询到数据集