

NuCLS 数据集包含来自乳腺癌图像的超过 220,000 个标记的细胞核,源自 TCGA,是用于细胞核检测、分类和分割的最大数据集之一。该数据集由病理学家、病理学住院医师和医学生合作,利用数字切片存档进行标注。数据集用于开发和验证细胞核检测、分类和分割算法,并进行多评者分析研究。当前版本包含约 59,500 个来自修正单评者子集的标记细胞核。
可以使用 Python 的 datasets
库加载 NuCLS 数据集。可以选择加载完整数据集或其较小子集。
加载完整数据集: python from datasets import load_dataset dataset = load_dataset("minhanhto09/NuCLS_dataset", name="default")
加载较小子集: python from datasets import load_dataset dataset = load_dataset("minhanhto09/NuCLS_dataset", name="debug")
修正单评者数据集包含 1,744 个条目,每个条目包含视野图像、掩码图像、可视化图像和细胞核标注坐标列表,共 59,485 个细胞核标注。每个图像的分辨率为 0.2 微米/像素,标注坐标以像素单位提供。
单个数据集条目包含以下详细信息:
file_name
:唯一文件名,编码每个示例及其相关数据的最相关信息。rgb_image
:乳腺癌组织的高分辨率 RGB 图像。mask_image
:每个细胞核标记的掩码图像。类别标签编码在第一通道中,第二和第三通道用于创建每个细胞核的唯一标识符。视野(灰色区域)标记以界定标注区域。visualization_image
:RGB 和掩码图像的叠加可视化图像,以辅助解释性。annotation_coordinates
:每个实例包含细胞核的标注列表,每个标注包括:
raw_classification
:细胞核的基本类别,有 13 种可能的类别,如 tumor 或 lymphocyte。main_classification
:细胞核的高级类别,有 7 个类别,包括 tumor_mitotic 和 nonTILnonMQ_stromal。super_classification
:细胞核的最广泛类别标签,有 4 个选项,包括 sTIL 或 nonTIL_stromal。type
:使用的标注形式,rectangle 或 polyline。xmin
, ymin
, xmax
, ymax
:细胞核的边界框坐标。coords_x
, coords_y
:细胞核的特定边界坐标。数据集分为六个折叠,每个折叠有自己的训练和测试集。这种分割基于来源医院,以捕获医学成像实践的变异性,并确保在不同机构间泛化良好的模型。
数据集分割如下:
train_fold_1
:1,481 个示例test_fold_1
:263 个示例train_fold_2
:1,239 个示例test_fold_2
:505 个示例train_fold_3
:1,339 个示例test_fold_3
:405 个示例train_fold_4
:1,450 个示例test_fold_4
:294 个示例train_fold_5
:1,467 个示例test_fold_5
:277 个示例train_fold_999
:21 个示例test_fold_999
:7 个示例调试配置使用 train_fold_999
和 test_fold_999
由于其示例数量较少。
该数据集适用于各种计算机视觉任务,包括图像分类、检测和分割。提供了探索性数据分析(EDA)技术和图像检测任务的示例。
数据集采用 CC0 1.0 许可。
目前,数据集仅包含修正单评者数据。后续版本应扩展到包含未修正单评者和多评者数据集。