【问题标题】:Extracting bounding boxes and category labels in MS-COCO dataset提取 MS-COCO 数据集中的边界框和类别标签
【发布时间】:2018-04-05 05:34:18
【问题描述】:

我正在使用 MS-COCO 数据集,我想提取与 backpack(类别 ID:27)和 laptop 对应的图像的边界框和标签(类别 ID:73)类别,并将它们存储到不同的文本文件中,以便稍后训练基于神经网络的模型。

我已经提取了与上述两个类别相对应的图像,并在一个单独的文件夹中创建了空注释文件,我希望在其中存储注释和标签(注释文件的格式类似于:label xywh 其中 w 和 h 表示检测到的类别的宽度和高度)。我基于COCO-API(准确地说是coco.py)来提取图像并创建空文本注释文件。

以下是我在coco.py 之上编写的主要功能:

if __name__ == "__main__":
    littleCo = COCO('/home/r.bohare/coco_data/annotations/instances_train2014.json')
    #id_laptop = littleCo.getCatIds('laptop')

"""Extracting image ids corresponding to backpack and laptop images."""
    bag_img_ids = littleCo.getImgIds(catIds=[27])
    laptop_img_ids = littleCo.getImgIds(catIds=[73])
    #print "IDs of bag images:", bag_img_ids
    #print "IDs of laptop imgs:", laptop_img_ids

"""Extracting annotation ids corresponding to backpack and laptop images."""
    bag_ann_ids = littleCo.getAnnIds(catIds=[27])
    laptop_ann_ids = littleCo.getAnnIds(catIds=[73])
    #print "Annotation IDs of bags:", bag_ann_ids
    #print "Annotation IDs of laptops:", laptop_ann_ids

"""Extracting image names corresponding to bag and laptop categories."""
    bag_imgs = littleCo.loadImgs(ids=bag_img_ids)
    laptop_imgs = littleCo.loadImgs(ids=laptop_img_ids)
    #print "Bag images:", bag_imgs
    #print "Laptop images:", laptop_imgs

    bag_img_names = [image['file_name'] for image in bag_imgs]
    laptop_img_names = [image['file_name'] for image in laptop_imgs]
    print "Bag Images:", len(bag_img_names), bag_img_names[:5]
    print "Laptop Images:", len(laptop_img_names), laptop_img_names[:5]

"""Extracting annotations corresponding to bag and laptop images."""
    bag_ann = littleCo.loadAnns(ids=bag_ann_ids)
    laptop_ann = littleCo.loadAnns(ids=laptop_ann_ids)
    bag_bbox = [ann['bbox'] for ann in bag_ann]
    laptop_bbox = [ann['bbox'] for ann in laptop_ann]
    print "Bags' bounding boxes:", len(bag_ann), bag_bbox[:5]
    print "Laptops' bounding boxes:", len(laptop_bbox), laptop_bbox[:5]

"""Saving files corresponding to bags and laptop category in a directory."""
    import shutil
    #path_to_imgs = "/export/work/Data Pool/coco_data/train2014/"
    #path_to_subset_imgs = "/export/work/Data Pool/coco_subset_data/"
    path_to_ann = "/export/work/Data Pool/coco_subset_data/annotations/"
    dirs_list = [("/export/work/Data Pool/coco_data/train2014/", "/export/work/Data Pool/coco_subset_data/")]

    for source_folder, destination_folder in dirs_list:
        for img in bag_img_names:
            shutil.copy(source_folder + img, destination_folder + img)
        print "Bag images copied!"
        for img in laptop_img_names:
            shutil.copy(source_folder + img, destination_folder + img)
        print "Laptop images copied!" 

"""Creating empty files for annotation."""
    for f in os.listdir("/export/work/Data Pool/coco_subset_data/images/"):
        if f.endswith('.jpg'):
            open(os.path.join(path_to_ann, f.replace('.jpg', '.txt')), 'w+').close()
    print "Done creating empty annotation files." 

这里只提供了main函数,其余代码是COCO-API中的coco.py文件。

我调试了代码发现有不同的数据结构:

  • cats,将类别 ID 映射到其超类别和类别名称(标签)的字典。
  • imgToAnns,也是一个字典,它将每个图像 ID 映射到它的分割基础事实、边界框基础事实、类别 ID 等。据我目前所知,我想我需要使用这本字典以某种方式映射图像我在 bag_img_nameslaptop_img_names 列表中的名称到他们的标签和边界框,但我无法正确地思考如何访问这本字典(否coco.py 中的方法直接返回它)。
  • imgs,另一个字典,提供有关所有图像的元信息,例如图像名称、图像 url、捕获日期等。

最后,我知道这是一个非常具体的问题。如果这属于 stackoverflow 以外的社区(例如 stats.stackexchange.com),请随时告诉我,我会将其删除。另外,我可能错过了一些重要信息。如果我能想到,或者如果有人要求,我会提供。

我只是 Python 的初学者,所以如果我可能遗漏了一些明显的东西,请原谅我。

非常感谢任何帮助。谢谢。

【问题讨论】:

    标签: python dictionary machine-learning data-processing mscoco


    【解决方案1】:

    2 年过去了。现在 coco.py 已经可以做你正在做的事情了,通过在最后添加一些函数来将转换为 RLE 格式的注释映射到图像。看看这个cocoapi.

    【讨论】:

      猜你喜欢
      • 2018-07-09
      • 2021-03-28
      • 1970-01-01
      • 1970-01-01
      • 2021-09-27
      • 2021-04-16
      • 2016-12-17
      • 1970-01-01
      • 2019-05-26
      相关资源
      最近更新 更多