【问题标题】:How to map pixels (R, G, B) in a collection of images to a distinct pixel-color-value indices?如何将图像集合中的像素(R、G、B)映射到不同的像素颜色值索引?
【发布时间】:2016-12-23 05:49:19
【问题描述】:

假设有 600 个带注释的语义分割掩码图像,其中包含 10 种不同的颜色,每种颜色代表一个实体。这些图像是一个 numpy 形状数组 (600, 3, 72, 96),其中 n = 600, 3 = RGB 通道,72 = 高度,96 = 宽度。

如何将 numpy 数组中的每个 RGB 像素映射到颜色索引值?例如,颜色列表将是 [(128, 128, 0), (240, 128, 0), ...n],并且 numpy 数组中的所有 (240, 128, 0) 像素都将转换为索引唯一映射中的值 (= 1)。

如何用更少的代码高效地做到这一点?这是我想出的一种解决方案,但速度很慢。

# Input imgs.shape = (N, 3, H, W), where (N = count, W = width, H = height)
def unique_map_pixels(imgs):
  original_shape = imgs.shape

  # imgs.shape = (N, H, W, 3)
  imgs = imgs.transpose(0, 2, 3, 1)

  # tupleview.shape = (N, H, W, 1); contains tuples [(R, G, B), (R, G, B)]
  tupleview = imgs.reshape(-1, 3).view(imgs.dtype.descr * imgs.shape[3])

  # get unique pixel values in images, [(R, G, B), ...]
  uniques = list(np.unique(tupleview))

  # map uniques into hashed list ({"RXBXG": 0, "RXBXG": 1}, ...)
  uniqmap = {}
  idx = 0
  for x in uniques:
    uniqmap["%sX%sX%s" % (x[0], x[1], x[2])] = idx
    idx = idx + 1
    if idx >= np.iinfo(np.uint16).max:
      raise Exception("Can handle only %s distinct colors" % np.iinfo(np.uint16).max)

  # imgs1d.shape = (N), contains RGB tuples
  imgs1d = tupleview.reshape(np.prod(tupleview.shape))

  # imgsmapped.shape = (N), contains uniques-index values
  imgsmapped = np.empty((len(imgs1d))).astype(np.uint16)

  # map each pixel into unique-pixel-ID
  idx = 0
  for x in imgs1d:
    str = ("%sX%sX%s" % (x[0], x[1] ,x[2]))
    imgsmapped[idx] = uniqmap[str]
    idx = idx + 1

  imgsmapped.shape = (original_shape[0], original_shape[2], original_shape[3]) # (N, H, W)
  return (imgsmapped, uniques)

测试它:

import numpy as np
n = 30
pixelvalues = (np.random.rand(10)*255).astype(np.uint8)
images = np.random.choice(pixelvalues, (n, 3, 72, 96))

(mapped, pixelmap) = unique_map_pixels(images)
assert len(pixelmap) == mapped.max()+1
assert mapped.shape == (len(images), images.shape[2], images.shape[3])
assert pixelmap[mapped[int(n*0.5)][60][81]][0] == images[int(n*0.5)][0][60][81]
print("Done: %s" % list(mapped.shape))

【问题讨论】:

  • 嗯。你为什么要这样做?似乎只是无缘无故地增加了一个步骤。如果你想对这些颜色索引做任何事情,你将不得不搜索字典并将它们转换回 RGB 元组,不是吗?编辑:没关系,我明白了。如果您要存储一堆图像,那么存储整数而不是一组元组会更有效,因为无论如何您都预计会有一定数量的颜色 (10),对吗?
  • 是的,颜色数量是有限的。需要唯一索引,因为我将像素提供给用于预测像素类别而不是像素颜色的算法。灰度图像(强度例如 0-10)也可以,但是图像不容易通过标准工具(= 图像查看器、编辑器等)可视化。最后,经过预测,需要映射回RGB值,是的。

标签: python image performance numpy image-processing


【解决方案1】:

这是一种没有这些错误检查的紧凑矢量化方法 -

def unique_map_pixels_vectorized(imgs):
    N,H,W = len(imgs), imgs.shape[2], imgs.shape[3]
    img2D = imgs.transpose(0, 2, 3, 1).reshape(-1,3)
    ID = np.ravel_multi_index(img2D.T,img2D.max(0)+1)
    _, firstidx, tags = np.unique(ID,return_index=True,return_inverse=True)
    return tags.reshape(N,H,W), img2D[firstidx]

运行时测试和验证 -

In [24]: # Setup inputs (3x smaller than original ones)
    ...: N,H,W = 200,24,32
    ...: imgs = np.random.randint(0,10,(N,3,H,W))
    ...: 

In [25]: %timeit unique_map_pixels(imgs)
1 loop, best of 3: 2.21 s per loop

In [26]: %timeit unique_map_pixels_vectorized(imgs)
10 loops, best of 3: 37 ms per loop ## 60x speedup!

In [27]: map1,unq1 = unique_map_pixels(imgs)
    ...: map2,unq2 = unique_map_pixels_vectorized(imgs)
    ...: 

In [28]: np.allclose(map1,map2)
Out[28]: True

In [29]: np.allclose(np.array(map(list,unq1)),unq2)
Out[29]: True

【讨论】:

  • 确实是 60 倍,一个数据集的预处理时间从 4 小时减少到 4 分钟 :) 谢谢! ravel_multi_index 的文档非常稀少,无法真正理解它的作用。作为起点的最大像素值是什么意思?据我了解,它以某种方式将这些 3-elem 数组压缩为唯一的 int 表示,但是这些(大)整数如何以及代表什么?
  • @Mika 啊,你真幸运!看看这篇文章:stackoverflow.com/a/38674038/3293881
【解决方案2】:

我有 3 个通道的图像。我有 3 个通道的像素值,如果一个像素在其 3 个通道中具有这 3 个值,那么它属于“A”类。 基本上我想生成一个通道数组,等于类数,每个类在特定通道中分开。 这是可以做到的

seg_channel = np.zeros((image.shape[0], image.shape[1], num_classes))
pixel_class_dict={'1': [128, 64, 128]. '2': [230, 50, 140]} #num_classes=2
for channel in range(num_classes):
    pixel_value= pixel_class_dict[str(channel)]
    for i in range(image.shape[0]):
        for j in range(image.shape[1]):
            if list(image[i][j])==pixel_value:
                classes_channel[i,j,channel]=1

还有另一种方法可以有效地做到这一点

import numpy as np
import cv2
for class_id in self.pixel_class_dict:
      class_color = np.array(self.pixel_class_dict:[class_id])
      seg_channel[:, :, class_id] = cv2.inRange(mask, class_color, class_color).astype('bool').astype('float32')

【讨论】:

    【解决方案3】:

    这就是我的工作:

    def rgb2mask(img): 
        if img.shape[0] == 3:
           img = img.rollaxis(img, 0, 3) 
    
        W = np.power(256, [[0],[1],[2]])
    
        img_id = img.dot(W).squeeze(-1) 
        values = np.unique(img_id)
    
        mask = np.zeros(img_id.shape)
        cmap = {}
    
        for i, c in enumerate(values):
            idx = img_id==c
            mask[idx] = i 
            cmap[tuple(img[idx][0])] = i
        return mask, cmap
    

    如果您想根据现有字典映射值,请查看我在此线程上的答案:Convert RGB image to index image

    【讨论】:

      猜你喜欢
      • 1970-01-01
      • 2018-01-10
      • 1970-01-01
      • 1970-01-01
      • 1970-01-01
      • 1970-01-01
      • 1970-01-01
      • 2020-10-24
      • 2017-07-16
      相关资源
      最近更新 更多