算法辅助节省标注成本

前言:我是一名数据标注行业的多年从业者,半年前从项目经理岗位转到销售岗位,这半年在和客户议价的过程中经常遇到客户这样的问题,“我们可以提供算法辅助模型,能达到90%的准确率,这样你们就可以节省标注时间了,价格可以再低一些吗?”,每当遇到这样的问题我需要花费很长时间和客户解释算法辅助并不是在所有类型的项目中都能奏效的,甚至有时候会起到负作用,正文中我会详细解释。

我曾经任职过多家数据标注公司的项目经理,接触过各类的标注项目,尝试过算法辅助的方式,但是在执行的过程中却遇到了不少坎坷和风险,今天写这篇文章的目的就是想和大家共同探讨一下算法辅助提升标注效率的可行性和我个人的一些看法,我必须声明我不是算法技术出身,我只是结合一些我所理解的概念和我这些年来做项目的经验来谈此话题,技术大神勿喷。

ps:我在下文中描述一些事实或概念的时为了便于读者理解候,我可能会稍微啰嗦一些,希望大家谅解。

正文:

首先谈一下我对算法辅助的理解,顾名思义,算法辅助一定要先有一个较为成熟算法模型才能达到辅助的效果,这个算法模型基于大量的数据标注训练而成,算法同学应该不需要我解释了。举例来说,假如我已经有一个能识别苹果的模型,准确率高达90%,也就是说我在标注新的100张苹果图片时,有90张的标签正确,10张标签错误,那么我需要做的,是将其中10张错误标签修正,假设此轮训练模型达到了91%的准确率,那么我再标注100张新的苹果图片,只有9张是错误的不断,如此迭代,最终该算法模型的准确率可能达到97%以上。

OK,以上我举的例子适用于最简单的物体检测,那么我下面会再举几个不同类型项目的栗子????。

一、OCR文字识别

首先放个最简单的单行文字。
算法辅助节省标注成本
算法辅助输出结果为:EIKT 7844853544379/1

OK,这个栗子过于简单,18个字符只错了1个,标注步骤是检测18个字符,人工只需要改1个字符,节省了手打17个字符的时间,确实提高了标注效率。

但是,实际上的大多标注场景如下图所示:
算法辅助节省标注成本
OMG,这种情况即使算法准确率能达到95%,但是对于标注人员来说,实际上并不知道哪5%是错的,所以仍然需要标注员对所有标签进行检查修改,从标注执行的过程来说,工作量并没有缩减。

下面举一个副作用的栗子,如下图是曾经我接触过一个OCR的项目。
算法辅助节省标注成本
算法辅助输出结果为:王琼涚要氽远在一起

这种由于图片模糊导致算法混淆了“永”和“氽”,“说”和“涚”,如果是纯人工手动标注,大概率不会出现这种错误,看不清的字标注员也不会胡乱猜测,但当时这个项目用到了算法辅助,这种模糊的情况下,由于标注人员也看不清原本到底写的什么,算法结果确实由和图片中的文字非常相近导致标注人员相信了算法辅助的结果,导致标注出了负样本,这种情况在OCR标注中很常见。

二、语音转写

语音转写类的项目我接触的也非常多,大约五年前我是一名兼职的数据标注员,每天8个小时不间断地听电话录音,然后把听到的内容一字不差地转写下来,一天下来手都抽筋,那个时候我没有接触到算法辅助,所有文字纯靠手打,但是近几年在语音转写标注确实在算法辅助的加持下提升了不少效率,大多数文字已经能够自动转写出来,原因很简单,这么多年语音识别算法模型一直在迭代,并且各家对于语音识别的需求基本一致,很少出现定制化的需求,算法模型本身就越来越准确,(可以回顾我上面所提到的算法辅助的概念),所以现在的语音标注基本上属于纠错以提高准确度,而非纯手动标注了,所以在语音转写方面算法辅助能提高效率我个人赞同。

三、目标检测

从目前大部分的市场需求来看,矩形框要求的贴合程度不能偏差多余1-3个像素点,我们就从无人驾驶类的项目进行举例说明,大多数的原始数据如下图。
算法辅助节省标注成本
算法辅助出来的结果很有可能如下图。
算法辅助节省标注成本
OK,至少两年前我接触到的一个项目最初的方案是接入算法模型,但看到结果后果断放弃了,首先先不谈目标遗漏错标的问题,我们先说框的精准度,如上图的结果一定是不达标的,如果让标注员去调每一个框的精确度那么比重新拉框还要慢,这样的算法辅助不仅没有做到效率提升,反而降低了不少,况且这里还没有谈到定制化需求,如是否要求对遮挡部分进行脑补,所以在这类标注项目中,算法辅助明显不能提升标注效率。

上面我们说到的只是算法不成熟导致的辅助不准确,实际上问题并不是这么简单,这还涉及到数据定制化、数据版权、数据安全的问题。

在我个人看来算法辅助是AI行业未来的愿景,也有很多企业在为此做出努力,比如2018年谷歌推出的流体标注就是个非常好的例子,但就目前而言,标注行业任然是劳动密集型产业,想要最好的训练数据,切记不可求“多快好省”,寻找最靠谱的数据供应商才是王道,下一篇我会根据经验谈一谈如何选择数据供应商。

相关文章:

  • 2022-12-23
  • 2021-07-02
  • 2022-01-23
  • 2021-12-30
  • 2021-09-15
  • 2021-09-18
猜你喜欢
  • 2022-12-23
  • 2022-01-03
  • 2021-05-31
  • 2021-10-03
  • 2022-01-21
  • 2021-06-02
相关资源
相似解决方案