跳到主要内容
研究

提高计算机视觉深度学习算法的注释效率

raybet雷竞技ios下载博世研究博客|作者:Amit Arvind Kale, 2021-01-14

用于语义分割的注释示例

图像分类,目标检测,语义分割或实例分割都是计算机视觉感兴趣的任务。最近用于计算机视觉任务的深度学习方法的成功导致了对大量注释数据的需求。标记的复杂性和成本随着这些任务的顺序而增加,最高的成本发生在实例级分割上,其中一个对象的每个实例(如车辆或人)都必须在像素级上进行注释。

挑战:为标记数据付出巨大努力

该图显示了用于语义分割的注释示例。很容易看出,贴标人员完成这项任务所需的时间和精力可能相当高,导致贴标成本非常高。这样的任务可能需要一到两个小时才能完成一张图像。由于语义分割算法即使在罕见事件中也有望表现良好,因此需要标记的图像数量可能达到数百万,成本也相当高!

用于语义分割的注释示例
用于语义分割的注释示例

有几种方法可以改善这种情况,例如选择正确的数据集来发送标签,而不是发送所有帧,使用自我监督方法预训练深度学习网络,或者使用标签有效免费的合成数据。然而,在这篇文章中,我们关注的是标签任务本身。

1 - 2小时大约是人类标记一张图像所需的时间

解决方案:使用深度学习进行预标记

减少注释工作量的一种方法是“预标记”图像,因此,我们将任务转换为纠正“预标记”的错误,而不是让标注人员对每个像素进行注释。下一个问题是如何预先标记图像。在前深度学习时代的早期工作中,在为视频监控构建学术数据集时,我们提出了一个基于背景减法和物体检测的早期版本的预标签:

更多关于离线生成高质量的背景减法数据

更多关于交互式生成的“ground-truth”背景从部分标记中减去例子

在更近的时代,标签前解决方案的答案在于深度学习本身的使用(如下面的动画所示):

如果我们能够手动标记一定数量的数据,就可以训练网络或网络集合来完成这项任务。网络集成本质上是指使用多个网络来完成手头的任务,每个网络都适用于某个特定方面。例如,一个网络可以非常准确地识别道路和路标,另一个则可以识别其他东西。集成将这些不同网络的输出结合在一起,记住它们对该对象类别的性能。不可否认,考虑到我们通常在集合中使用4-5个网络,推断图像所需的时间可能会更高。然而,预标记任务与在嵌入式硬件上使用感知堆栈进行推理的一个区别是,我们不受时间或内存的限制,即我们可以在PC环境中使用多个gpu来生成预标记。

使用深度学习进行“预标记”的过程
使用深度学习进行“预标记”的过程

下图显示了我们通过使用单个网络、两个网络和四个网络在工作上的一些质的改进。

通过使用单一网络进行质的改进
通过使用单一网络进行质的改进
通过使用两个网络进行质的改进
通过使用两个网络进行质的改进
通过使用四个网络进行定性改进
通过使用四个网络进行定性改进
/
标签前精度每提高10%,校正工作就会减少25%。

用户界面作为不准确的网关?

我们在工作中观察到的一个现象是,虽然这样的性能提升确实是可以实现的,但当我们考虑使用非通用dnn的常规要求的预标签时,还有更有趣的用户方面开始发挥作用,其中的想法是在平均交集超过联合(mIoU)指标方面获得最高水平的性能。例如:考虑一个网络为图像产生特定的mIoU,其中误差在图像的区域中均匀分布,而另一个网络产生相同的mIoU,但误差不均匀分布。相反,有些区域的分割是高度准确的,而有些区域的分割是不准确的。即使mIoU更低,标签师也更喜欢后者网络,因为他们更容易保持准确的分割,并从头开始纠正错误的分割,而不是花时间纠正每个对象中的小错误。

此外,当转向使用预标签时,前端校正工具要注意这一点是很重要的。例如,典型的标记工具涉及基于多边形的对象标记。当我们使用预标签时,与多边形产生的边界相比,边界要密集得多,使得多边形点的数量太大。在存在误差的情况下,使用主动轮廓法是可行的,其中提供了一对锚点来正确地捕捉边界。

成果:语义分割效率提高70%

预标记在注释工作方面具有优势。但是,必须在标记工具中集成几个用户界面元素才能实现这些效果。我们在Bosraybet雷竞技ios下载ch Research建立了一个工具,结合了我们上面的一些观察,并发现与标准多边形注释方法相比,我们可以实现近70%的效率提升。通过使用时间同步多模态传感器,如激光雷达和雷达,可以在此过程中实现进一步的增益。

感谢博世研究院和罗伯特·博世印度的同事在这项工作中所做的贡献。raybet雷竞技ios下载

你对这个话题有什么看法?

请随时通过领英分享或直接与我联系。

作者:Amit Arvind Kale

Amit是印度研究与技术中心的计算机视觉首席高级专家。他的研究动机是希望组织和管理大规模视频和多传感器数据(pb),目标是能够巧妙地管理算法开发所需的正确数据。这包括自动地从大量图像中选择最具代表性的子集,以及从存储的图像中搜索和检索感兴趣的场景。他的研究有多个目标,比如通过去除冗余来降低地面真相生成的成本,支持功能开发和测试,以发现算法不能很好地工作的困难案例,然后可以用来收集更多这样的案例或综合生成它们。为了实现这一目标,他和他的团队探索了深度卷积神经网络的结构和表示能力。他们开发与深度学习方法齐头并进的人机界面,以确保最终用户易于使用。

Amit Arvind Kale

分享到: