“智能监控场景下进行大规模并行化视频分析？西安交大博士教给你”的版本间的差异

2022年6月14日 (二) 00:41的版本

随着深度学习技术的发展，智能监控所用到的检测、识别、跟踪等技术已经达到了非常高的精度。

3月23日起，智东西联合NVIDIA推出「实战营」第一季，共计四期。第三期于4月13日晚8点在智东西「智能安防」系列社群开讲，由西安交通大学人工智能与机器人研究所博士陶小语、NVIDIA高级系统架构师易成二位讲师先后主讲，主题分别为《智能监控场景下的大规模并行化视频分析方法》和《NVIDIA DGX-2 驱动智能监控革命》。

深度学习在图像识别、智能视频分析技术方面的精度不断提升，使得安防成为了深度学习快速落地的最清晰方向之一，而计算力的发展，使得大规模的并行计算成为了可能。西安交通大学人工智能和机器人研究所借助双路Tesla P100 GPU强大的并行计算能力，基于大规模深度神经网络构建了智能视频分析系统，实现了对多路视频流的实时处理以及对大规模离线监控录像的高效分析，极大地加速了视频处理的运行效率。

本文为陶小语博士的主讲实录，共计7192字，预计13分钟读完。在浏览主讲正文之前，可以思考以下四个问题：

-如何正确认知基于深度学习的视频分析技术？

-如何通过多路视频流的数据并行或并发流水线方法实现视频分析系统的并行化？

-在大规模视频分析应用中如何合理、灵活的分配计算资源以实现资源利用最大化？

-如何利用跳帧采样技术避免计算资源浪费、提高资源利用率？

智东西「实战营」第一季第一期由图玛深维首席科学家陈韵强和NVIDIA高级系统架构师付庆平，分别就《深度学习如何改变医疗影像分析》、《DGX超算平台-驱动人工智能革命》两个主题在智东西旗下「智能医疗」社群进行了系统讲解。第二期由NVIDIA深度学习学院认证讲师侯宇涛主讲，主题为《手把手教你使用开源软件DIGITS实现目标检测》。第四期是在智东西旗下「高性能计算」社群开讲，主题为《GPU加速的空间天气预报》，主讲老师为清华大学计算机系副教授都志辉、NVIDIA高级系统架构师易成。

主讲环节

陶小语：大家晚上好！我是西安交通大学人工智能与机器人研究所博士陶小语，今天讲解的主题是《智能监控场景下的大规模并行化视频分析方法》。这个主题也是我们实验室合作项目里面做的比较多的一个应用。我们是视频监控组，随着深度学习发展，对大规模的视频图像去做智能分析，在安防领域是非常有应用场景的，所以今天我会给大家来讲解一下，我们实验室在智能监控场景下的大规模并行化视频分析方法。

这一次演讲主要是有以下五个部分：

1，智能监控领域的应用背景以及行业进展；

2，基于深度学习的视频分析技术；

3，视频分析系统的组成以及如何对一个视频分析系统进行并行化；

4，基于Tesla P100的视频分析加速平台；

5，P100视频硬解码加速与视频跳帧采样等一些工程化的应用技巧。

智能监控领域的应用背景以及行业进展

目前来说，智能安防是智慧城市非常重要的一项组成部分。智能安防主要包括视频监控以及人脸识别这些已经落地的商业应用，此外，智能安防还和目前非常火爆的无人驾驶息息相关。

从这一页PPT里面我们可以看到视频监控占整个安防行业的50%，而且呈现逐年上升的趋势。在其他方面，包括实体防护、出口控制、防盗报警等几项应用也瓜分了安防市场50%的份额，而近年来，中国安防行业市场规模也在逐年扩大，从2011年的2773亿直接涨到了2017年的6540亿，每年都有15%到20%增长率，是非常具有应用场景的一个行业。

智能监控都要做些什么呢？传统的监控领域，仅仅是用监控设备去拍一些监控视频，然后由人来对视频中一些敏感的目标进行分析。而智能视频监控，旨在通过视觉模式识别技术，对监控视频中目标、行为、事件等对象来进行智能识别和分析。比如我需要检测监控场景里面都有哪些目标，其中有人还是车，再分析监控场景中目标的行为，对监控视频中的一些敏感事件进行检测等。

随着深度学习技术的发展，智能监控所用到的检测、识别、跟踪等技术已经达到了非常高的精度，大家可以看图中从上到下分别是人脸检测与识别、行人检测与跟踪、行人姿态估计、车辆检测、车型识别以及交互识别等几大主要领域，而视频监控需要把这些领域的技术融合起来，然后对监控视频做各个维度的分析。

基于深度学习的视频分析技术

现在我来向大家介绍一下基于深度学习的视频分析技术概括。这张PPT里大致把目前最核心的几个技术给列了出来：

首先是目标检测，这个不用介绍，我相信做过视觉的同行大都了解此领域。目标检测和图像分类是视觉技术中一个非常基础的任务，其目的就是跟踪场景中感兴趣的一些物体，包括常规的目标检测、人员检测以及车辆检测等等；

目标检测完成以后，需要针对每个检测到的目标来计算其运动轨迹，根据目标的数量以及摄像头的数量，可以分为单目标跟踪、多目标跟踪，单摄像头跟踪、跨摄像头跟踪等；

人脸识别又是另一个已经落地的商业应用，它主要是为了识别或验证场景中的人脸，包括人脸检测、关键点检测、属性分析、人脸比对以及检索等；

而行为识别是为了识别人体动作以及人与物体之间的交互，现在做行为识别比较简单一点的任务，就是在一段视频中去判断里面是否发生了某个动作，稍微难一点的是做行为检测，需要从一段很长的视频中去找出每个动作所发生的时间段；而更难一些的还要识别出动作的主体、客体以及交互的对象、动作的状态等；

还有一个应用领域是图像增强，也是最近进展比较快的。在我们监控到的视频中，它很容易受到环境和视频采集设备的影响。通常我们采集到的视频是不理想的，伴有噪音、运动模糊等，是需要进行视频方面的增强，比如做超分、去模糊、去抖动以及去雾、去雨雪之类的。

个人工具

视图

“智能监控场景下进行大规模并行化视频分析？西安交大博士教给你”的版本间的差异

来自China Digital Space

2022年6月14日 (二) 00:41的版本

CDS English

CDS总目

CDS专页

CDT经典

@@ 第38行： / 第38行： @@
 [[File:智能监控2.jpg|650px|center|智能监控2]]
+目前来说，智能安防是智慧城市非常重要的一项组成部分。智能安防主要包括视频监控以及人脸识别这些已经落地的商业应用，此外，智能安防还和目前非常火爆的无人驾驶息息相关。
+[[File:智能监控3.jpg|650px|center|智能监控3]]
+从这一页PPT里面我们可以看到视频监控占整个安防行业的50%，而且呈现逐年上升的趋势。在其他方面，包括实体防护、出口控制、防盗报警等几项应用也瓜分了安防市场50%的份额，而近年来，中国安防行业市场规模也在逐年扩大，从2011年的2773亿直接涨到了2017年的6540亿，每年都有15%到20%增长率，是非常具有应用场景的一个行业。
+[[File:智能监控4.jpg|650px|center|智能监控4]]
+智能监控都要做些什么呢？传统的监控领域，仅仅是用监控设备去拍一些监控视频，然后由人来对视频中一些敏感的目标进行分析。而智能视频监控，旨在通过视觉模式识别技术，对监控视频中目标、行为、事件等对象来进行智能识别和分析。比如我需要检测监控场景里面都有哪些目标，其中有人还是车，再分析监控场景中目标的行为，对监控视频中的一些敏感事件进行检测等。
+[[File:智能监控5.jpg|650px|center|智能监控5]]
+随着深度学习技术的发展，智能监控所用到的检测、识别、跟踪等技术已经达到了非常高的精度，大家可以看图中从上到下分别是人脸检测与识别、行人检测与跟踪、行人姿态估计、车辆检测、车型识别以及交互识别等几大主要领域，而视频监控需要把这些领域的技术融合起来，然后对监控视频做各个维度的分析。
+基于深度学习的视频分析技术
+现在我来向大家介绍一下基于深度学习的视频分析技术概括。这张PPT里大致把目前最核心的几个技术给列了出来：
+[[File:智能监控6.jpg|650px|center|智能监控6]]
+首先是目标检测，这个不用介绍，我相信做过视觉的同行大都了解此领域。目标检测和图像分类是视觉技术中一个非常基础的任务，其目的就是跟踪场景中感兴趣的一些物体，包括常规的目标检测、人员检测以及车辆检测等等；
+目标检测完成以后，需要针对每个检测到的目标来计算其运动轨迹，根据目标的数量以及摄像头的数量，可以分为单目标跟踪、多目标跟踪，单摄像头跟踪、跨摄像头跟踪等；
+人脸识别又是另一个已经落地的商业应用，它主要是为了识别或验证场景中的人脸，包括人脸检测、关键点检测、属性分析、人脸比对以及检索等；
+而行为识别是为了识别人体动作以及人与物体之间的交互，现在做行为识别比较简单一点的任务，就是在一段视频中去判断里面是否发生了某个动作，稍微难一点的是做行为检测，需要从一段很长的视频中去找出每个动作所发生的时间段；而更难一些的还要识别出动作的主体、客体以及交互的对象、动作的状态等；
+还有一个应用领域是图像增强，也是最近进展比较快的。在我们监控到的视频中，它很容易受到环境和视频采集设备的影响。通常我们采集到的视频是不理想的，伴有噪音、运动模糊等，是需要进行视频方面的增强，比如做超分、去模糊、去抖动以及去雾、去雨雪之类的。