AI深度（上） | 3D人脸识别和结构光

2019-06-03 · 作者：房叔话安防

[导读]当安防不再是安防，AI不再是AI的时候，二者的边界模糊了。纽豪斯陷入了深思，到底安防行业的发展趋势是什么？

文/纽豪斯

发布/AI智道

一文看尽双目摄像、结构光、ToF和激光雷达技术；一文深入了解奥比中光、华捷艾米、的卢深视、Pico和镭神智能；2大趋势、2大核心技术。

开篇

最近纽豪斯深感疲惫，主要是2个热点话题给闹的。一个是“996”，前段时间引起了热烈的讨论，一周工作6天，每天工作12个小时，如果礼拜天做工一天，基本上就没有什么休息时间了，当然我也听说个一个工作方式，叫做“5+2、白+黑、夜总会”，解释一下就是一周工作7天、白天和晚上都工作、晚上总是开会，总结一下就是又忙又累。另外一个热点就是贸易战，有人说“华为、海康必有一战”没有想到的却是贸易战，AI智道并没有去蹭这个热点话题去写点文章吸引一下关注或访问量，不过天天要看这些相关的文章，实在是太多了花费了不少的时间去了解，不看也不行。故而耽误了码文字的时间，导致AI智道迟迟不能更新，毕竟我码文字有两个原则：

如果你看了纽豪斯的文章觉得没有价值那就是浪费你的时间；
如果我写的文章访问量不大，那就是浪费纽豪斯的时间。

贸易战中兴、华为、海康、大华都牵涉其中，这些都是大企业，差不多都在建设自己的生态圈（合作伙伴），不过个人建议大企业还是要给广大的中小企业留一条路，超高的增长率（明显高于市场平均增长率）在市场总量不变的情况下，差不多就是从别人的地盘里抢粮食，当然这是市场法则，也无可厚非。

巴楚胡杨

说起贸易战纽豪斯就想起了一种植物，新疆有一总树名叫胡杨，胡杨有三个特点，我记得当地人给我介绍过“生而千年不死、死而千年不倒、倒而千年不朽”，希望我国的领头羊企业能够拥有胡杨的特质。

前言

当安防不再是安防，AI不再是AI的时候，二者的边界模糊了。纽豪斯陷入了深思，到底安防行业的发展趋势是什么？

经过3个多月（自春节以来），纽豪斯拜访了大量的客户、合作伙伴、产品供应商，发现AI赋能安防的未来2大发展趋势：

3D人脸识别
非人脸识别

国内有4家AI独角兽企业（云从、依图、旷视、商汤），都以人脸识别技术起步并名扬天下，据纽豪斯的了解均是基于2D图像（RGB摄像机）的人脸识别，当人脸库是2D图像时用2D技术自然是没有问题的，但是当需要金融级支付技术的时候，就需要唯一性和准确性并能防欺骗，2D技术无法完美解决活体识别，故而人脸识别的发展逐步从2D走向3D识别，这是趋势之一。

人脸识别技术存在着天然的适用场景，比如人证合一比对（身份证实名认证）、人脸门禁系统、人脸考勤系统等场景，这些都是基于人脸，故而存在市场刚需。除此之外，因为存在隐私保护和数据安全的双重要素，世界范围内对是否采用人脸识别技术用于视频监控尚存在较大的争议和分歧，比如前段时间就发生了“经过三个多月的议会讨论，最终8:1投票通过，禁止旧金山的政府机构使用人脸识别技术”，而计算机视觉技术的发展足以达到商用的程度，如果不能人脸识别，剩下的自然就是非人脸识别，可以是人体特征识别、车牌识别、物体识别、行为识别等其它形式。这也是一种趋势。

大势所趋

如果3D人脸识别和非人脸识别两大趋势成立，那么如何实现3D人脸识别和非人脸识别就是摆在AI企业面前的两个技术问题，这正是本篇文章纽豪斯要为大家介绍的“深度相机技术”。写文章要有深度，做AI同样需要有深度，深度可以全息刻画一个目标对象，透过现象看本质。

深度相机的分类下图所示：

深度相机的分类

目前市面上主流的人脸门禁系统活体检测采用的就是双目摄像机，结构光摄像机主要应用手机（典型代表iPhone X）和人脸门禁系统（尚未普及），ToF还是一项新技术主要用于物体测距。接下来纽豪斯就带大家领略一下这4大技术。

双目摄像技术（Stereo System）

由两个单目相机组成（两个相机之间的距离叫“基线”是已知的），通过这个基线来估计每个像素的空间位置来测量物体与我们之间的距离，克服单目相机无法知道距离的缺点。双目相机测量到的深度范围和基线有关，基线距离越大，能够测量到的就越远。

优点：可用于室内也可用于室外。

缺点：配置与标定较为复杂，其深度和精度受双目的基线或者分辨率所限，并且视差的计算非常消耗计算机资源，在现有的条件下，计算量是双目的主要问题之一。

双目立体视觉中空间点三维重建（来源：沈子恒）

平视双目立体成像原理图（来源：沈子恒）

平视双目立体成像原理图，两摄像机的投影中心连线的距离，即基线距离B。两摄像机在同一时刻观看时空物体的同一特征点P，分别在“左眼”和“右眼”上获取了点P的图像，他们的坐标分别为Pleft=（Xleft,Yleft）；Pright=（Xright,Yright）。将定两摄像机的图像在同一平面上，则特征点P的图像坐标的Y坐标一定是相同的，即Yleft = Yright =Y。由三角几何关系可以得到如下关系式：

视差为：Disparity=Xleft-Xright.由此可以计算出

特征点P在摄像机坐标系下的三维坐标：

因此，左摄像机像面上的任意一点只要能在右摄像机像面上找到对应的匹配点，就完全可以确定该点的三维坐标。这种方法是点对点的运算，像平面上所有点只要存在相应的匹配点，就可以参与上述运算，从而获取对应的三维坐标。

目前市面上主流的活体检测和防伪解决方案主要是采用双目摄像技术，相比较结构光和ToF方案，价格更加低廉，模块也比较成熟。

典型代表：视派尔公司的EP36WDLDIR双目摄像模组

EP36WDLDIR双目摄像模组（图片来源：视派尔）

低功耗USB CAM，支持高清摄像头功能，支撑WDR，强光抑制，暗光补偿，人像优化，场景优化。

主要产品特性

1/2.7E"工业级200万高清图像传感器
RGB: 宽动态115DB
IR：80DB适合复杂的光线环境
0.01Lux(F=1.2)超低照效果
功耗3.0W
兼容Windows、Linux、MAC多种系统

视派尔系列产品（纽豪斯拍摄）

双目成像效果（纽豪斯拍摄）

3D结构光技术

双目摄像机具备一定的深度探测功能，有一定的深度，但属于被动方式。真正意义上的3D成像当属于主动光源的3D结构光技术，采用的是结构光法。

结构光法(Structured Light)通过向表面光滑无特征的物体发射具有特征点的光线，依据光源中的立体信息辅助提取物体的深度信息。具体的过程包括两个步骤，首先利用激光投影仪向目标物体投射可编码的光束，生成特征点；然后根据投射模式与投射光的几何图案，通过三角测量原理计算摄像机光心与特征点之间的距离，由此便可获取生成特征点的深度信息，实现模型重建。这种可编码的光束就是结构光，包括各种特定样式的点、线、面等图案。结构光法解决了物体表面平坦、纹理单一、灰度变化缓慢等问题。因为实现简单且精度较高，所以结构光法的应用非常广泛，目前已有多家公司生产了以结构光技术为基础的硬件设备，如Prime Sense公司的Prime Sensor、微软公司的Kinect和华硕公司的Xtion PRO LIVE等产品。

结构光三维视觉原理图（来源于网络）

深度图效果：结构光vs.双目摄像

下图左是普通双目立体视觉深度相机拍摄的图像和对应的深度图结果；下图右是结构光法的深度相机投射的图案及对应的深度图结果，明显可以观察到在同样的场景下结构光法得到的深度图更完整，细节更丰富，效果大大好于双目立体视觉法。

左：RGB stereo，右：Structure light（来源：计算机视觉life）

结构光法不依赖于物体本身的颜色和纹理，采用了主动投影已知图案的方法来实现快速鲁棒的匹配特征点，能够达到较高的精度，也大大扩展了适用范围。

结构光法投射的图案需要进行精心设计和编码，结构光编码的方式有很多种，一般分为如下几大类：

1.直接编码（Direct coding）

根据图像灰度或者颜色信息编码，需要很宽的光谱范围。

优势：对所有点都进行了编码，理论上可以达到较高的分辨率。

缺点：受环境噪音影响较大，测量精度较差。

Direct coding（来源：计算机视觉life）

2.时分复用编码（Time multiplexing coding）

该技术方案需要投影N个连续序列的不同编码光，接收端根据接收到N个连续的序列图像来每个识别每个编码点。投射的编码光有二进制码（最常用）、N进制码、灰度+相移等方案。

该方案的优点：测量精度很高（最高可达微米级）；可得到较高分辨率深度图（因为有大量的3D投影点）；受物体本身颜色影响很小（采用二进制编码）。

缺点：比较适合静态场景，不适用于动态场景；计算量较大（因为识别一个编码点需要计算连续N次投影）。

Time multiplexing coding（来源：计算机视觉life）

3.空分复用编码（Spatial multiplexing coding）

根据周围邻域内的一个窗口内所有的点的分布来识别编码。

该技术的优势：适用于运动物体。

缺点：不连续的物体表面可能产生错误的窗口解码（因为遮挡）。

Spatial multiplexing coding（来源：计算机视觉life）

最早结构光方案就是以色列PrimeSense公司的Light Coding的技术，该方案最早被应用于Microsoft的明星产品Kinect1（Kinect2是基于TOF的技术）上。后被苹果收购，iPhone X利用的就是该公司的结构光技术。

结构光虽然说相较双目摄像机有很大的提升，但依然存在一定的优缺点。

优点：

由于结构光主动投射编码光源，因而非常适合在光照不足（甚至无光，尤其是夜间）、缺乏纹理的场景使用。
结构光投影图案一般经过精心设计，所以在一定范围内可以达到较高的测量精度。
技术成熟，相比较双目摄像深度图像可以做到相对较高的分辨率。

缺点：

室外环境基本不能使用。这是因为在室外容易受到强自然光（超过2000Lux）影响，导致投射的编码光被淹没。
测量距离较近。物体距离相机越远，物体上的投影图案越大，精度也越差，相对应的测量精度也越差。所以基于结构光的深度相机测量精度随着距离的增大而大幅降低。因而，往往在近距离场景中应用较多。
容易受到光滑平面反光的影响。

3D结构光技术在iPhone的带领下在手机领域得到广泛的应用，目前最新的人脸支付系统的硬件多采用3D结构光，比如支付宝和奥比中光合作、腾讯和华捷艾米合作。

根据雷锋网早前报道：2019年4月17日，支付宝在北京发布了第二代刷脸支付设备——“蜻蜓2.0”，与1.0版本相比，“蜻蜓2.0”主要有两点提升：一是不用再输手机号，可以单纯靠刷脸完成支付；二是首次接入了刷脸即会员的数字化经营能力。

纽豪斯在前文说过，3D人脸识别将会是未来的一个趋势，那么这个趋势中最佳的3D人脸识别模式将会是3D结构光，可有效的解决2D的人脸防伪问题，更可以很好的解决人脸的唯一性。3D结构光的3D人脸应用中最大缺陷是相比较2D，系统缺乏3D人脸的底库，需要一个一个的采集后才能够形成3D人脸库，而不像2D人脸库标准的身份证大库中就有，不需要额外采集，不过这方面的卢深视已经走在最前面。

3D结构光典型代表：奥比中光

深圳奥比中光于2013年1月份成立，是一家集研发、生产、销售为一体的3D传感技术高科技企业；作为国际领先的3D传感方案提供商，是继苹果、微软、英特尔之后，第四家（国内第一且唯一）能够量产消费级3D结构光传感器的公司。

奥比中光3D结构光深度摄像头，是基于3D结构光技术所设计的一种高精度、低功耗的3D摄像头，可为智能终端加上了物体感知功能，从而引入多个“痛点型应用场景”，包括人脸识别、活体检测、人机交互、人流统计、三维建模、AR、安防和辅助驾驶等，让所有终端都能看懂世界。3D结构光深度摄像头可实现实时三维信息采集，为这些应用功能提供必要的且高质量的三维数据，从而大大提高了应用功能的安全性、可靠性等各项性能。

ASTRA产品图片（来源：奥比中光）

ASTRA Pro拆分图（来源：奥比中光）

ASTRA Pro结构图（来源：奥比中光）

3D结构光产品可广泛应用于3D人脸识别/3D表情识别，包括3D刷脸支付、3D人脸门禁、3D动画表情等；也可以用于3D点云（彩色图/深度图），包括3D物体尺寸测量、机器人Slam、3D试衣服、距离测量等；还可以用于人体骨骼识别和跟踪、行为分析，应用场景包括娱乐、安保、客流分析等。

3D结构光典型代表：华捷艾米

北京华捷艾米成立于 2014 年，专注于计算机 3D 视觉、人机智能交互及 3D MR 混合现实技术。拥有核心知识产权的 3D 视觉及 MR 解决方案的人工智能企业，打破苹果、微软的技术垄断。

提供包含“3D 摄像头、3D摄像头模组、3D AI/MR 芯片、3D AI/MR 算法体系、开发工具包等”在内的一站式企业级解决方案。在人脸支付领域和腾讯达成战略合作。

在新零售领域，华捷基于3D 机器视觉及MR人工智能技术达到顾客购物的全程身份识别、行为监控、记录、分析及智能支付，并提供客户消费行为全程云平台大数据。典型应用包括3D 刷脸支付、客流统计；在智能家居领域，华捷基于人体行为识别和 MR 人工智能技术达到精准、自然人机交互。典型应用包括人脸门禁系统；在智能安防领域，华捷艾米利用自有硬件和算法，利用当前先进的深度识别算法，通过 3D 检测技术，获取人流数据。当所监控的人流数量达到设定的阀值或出现异常行为时，自动启动预警方案。

华捷艾米的主要产品集中在以下几个方面：

3D 摄像头。3D骨架识别、3D智能SLAM、3D手势识别、3D人脸识别等多种算法。
3D AI/MR 芯片。面向消费电子、智能安防、智能物流等 AIOT 领域的 3D Sensor 专用芯片，产品搭载了华捷艾米第四代深度测量引擎，芯片大小只有 5*5 ㎜，产品功耗 100 毫瓦（mw），解决了行业通用芯片功耗高、效率低等诸多弊端。
3D 摄像头模组。基于业界领先的设计能力，华捷艾米 3D 光学模组产品可用于单目结构光、主动双目等 3D测量方案，并提供不同功率、不同尺寸、不同视场角的适用于室内和户外场景的系列化产品。
SDK。华捷艾米 SDK 是一个多语言跨平台的 AR/MR 应用开发套件。

核心技术（来源：华捷艾米）

代表产品：A200+mini模组

A200+mini结构图（来源：华捷艾米）

华捷艾米A200+mini自主研发的高清智能小型化超薄 3D 摄像头产品，基于散斑结构光原理设计，搭载华捷艾米最新ASIC芯片，能快速准确获取目标的深度信息可适用于近距离（0.28 ~1m ）人脸识别、深度数据采集，立体与平面判断等。应用于近距离物体识别场景，如新零售行业的人脸支付、火车站的人证核验等。

3D结构光典型代表：的卢深视

一般的人不大了解的卢深视，如果是长期从事公安人脸解决方案的同行可能就听说过，尤其是他们的产品已经在安检、边检方面取得大量应用成果，拥有大容量的3D人脸库建模和训练经验。的卢深视是一家专注三维机器视觉和人工智能领域的高新技术企业，成立于2015年8月，总部位于北京，在杭州、合肥两地设有研发中心，在结构光深度感知、三维实时高精度重建、三维跟踪识别及感知等技术方向上处于领先地位。

的卢深视以“真”三维人脸识别技术为依托，区别于常见的“二维识别+ 三维防作伪”产品，以技术迭代引领业界标准，其三维人脸识别技术水平远超其他识别手段。关键是拥有百万级三维人员库高准确度识别经验，千万级以上大库也有实操经验。

据媒体公开报道：的卢深视在结构光深度感知、三维实时高精度重建、三维跟踪识别及感知等技术方向上，实现了技术领先。布局了自己的”云端芯“的产品战略，发布了哨兵、天眼、鹰眼、火眼、冰鉴五个产品系列。

的卢深视的产品线主要包括：

三维智能人脸开发套件

三维人脸开发套件（来源：的卢深视）

集成了三维/ 二维人脸识别功能、三维人脸建模功能、活体检测功能于一体的人工智能开发平台。采用散斑结构光技术来获取准确的三维人脸数据，内嵌高性能硬件处理平台和强大的人工智能处理算法，具有高扩展性和集成度，满足多样化行行业需求。

嵌入式三维人脸验证一体机/闸机终端/门禁终端

三维人脸终端（的卢深视）

一款集成了三维高清摄像机、具备三维人像采集功能的人证通类产品。该类设备能够提取现场持证人的三维人像和身份证照片，进行1:1 比对，完成身份核验。基于深度学习算法，识别速度快、准确率高，基于三维人像的防作伪能力比二维相机更高，它能够利用三维人脸特征的唯一性进行精准识别，解决人员忘带证件无法通行、冒用他人证件非法通行等问题。的卢深视三维人脸验证闸机终端采用基于自研的深度学习三维人脸识别智能算法，具有先进、高效、安全等优点，适用于闸机厂家、系统集成商和设备厂商。

这大概是纽豪斯所知的唯一大规模商用的3D结构光人脸终端机。

“天眼”高清三维网络摄像机

MN100/200 是在出入口通道用于动态采集二维视频及三维深度信息并通过网络编码传输的高清三维网络摄像机。

“天眼”三维人脸智能盒子

配合“天眼”高清三维网络摄相机，实现三维人脸检测、跟踪、抓拍、识别以及属性分析的软硬一体的计算模块。它采用了嵌入式操作系统和高性能硬件处理平台，具有较高的稳定性和可靠性。

哨兵系列 | 一次通行、多维采集、关联碰撞、全面预警

哨兵系列（来源：的卢深视）

这两款哨兵系列已经得到大规模的应用。拥有多种功能，一次性可以采集多维数据，包括人、码、证的信息。

-上篇完-

AI智道深度文章下篇文章将为大家深度揭秘ToF技术和激光雷达技术，敬请持续关注。

参考文献：

深度相机技术对比，人人智能，王海增
双目立体视觉的数学原理，沈子恒，https://blog.csdn.net/shenziheng1/article/details/52883536
深度相机原理揭秘--结构光，计算机视觉life，https://blog.csdn.net/electech6/article/details/78707839
深度相机原理揭秘--飞行时间（TOF），计算机视觉life，https://blog.csdn.net/electech6/article/details/78349107
3D ToF技术市场热度高居不下，系统级解决方案引爆新一轮行业应用浪潮，MEMS，麦姆斯咨询

版权说明：本文核心素材来自人人智能，部分素材来源于互联网，凡能注明素材出处的尽可能都予以注明。本文内容禁止用于商业目的，如需转载事先和AI智道联系获取授权。

致谢：感谢人人智能王海增提供了基础素材，感谢PICO小鸟看看、华捷艾米、奥比中光、的卢深视、镭神智能提供的内容素材。