全息圈
VR AR MR前沿
AR与VR技术不同,AR不会把用户同现实世界分离开来,而是要将虚拟物体和信息叠加到真实世界的场景中,起到增强现实体验的作用。从真实世界出发,采集现实场景中的数据,根据数据对现实场景进行理解,分析场景内容,最后将处理后的信息虚实结合,渲染呈现。中间的场景理解过程,相当于告知系统在哪里对现实场景“增强”,该如何进行“增强”。而场景理解的关键在于识别检测,需要识别检测出场景中重要的目标和信息。比如用于军事领域的AR眼镜,就需要识别出战场上的人和危险物体,进而标示出潜在的威胁。在AR领域,常见的物体识别检测任务包括人脸检测、行人/车辆检测,生物识别、道路/建筑识别、自然场景识别等。
物体检测和识别根本上是计算机视觉技术在AR领域的延伸,都是基于对象特征,通过有监督的学习过程达到分类或匹配的目标。根据不同的应用目标具体有两种方案:一种是基于分类器的检测识别,即预先将某一类对象的大量样本数据通过机器学习的方法进行训练,提取其标志特征,得到分类器。对于要检测的物体,通过训练得到分类器在云端或本地计算判断是否属于该类对象,并根据结果反馈不断修正模型,提高分类的精确度。这种方案主要用于类而非个体的识别,比如在汽车辅助驾驶系统中判断前方的物体是不是汽车或人,而不关心是哪种车或哪个人。而著名的AR应用Blippar可识别生活中的绝大部分日常用品,也采用的是基于分类的技术方案。
图70:Blippar采用基于分类的识别方案
图71:InfoEye可精确识别地标建筑
另一种方案是基于最佳匹配的检测识别,即数据库中预先保存了对象的标志特征以及标注信息,检测过程中,通过图像匹配算法等方法找到最相关的对象,同样可以通过结果反馈修正算法参数提高精度。这种方案主要用于精确识别环境中的目标,比如搭载于索尼XperiaZ1的InfoEye应用可识别地标性建筑,就需要精确地根据图像匹配出具体对象,不能仅仅告诉用户这是一个建筑;或在AR导航系统中,需要准确识别出是否达到目的地,而不能只检测到周围是一栋楼房或一个操场。
尽管从原理上看并不高深复杂,但实际上物体识别检测技术是计算机视觉领域最具挑战性的工作之一,存在诸多问题亟待解决:1)广义物体识别。广义物体识别指任意环境下都能进行物体识别,而现实中存在背景、噪声、光线、旋转、姿态等环境因素干扰,识别率受到很大影响;2)特征提取。特征提取是机器学习的共性问题,每一类对象都有其独有的特征,且特征确定具有较强的主观性,要把诸多类对象的特征准确提取并一一对应是很困难的工作;3)多标签问题。多标签问题是指当环境中存在多个对象时将其全部识别出来,相比于单一对象,计算复杂度、识别率都面临更严峻的挑战。物体识别检测也是制约AR推广的技术难点之一,随着深度学习相关算法的成熟,已形成一系列有效且可靠的识别算法,但高效率的识别检测计算还需要在硬件结构上针对深度神经网络大数据量的并行乘加定制计算模块。我们认为,基于深度学习的处理器芯片将成为AR眼镜不可缺少的重要模块。
一般声明演示:本文由quanxiquan.cn于2022-07-20 09:46:33发表在全息圈,如有疑问,请联系我们。
本文链接:https://www.quanxiquan.cn/industry/vr/632.html
发表评论