摘要:
配备强大的处理器,用于捕捉静止图像和视频的摄像机,和一系列的可跟踪的位置传感器,定位用户的运动,现代智能手机为手持式增强现实(AR)应用提供了一个成熟的平台。然而在研究和开发的进程中,智能手机平台的AR应用程序仍然面对导航、语境意识、可视化、交互设计以及内容的创建和共享等相关许多问题的挑战。本文调查了一些手持AR应用共有的挑战和问题,并提出可能的解决方案。
关键词:增强现实,移动计算,导航,定位跟踪,可用性,内容管理
1. 引言
混合现实的概念描述了一个结合了虚拟世界和现实世界的系统,该系统旨在创造新的可视化环境,实现实时互动的数字对象和物理对象的共存。增强现实(AR)是混合现实的一种特殊情况,是通过添加图形,声音或视频对真实世界进行实时地数字增强。手持式增强现实系统往往利用智能手机,包括强大的处理器(通常添加专用的图形处理器)、高分辨率的相机和一系列包括全球定位系统(GPS),加速度计和磁强计等的传感器。不像其他的AR系统,手持AR应用程序不需要用户携带或佩戴任何特殊的设备,不限制应用程序的任何专业(装备或先前标记)地区。基于位置信息的手持AR系统,经常被用来增强具有信息点(POI 导航地图信息)的真实世界。
配备后置摄像头的智能手机中的AR应用程序,常常用“魔术镜头”来描述这样一个事实:用户们必须在某一点上通过这个装置来看到增强现实效果。这个隐喻也显示了手持AR应用程序的设计在人体工程学的上一些约束。例如,设备必须在摄像机对准了真实世界的场景方向并在一定距离范围内进行;视野由智能手机的屏幕和相机的尺寸和分辨率的光学特性限制。因此,为了获得一个增强的广阔区域,用户应在正确瞄准镜头时频繁地移动装置。虽然在站着的时候移动设备比较稳定,但是在行走时这样做就困难得多,它会影响屏幕上显示的AR图像感知质量。
交互设计上面的挑战描述的只是一个小样本的问题和手持AR应用程序相关的导航、语境意识、可视化和内容创作的问题。本文对此问题开展了调查研究,并在稳重第三部分提出了基于校园导游AR应用需求分析的解决方案。在分析可能的设计方案的过程中,我们意识到没有一个现有的手持式AR平台能提供一个满足我们需求的完整的功能列表的令人满意的解决方案。本文概述了很多共性的设计问题,以及在使用目前可用的技术和工具的条件下,开发人员和研究人员可能会遇到的手持AR应用程序。
2. 手持式增强现实应用
一个典型的手持式AR应用程序的体系结构一般由三部分组成:用户交互的移动终端AR浏览器,负责识别的服务器和能够查询一个或多个POI的数据提供商(图1)。AR浏览器通常给用户提供一个选择信息的渠道:用户可以根据自已的需求选择频道,以增强现实的方式查看内容、距离、方位。AR服务器充当经纪人的角色,选择一个合适的POI提供者,转发查询信息。同样,POI的内容通过服务器返回到移动AR浏览器。最后,移动AR浏览器在真实世界的实时视图覆盖POI相关内容。
确定用户正确位置和方向的场景识别任务是任何AR应用的基本功能,是可能在移动设备、AR服务器,或介于两者之间被实施的。基于场景识别的技术依赖于先前放置的人工视觉标签;非场景识别则是依赖于计算机视觉定位,或结合这两种技术。
许多正在进行的AR研究项目,重点在于建设各方面用户交互研究的专有系统以及建立AR接口。一些AR项目提供第三方开发的应用程序编程接口(API)的开集来建立自己的系统,或者,至少使终端用户和开发者用他们自己的内容来构成这些系统。Layar(用手机浏览器连接现实世界)(http://layar.com)是全球第一款增强现实感的手机浏览器,一个用于创建和部署手持式AR的应用平台。Layar提供可定制的移动浏览器和远程服务器。然而,Layar的API需要开发者自己运行Web服务来接待特定应用程序的POI提供者,把他们和AR服务器层联系起来。因此,为Layar移动AR应用程序创建新的内容,主要取决于开发商谁可以运行和维护自己的Web服务和相关的基础设施。
Wikitude(http://www.wikitude.com/en)为Android,iOS等移动平台的开发人员提供了一组创建自己的手持设备AR应用程序的客户端服务。Wikitude率先在智能手机使用基于地理位置的增强实景应用。该平台利用用户创建的内容,可以提供使用Wikitude的Web界面,Keyhole标记语言(KML)或代表(第III-B)。junaio(http://www.junaio.com)和Tagwhat(http://www.tagwhat.com)是以用户为中心的典型例子,这些AR应用允许用户对去创造内容(标记和上传),分享用户遇到的现实世界中感兴趣的对象。
3. 问题和挑战
手持导游和应用是AR的一个方面,具有很强的潜力来吸引广泛的用户基础。手持式AR技术,如Layar和Wikitude,为开发人员提供技术,使他们创建相对简单的基于地理位置的AR应用程序能够实施,可以将吸引广泛的大众市场用户。美国的许多大学已经开发了手持式AR校园导游,包括美国亚利桑那州国家大学、印第安娜州立大学、普渡大学、加利福尼亚大学、威斯康星大学、Santa巴巴拉、麦迪逊、西弗吉尼亚大学等等。这种手持式AR应用程序在学生定位时特别有用,尤其是对于新生来说,能够帮助他们适应陌生的校园生活,能够在含有许多学术部门和行政办公室的不同建筑物中导航。
根据下面一组类似的目标,我们设计和开发了一个AR校园导游的智能手机平台。在项目的需求工程阶段,我们确定了以下功能要求。即,应用程序必须能够:
- 捕捉用户的位置和方向;
- 识别视线内的建筑物;
- 提供关于POI的附加信息;
- 识别校园建筑的不同入口;
- 定位每个建筑的部门和办事处。
此外,对以下的非功能性需求进行了确认:
- 室内和室外都能操作;
- 在iOS和Android移动设备运行;
- 行走时可用(从一楼到另一个)
这一系列的需求被确定和细化后,我们试图找到一个现有的合适的手持式AR平台作为实施应用的基础。在现有的手持式AR平台或正在进行的研究项目中,无论他们在特定领域或通用的,我们无法找到任何能够符合我们的要求、单一实行的平台。
在特定领域的AR系统中,那些用在旅游业中的,功能上最接近校园导航应用。在许多方面,手持AR被认为会对旅游业产生重大影响。参观不熟悉的地方,人们可以使用手持的AR应用程序,通过他们的智能手机来了解旅游景点、历史事件、显著的建筑、餐饮等旅游指南,目前的移动设备通常只不过是一个特殊格式的数字版的文件指南。在AR的帮助下,这些指南可以被想象成能够把生活带入任何地点的历史的动态实时应用。文化遗产吸引了AR群体的特殊注意,这是一个发展专业的基于旅游的手持应用的合适领域。文化遗产手持AR应用的一个具体问题是,跟踪目标的多样性以及室内和室外环境的结合,使得它很难甚至无法使用定位跟踪方法。这往往需要融合的传感器和基于计算机视觉的跟踪方法来实现手持AR应用程序性能的稳定。
仔细检查现有的非特定领域的AR平台和应用表明,他们无法提供合适的特征集来满足我的要求。每个平台的缺陷通常代表一个或几个共性的研究问题,每个提供一组特定的权衡,这通常有可供选择的解决方案的数量。这些问题可以分解为三个方面:导航与跟踪,内容管理和可用性(下图)。本节概述这些领域共性的研究问题和挑战,并提出不同的解决办法。
- A. 导航和跟踪
对用户连续定位是任何AR系统的关键成分。户外手持式AR系统绝大多数采用GPS导航,由于其具有广泛的可用性和较高的精度。但即使是在户外,GPS接收和精度在城市环境会大大的恶化,GPS卫星信号会被周围建筑物遮蔽和反射。此外,磁强计会被当地磁域场影响,这在城市环境中并不少见。AR系统的室内导航没有类似的普遍接受的解决方案。由GPS卫星信号太弱或不可在室内使用,除非是特殊的高灵敏度GPS(HSGPS)或者超宽带(UWB)位置传感器。此外,人们早已认识到,目前没有一个单一的传感器技术在室内和室外都能够提供足够高精度的稳定的跟踪。海托华和博列洛研究了范围广泛的可用于室内用户定位的硬件技术。配置一个专用的硬件基础设施可能是昂贵和不可行的,在这种情况下,手持AR系统开发商的可以借助与已经可用的移动设备传感器。内置摄像头捕捉的图像或视频,可以识别室内环境特征或预先放置的QR代码(或类似的)。多WiFi信号三角测量可用于近似定位。最后,定位可以通过结合疏散放置的已知精确位置的信息点、加速计和罗盘数据来实现,如作业指令“五步走,右转”。同样,参观博物馆的室内导航指南的应用程序,可以通过询问用户,按预定行程形成路径来实现,其间用户定位和运动被罗盘和陀螺仪捕捉。Gee等人描述了一种方法,把GPS和基于位置识别的UWB和基于视觉的跟踪结合起来,提供室内和室外的手持式AR应用的可靠平台。
虽然基于计算机视觉的跟踪解决方案可以提供最好的精度,但是视频直播实时目标识别对于智能手机CPU来说可能太繁重。Wither等人提出了一个折衷方案,间接的AR,取代了真正的AR,间接AR是基于现场的摄像机与先前拍摄的全景的环境。Gammeter等人提出一个解决方案,改方案建议使用远程服务器分割目标识别与跟踪任务:移动设备负责跟踪,定期发送图片到服务器执行,服务器则负责目标识别。这种方法有几个优点:对象可以从大型服务器端数据库被检索,而不是保持一个数据库对象的装置,接近实时;因为只有静止图像传输到服务器而不是一个连续的视频。Takacs等人提出的建议,演示了一种使用先前捕获的位置标记图像的设备上的物体识别,这有助于限制只搜索接近对象的用户。如果没有发现匹配,该系统提供了一个选择的有相关POI描述标签的图像发送到服务器。通过配备具有较大的图像数据库和/或一个更强大的基于内容的图像检索算法的服务器,来扩展这种方法是有可能的,而这种算法过去在移动设备上实施是不切实际的。不同于GPS跟踪,计算机视觉可以提供有关用户位置的准确信息,以及用户的姿态。朗洛茨等人提出了一种基于计算机视觉的解决方案,实现了高精度的追踪和物体识别,而不需要构造一个3D对象数据库。相反,这种方法利用自然特征映射的装置,使得能够实现三个自由维度的跟踪。周围环境的自然特征映射到全景实时捕获设备。
- B.内容管理
许多现有的手持式AR系统限制在如何增加新的内容。大多数情况下,这些系统被限制在一些专门的领域。添加新的内容的只限于应用程序开发人员,主要是从应用程序的后端访问,因为这往往需要编程技能将现有的系统和数据源在一起。对于一个真正的移动AR系统,它的普通用户如游客和小企业主,不费技术之力去添加自己的内容,是十分必要的。另外一个非常吸引人的特点是为用户提供一种简单的方式,将多个来源的用户自创内容混搭进统一的手持AR视图中。Belimpasakis等人描述的一个手持式AR系统,解决了这些问题,通过创建一个通用的混合现实的Web服务平台,使得用户能够在这个开放的系统中注册新的内容,无需AR系统中大量的专业知识。
Wikitude和Layar允许开发人员创建AR浏览器应用程序,允许广泛的终端用户访问,解决用户的位置跟踪和可视化的问题。然而,没有不同内容来源的广泛应用,AR应用程序将不能获得牵引力。活跃的用户参与内容创作引领万维网的发展,类似的趋势可以应用到的AR应用程序。马尔斯提格等人提出了社交化AR的概念,使普通用户可以积极参与,而不只是消费由专业AR建模和开发人员创造的内容。朗洛茨等人描述一个在设备上进行内容创作和分享的系统。利用该系统,用户可以在移动设备上创建2D和3D的内容,并将其发布到他们的支持ARML的一个远程服务器上的,私人图书馆(如下所述)。用户可以与他人自由分享这些内容,或重复使用他们创造的其他真实世界的对象标识。
在一个使用多个POI提供商的AR应用中,AR服务器是将POIs区别于不同来源内容的唯一交互点。例如,一个公共汽车站和附近的一家餐馆之间唯一的连接,是非常接近的。这两个信息点之间没有逻辑或符号关系,虽然它可能是一个巨大的效益。一个可能的解决办法,是可以利用开放的数据网(LOD)原则,并建议使用URI作为所有数据元素的名称,包括POI,以及交叉引用的数据元素。Wikitude使用的增强现实标记语言(ARM)提供了一种本地LOD支持,并获得AR系统开发人员组成的开放地理空间联盟的推动力。联盟成员来自超过440各的国际行业,政府和学术机构在2011年9月建立了ARML 2.0工作组。
AR应用程序的一个主要特点是在当前的地理空间范围内,呈现可用的信息子集。情境感知的研究主要集中在创建能够适应周围的环境和用户行为的智能系统,减少信息过载,并为用户提供相关服务和信息。虽然AR系统利用用户的位置和方向的情境,它应该通过利用其他语境因素,如基于过去的行为的配置文件的用户意图,为用户提供更加个性化的体验。除了提高个性化服务水平,手持的AR应用程序情境感知可以促进个性化内容共享,加强用户之间的社会合作。
- C.可用性
当前的手持式AR系统应用程序只能解决最明显和最简单的问题。通常,一个手持AR应用程序的用户可以接收到关于一个陌生的位置或周围物体的信息,如附近的建筑物或企业,可能在也可能不在视线范围内。NACK指出,目前可用的手持式AR应用主要是利用用户的位置和方向,这是情境化的,提供正确的信息通道是可行的。目前智能手机的GPS传感器有约20米的精度,同时提供的磁强计罗盘定位在20度左右。这可能会导致相机拍到的真实物体和数字对象不能完全对应的问题。因此,现有的移动AR系统可能无法提供必要的精度确定入口的具体位置,甚至不能是区分建筑物的不同入口。
虽然智能手机装备了高分辨率的相机,他们提供的有限的视域,明显比人类的视野范围小。因此,目前的手持AR应用程序只能增强移动用户视野的一小部分。当前手持AR应用“魔法镜头”的设计,要求用户伸出他们的手,举着设备,指向不同的方向。德祥和费纳指出移动增强现实用户是和黑莓用户发短信的姿势是一样的。这个问题可能通过固定增强视图来解决,允许用户在一个舒适的位置看到它。
展现屏幕外的物体,为手持AR应用程序的开发者提供了一组相关的挑战。为了看到增强视图中的真实世界中在用户侧面或后面的物体,用户需要改变它们的方向或使用迷你地图显示附近的信息点,这些信息点通常能够在许多现有的手持式AR应用程序的屏幕上显示。伸出手拿着手机转动可能会很尴尬,而阐明小地图的兴趣点,把他们和增强视图中以及真实世界中陌生的建筑物匹配起来,可能需要付出大量的精力。师辛克等人提出在增强视图中使用箭头式,指向周围的屏幕外的信息点,这样可以完成信息解释的任务,更不用说对用户有所要求了。
4. 结论
虽然有大量的正在进行的研究项目,以及利用智能手机作为手持AR平台的现成的解决方案,但是很多把自己限制在只利用用户的地理位置和方向信息。今天,智能手机已经能够提供基于计算机视觉的跟踪服务;融合不同方法的位置跟踪,提供稳定的室内和室外导航;提供简易的在设备上内容创建和共享的工具;支持用户和位置情境;利用易构的POI信息源以及和其他数据;并提供比目前现有的手持式AR应用更多的用户交互。
第二张图中三个领域的手持式AR识别方案都有着自己的问题。基于调查工作的主体,在这些方面也似乎是没有单一的“灵丹妙药”的解决方案或方法。由于目前技术的限制,实现一个合理的导航性能室内和室外似乎特别困难。现有的和拟议的解决方案能在其中一个环境中实现良好的性能,但由于其固有的技术限制,不能在两者同时实现。利用计算机视觉看似是一个合理的选择,通过识别现有的信息点和环境特征,实现用户跟踪和导航。然而,这样的解决方案不如无线导航有吸引力,因为它需要有设备或其他地方的预存的位置数据。依赖于位置的数据,这样的解决方案将需要大量的计算工作装置或常数提供一个低延迟的宽带连接到一个远程运行服务器的计算机视觉算法。
这个涉及到内容管理的问题,与信息点数据在哪儿处理的问题十分接近。允许用户轻松地共享和反复利用POI信息这样的解决方法的关键之处在于,使用开放的标准,如ARM和支持LOD原理。可用性的问题似乎是至少在当前的研究工作中最少被探索的,可能是因为实现功能性的技术的AR方案是十分必要的,然后可以通过研究使用模式,用户的喜好和交互方式,使其更实用。“魔术镜头”的隐喻也表明了,大多数手持AR应用人机工程扔停留在现有的移动设备固有的硬件特性。
转载请注明:陈童的博客 » 当前的手持设备增强现实问题