距离成为科技“爆款”,“眼动追踪”还有多远?

拥有广阔无比的应用场景。只不过硬性的需求尚未形成,而技术的支撑仍然孱弱,眼动追踪技术在未来一段时期可能仍然会处于不温不火的状态。

投稿来源:脑极体

有点常识的人都知道,戒毒这件事儿,生理依赖容易摆脱,心瘾却很难除。

一般的戒毒机构,往往只以戒毒者避免接触毒品的期限为参照,三个月或六个月,或者一两年,在此期间戒毒者如果表现正常,便被视为戒毒成功。由于心瘾未除,有许多人不久之后又会重新沾染上毒瘾而不得不再次戒毒,甚至多次反复。

只依赖生理诊断而缺乏一套心理毒瘾的诊断方式,显然是导致毒瘾久戒不除根的重要原因。

而现在,能判断戒毒者是否心理戒毒成功的诊断方法出现了。

根据香港《星岛日报》的报道,香港教育大学于近日首次在戒毒研究上应用了“眼动追踪”技术。通过对戒毒者注视毒品的时间和位置的判断分析,便可确定其是否已经完全戒除“心瘾”,而且正确率高达90%以上。

姑且不说这一新闻背后的技术能力究竟如何,单单“眼动追踪”四个字,就足以让人们“眼动”,令其又重新回到了大家的视野中。那么,“眼动追踪”在今天到底是一个什么样的状况?它主要用在哪些方面?前景又如何呢?

针对这些问题,我们来尝试着做一些解答。

VR:眼动追踪的最佳拍档

眼动追踪技术,顾名思义,就是通过图像采集设备对眼球运动的信息进行捕捉,实现对眼球的跟踪和分析,从而服务于具体的场景当中,如心理分析、电子设备屏幕切换甚至是对设备进行控制等。不难看出,眼动追踪包括三个步骤:一,摄像头、红外线等采集设备对眼球运动进行捕捉;二,终端对眼球运动轨迹等信息进行综合分析和判断;三,发出指令,做出符合主体意愿的决策或提示。

由此我们很容易想到用这种技术来实现屏幕或电子书翻页,而且这也是笔者曾经年少时最渴望的事情。其实放到如今,这充其量算是眼动追踪技术比较低级别的应用。早在2017年微软也将这项技术内置到了Windows10中。

但Windows10似乎比较鸡肋,当年看演示打字的时候的确很科幻,但实用性太差,远不及人手的打字效率,再加上其他应用的缺乏,眼动追踪最终还是沦为了微软买产品的噱头而已。

但从这个已经可以被看做失败的案例中我们可以略微窥出:眼动追踪固然好,没有应用也不行。而遍观如今的种种科技,能令眼动追踪技术大放异彩的,或许就是VR。Tobii也将VR视作其眼动追踪技术落地的最佳载体,并推出了适配VR头盔的设备Pro Glasses 2,但一支钢笔大小东西,用在VR头盔之类的设备上实在是有点占空间。

另一个问题是,目前的VR产品在呈现游戏或其他应用的图像时,往往是对所有的场景统统渲染,眼睛看到的地方清晰无比,看不到的地方也毫不含糊。

我们显然可以从中看出三个弊端:容易造成眩晕感;对眼球观察之外的场景渲染造成计算浪费的同时也给设备计算带来负担;算力增加,设备的体积自然小不到哪儿去。难道把硬件再做大一点?那头盔就更不方便了。

而眼动追踪,则正可以用来解决这个问题。

Tobii对此开发了视网膜中心渲染技术,通过对眼球的追踪,将人眼注视的区域进行高清渲染,而对眼球之外的区域进行模糊化处理,这符合人在看物体时的一般特点。

Tobii的思路正确无比,但实际效果却很有限。毕竟是图像处理,Tobii显然不太擅长——等等,说到图像处理,难道还有比AI更适合的方法吗?

AI:技术行进的明白方向

自从2014年收购Oculus以来,facebook在VR上下的工夫一直都没有减少,砸钱砸得不计成本。这些投入也被外界称为“为未来买单”,facebook扔进大海的石子并没有沉没了事儿,也是激起了几多浪花的。比如基于眼动追踪技术的VR图像渲染上。

去年5月份,facebook推出了Half Dome原型机,其集成了眼动追踪相机、宽视场光学系统和可独立变焦显示器,就是为了取得和人眼观察事物一致的效果:对视线之外的区域进行模糊处理,以达到沉浸式体验。同样,这款原型机发布的时候和Tobii水平差不多,由于硬件和算法的限制,渲染的逼真程度很难让人评价为体验良好。而去年12月,facebook就为其匹配了人工智能渲染系统Deep Focus。

那么,Deep Focus加持的图像渲染和Tobii以及Half Dome原型机的区别在哪里呢?一个词来回答就是:自然模糊。

对注视点之外的画面进行模糊处理是方向,但这其中的问题也有很多:清晰区域和模糊区域的过渡是否平滑自然?注视点移动过程中图像由模糊到清晰的转化是否自然?

不自然的过渡是这样的:

自然的过渡则是这样的:

显然下图要比上图有更自然的注视点边缘模糊处理。这也成为了Deep Focus努力的方向。而如果纯粹是用算力来解决问题,那对本身体积就存在限制的VR头显又提出了要求。因此facebook reality lab的研究者选择了另外一个方向:利用深度学习来实现自然模糊。为此,研究团队需要大量的数据来对人工智能系统进行训练。但问题是上哪儿去找这么多数据呢?

于是他们随机生成了由大量对象组成的场景,然后交由Deep Focus来对这些对象的纹理等特征进行学习训练,从而生成逼真的渲染模糊效果。经过接近一年的训练,Deep Focus已经可以做出相当出色的渲染表现。

利用最新的人工智能技术来追踪研究并做出实时的图像处理,看起来是一个非常不错的主意。对facebook而言,或许它只是一种增强VR沉浸式体验的措施;而对整个眼动追踪技术应用层面而言,人工智能更大的意义则在于提供了一条行之有效的研究方向。

爆发:冲破障碍与应用补完的未来之景

我们再回到眼球跟踪技术本身来。进入2019年,以5G网络商用为标志,越来越多的声音认为5G的大带宽、低延迟的特性将助推VR的复兴,乃至产业的爆发。能不能用“爆发”来修饰一番,似乎已经成为衡量某个技术或产业应用价值的标志之一。那么,对眼动追踪技术而言,无论是传统的硬件厂商Tobii还是以facebook为代表的人工智能公司,似乎也都一刻也没有停止对它的技术演进。我们也套用一下:当AI入场之后,眼动追踪技术的应用是否也面临爆发呢?

以下这些,或许将成为所谓“爆发”前夜必须要考虑的问题。

·支撑即时反馈的终端计算性能。对眼动的跟踪、信息捕捉、分析处理和判断需要在极端的时间内完成,Facebook的Deep Focus虽然用AI实现了自然模糊的高级别应用,但这是建立在拥有四颗高性能GPU电脑的基础上,如果想要顺利搭载在VR头盔甚至是手机、手表等电子设备上,则必须要兼顾体积和计算的性能。或者,开发出更强大的算法。

“无效”眼动的精确排除。人的眼球运动并非都是有意而为,如何排除无意识的眼球运动干扰,则需要下一步进行重点研究。

应用生态的大面积扩展。今天看来,一件新技术要想获得大规模的推广应用,除了硬件层面的匹配之外,还要有相应数量级的应用支撑,尤其是能够产生刚需或制造刚需的应用。VR确实很有代表性,但只有VR显然是不够的,更何况VR自身也处于技术演进的过程中。那么,为眼动追踪技术打开更多的应用可能,也应该同步于对它的技术研究。

比如将眼动追踪与脑机接口结合起来,通过对无形脑电波的捕捉和外在眼球的跟踪,来判断大脑的意图倾向;为言语障碍、行动不便等人士提供医疗帮助,比如打字、呼救等;又或者用在汽车中的驾驶员疲劳监测、车机交互,成为手指、语音之外的第三种交互方式,增进人机交互的亲密度等等。

可见,在解决方案日渐成熟的前提下,眼动追踪其实是具备了成为科技“爆款”的潜质的:拥有广阔无比的应用场景。只不过硬性的需求尚未形成,而技术的支撑仍然孱弱,眼动追踪技术在未来一段时期可能仍然会处于不温不火的状态。

但技术的发展趋势有时候总会超乎我们的想象,AI概念提出60年后才迎来真正的爆发,也许掌管人类技术进化的神不小心打个盹,眼动追踪就会跳出慢吞吞的轨道,从捷径瞬时拥抱人间。

 

声明:本文内容仅代表该投稿文章作者观点,不代表蓝鲸号立场。 未经授权不得随意转载,蓝鲸号保留追究相应责任的权利