微软研究院AI头条

微软研究院AI头条

华刚:教计算机“看”世界-LMLPHP


编者按:在计算机科学领域中,计算机视觉研究人员担任着一项基础性的任务——他们让机器学会“看”世界。这正是微软首席研究员华刚博士和他的团队所做的事。随着私人机器人、自动驾驶汽车和无人机等设备我们在日常生活越来越常见,让机器拥有视觉能力是非常重要的。在这个访谈中,华刚博士将为我们介绍计算机视觉研究在图像识别、视频理解和计算机艺术方面的最新进展。本文是访谈内容的文字精简版,了解完整内容,请收听文中采访音频。


华刚:教计算机“看”世界-LMLPHP

微软首席研究员华刚


采访音频


计算机视觉是一个相对年轻的研究领域。通俗地说,计算机视觉研究的目的是让计算机能像人类一样观察和理解世界从技术的角度看,研究人员要从输入计算机的图像、视频之类的数字信号中提取出某种结构,或是语义信息。这对于人类来说似乎很简单,但对于机器来说却并非易事。在教会计算机“看”世界的道路上,我们在过去十年间确实取得了许多进步,但是作为一个已经存在了50年的研究领域,它仍然有很多问题需要我们去解决。


回顾计算机视觉研究一路走来所取得的进展,可以说是成果颇丰。但初期的研究大多是在严格控制的环境中进行,研究者在拍摄人脸图像时,会小心翼翼地控制灯光、摄像头等几乎所有的变量。五年前,当我们将人脸识别研究迁移到更真实的应用场景中时,我们的识别技术在精度方面还存在很大差距。而在过去的五年间,深度学习等前沿研究技术的应用让计算机视觉研究迈上了一个崭新的台阶,让许多商业应用变得切实可行。


深度学习能够为计算机视觉带来巨大改变,要归功于它的两个能力:一是“端到端”的学习方式,能够学习到特定语义模式的正确表达。例如,我们想让计算机识别“狗”,就要给计算机输入很多狗的图片,即使每张图片只有64×64像素、每个像素只有256个取值,它们的所有组合也将占据大量的空间。但是当我们将“狗”作为一种模式时,就会考虑每个像素之间的关联,这个模式占用的空间就会少得多。因此,深度学习就能够以端到端的方式学习,学会“狗”的数字表达,基于深层结构真正消化大量的训练数据,创建出非常复杂的模型。这就意味着,如果训练数据非常全面,比如涵盖了被摄物体的不同视角,最终计算机就能在更广泛的场景中识别物体;二是深度学习的构建能力,当信息或图像嵌入深度网络时,模型会从提取一些低级别的图像模式开始,逐渐将提取的模式组合在一起,由小到大,形成越来越高级别的语义结构,直到形成最终的复杂模式。所以对视觉识别来说,深度学习真的非常强大。


在众多计算机视觉的领域中,目前我主要关注三个领域:视频理解、人脸分析和识别、视觉艺术创作。今天我想依次谈谈这三大领域以及我们在其中的一些研究进展。


首先是视频理解。与做图像识别时的单张图片输入方式不同,要让计算机理解视频,我们要考察视频中的像素以及它们的移动方式。如果我们将理解单幅图像看作空间推理问题,那么视频理解就是结合空域、时域的推理问题,因为视频中随着一帧帧画面不断输入,其中的对象也不断移动。所以视频理解的根本任务就是提取、分析持续视频流中的信息并作更进一步的时空推理


视频理解能在许多应用场景中便利我们的生活。基于视频理解技术,我们的团队正在孵化一个改进城市交通状况的项目。试想一座城市,无数交通摄像头在其中运行,但其实它们所产生的大部分视频资源都被浪费了。事实上,摄像头完全可以比现在更聪明,它们可以帮助人们更加智能地控制交通信号灯。在一个十字路口,如果某一个方向上的交通流量特别大,我们就可以通过摄像头自动识别人车流量,让这个方向的绿灯亮更长的时间,使得交通更顺畅。


在人脸识别和分析领域,我们也做了一些非常有趣的探索和应用。微软在人脸识别技术上一直在进步。以前在微软Live Labs工作时,我们建立了第一个人脸识别软件库,开放给不同的产品团队来使用。第一个使用我们软件库的团队是Xbox,他们用人脸识别技术让用户能够自动登录。后来,微软亚洲研究院一直在持续地推动人脸识别技术的发展。我加入微软亚洲研究院后,和其他研究员一起继续推动相关项目的研究,现在它已经演变成了一个由研究团队和工程团队共同合作的项目,由工程团队收集更多的数据,并和研究团队紧密合作,利用数据训练出更好的模型。


深度网络也被我们应用到人脸识别和分析的研究中。我们在生成模型中加入深度网络,对图像的分布进行建模,从分布中抽取信息,合成基础图像。最近我们进行的一个研究是“身份保持的人脸合成”(identity-preserving face synthesis),我们想要利用深度神经网络合成包含语义信息的特定的面孔,比如合成一张神似布拉德·皮特的脸。“身份保持”事实上面临着一个很大的挑战:人们从出生到长大,面部的变化会很大,由于颅骨的发育,头部的形状和皮肤也会改变很多,但是到了成人阶段变化就会比较缓慢。就目前的技术而言,我们确实需要不断地更新训练数据中的面部图像,来使合成的面部图像也随着年龄的增长而变化。但我们也在进行一些研究,让训练模型学会自己推演人脸“老化”的过程,建立更好的跨年龄面部识别系统。如果这一点能够很好地实现,这个系统将在现实社会中发挥很大的作用,比如可以推广到执法领域,对那些早年失踪的、被绑架的孩子,跨年龄人脸识别系统可以推测他们现在的脸,通过图像匹配找到或解救他们。


我当前关注的第三个领域是计算机视觉与艺术的结合,人类有着强烈的艺术创作愿望,我们也希望计算机视觉能带给人们美好的艺术享受。过去的两年,我们一直在做一个“风格迁移”的项目,只要提供图片范例,我们的算法可以把图像渲染成你能想象到的任何艺术风格,比如把你的照片变成梵高的油画风格。通过这种数字技术,我们想将原先未必每个人都能享用的艺术品带到更多用户的身边,使他们在交互中享受这些艺术品带来的乐趣。由于我们的算法可以为每一种艺术风格构建一个特定的表达,所以接下来我们还可以让计算机进行艺术创作,比如,可以将不同的艺术风格混合起来,或者在中间地带探索,看看这些视觉效果在两个画家之间是如何演变的,甚至可以更深入地了解艺术家们如何构建他们的艺术风格,等等。


另外,我们也在关注机器智能和人的智能的结合问题。例如我们最近一项工作是采用一种新的分布式集成方法来让机器进行主动学习(active learning)。主动学习需要人工的参与,在传统的主动学习里,机器智能挑选出样本,然后由人工进行标注。我们试图将主动学习与众包结合,来实现两个目标:一是希望能够智能地挑选数据,使标注成本效益最大化,二是希望机器能够评估众包标注员的水平,将数据发送给标注质量最高的标注员进行标注,提高标注质量。


我一直在思考智能系统中人与机器之间的角色问题。因为在真实的世界中,就像现在基于机器学习的智能系统一样,它们未必能够很好地处理各种复杂的状况,因为现实生活中总是存在训练过程中机器没有见过的个例。所以我一直在思考如何让人类不仅帮助智能系统优化它们的缺陷,同时也教这些智能系统自主处理将来可能出现的类似情况。


在计算机视觉领域,我认为人们最大的担忧在于隐私问题。在公共领域、建筑物内和其它地方,到处都有数以亿计的摄像头。随着技术的进步,通过摄像头追踪人类已经不再是科幻片中的场景。这样的技术可以帮助我们更好地对付罪犯,但对于普通公民来说,隐私问题确实引人担忧。


针对这个问题,微软其实已经付出了巨大努力确保产品和服务符合欧盟一般数据保护条例(GDPR)的要求。我认为这是一种很好的机制,它能够确保人们生产的产品和服务都符合某些特定的规则。但另一方面,我也认为应该在可用性和隐私性之间取得某种平衡,而这两者的边界并不是非黑即白的,我们需要谨慎地在其中找到平衡点,获取适量的信息来更好地服务客户,而不能无限制地获取信息,或者获取用户不愿提供或不能放心提供的信息。


最后我想谈一谈计算机视觉的未来。目前,大部分计算机视觉研究都采用了统计机器学习方法,通过训练识别模型,我们确实取得了很好的效果。但是这个过程在很大程度上仍然是基于表观的。在未来,我们需要更好地将一些基础元素引入计算机视觉中,比如将3D几何图形引入到感知过程中,对于视频理解这样整合空间与时间进行推理的整体性问题,还需要将因果关系推断等更多的认知概念纳入研究过程。还有一些基本的问题,比如怎样从小数据中学习,甚至通过语言学习,这些问题都是我们未来要研究和解决的。


目前,我们的计算机视觉研究大多将精力集中在深度学习上,但是如果回顾十年或十五年前的研究,你会发现当时的研究方法远比现在更多样化。你可以看到各种机器学习方法,看到从物理学、光学等不同学科借鉴而来的知识,计算机科学家们将多个领域的知识加以融合,试图从多角度去解决问题。所以,正如我们在其它领域强调多样性一样,如果我们也能从多个角度来研究问题,我相信计算机视觉作为科学一定会更健康地发展


你也许还想看


● 华刚:arXiv让双盲评审形同虚设,单纯刷分把研究机械化、暴力化

● 书单 | 计算机视觉的修炼秘笈

● AI 创造艺术风格化:从图片到视频


华刚:教计算机“看”世界-LMLPHP

感谢你关注“微软研究院AI头条”,我们期待你的留言和投稿,共建交流平台。来稿请寄:msraai@microsoft.com。


华刚:教计算机“看”世界-LMLPHP


12-09 00:16