加入收藏 | 设为首页 | 关于我们尊敬的先生/女士,您好,欢迎光临论文期刊网!

 推荐期刊

 联系我们

点击这里给我发消息 尹编辑 123456 点击这里给我发消息 尹编辑 123456 投稿邮箱:[email protected]
联系电话:123456
免费电话:123456
 计算机论文
【CVPR最佳论文重磅出炉】清华夺冠“半壁江山”华人获奖少
发布时间:2019-05-08 点击: 发布:中国论文期刊网

  【新智元导读】备受瞩目的 CVPR 2017 刚刚公布了最佳论文归属:康奈尔大学和清华大学DenseNet和苹果首次公开的视觉方向论文。同时CVPR其他各项大奖也全面揭晓。新智元第一时间介绍获奖论文,同时献上本届大会导览,包括全部 783 篇接收论文中的最热及体现的技术趋势,深度学习依然是主流,Image、Object、Video 等词出现频率也很高;三场主旨演讲(包括沈向洋)近 30 个 workshop 及相关竞赛结果(下一个ImageNet会是哪个?)以及参会企业大盘点。

  华人学者在这届大会表现格外亮眼,不仅接收论文数量超过了全部的 45%,在会议的 81 名主席名单中,也有多位华人面孔,比如张正友、陈熙霖、华刚(2019 年 CVPR 程序主席)、贾佳亚、孙剑、吕乐、周少华、朱松纯等老师。

  根据会议官方网站的数据,今年,CVPR 共收到 2680 有效投稿,是有史以来最多的一届。其中,一共有 783 篇论文被接收。

  在参会人数方面,今年的参会人数为4950人,逼近5000人。根据参会者在 Twitter 上的“爆料”,近5000人规模的会场在 21 号签到时早早排起了长龙。去年,CVPR总共参会人数3600人,其中有34.35%是学术,28.62%学术界,37.03%来自产业界。

  同样是在官方宣布的数据中,我们看到,2017年产业界的参与数量众多,全球共有约 90 家企业参与到本次大会中。除了大家熟知的谷歌、微软、Facebook、亚马逊、苹果、英特尔、英伟达等巨头,中国的腾讯、阿里巴巴、京东、滴滴等大型互联网公司,还有众多初创企业,比如驭势、格灵深瞳以及 Momenta 等等。

  其中,DenseNet 论文是康奈尔大学的 Gao Huang 和清华大学的 Zhuang Liu 等人在 2016 年发表的。DenseNet 可以看做是 ResNet 的一个变体。不同于 ResNet 将输出与输入相加,形成一个残差结构,DenseNet 将输出与输入相并联,实现每一层都能直接得到之前所有层的输出。另一篇最佳论文则来自苹果。不得不说,这家公司不鸣则已一鸣惊人,公开发表论文不久便斩获 CVPR 最佳。今后苹果的表现值得期待。

  最近的研究显示,如果卷积网络中分别接近输入端和输出端的层之间包含更短的连接,那么该卷积网络可以显著地实现更深、更准确,并且更高效。在本研究中,我们同意这一观察,并提出DenseNet(Dense Convolutional Network),它以前馈的方式将所有层连接起来。一个L层传统卷积网络具有L个连接——即每一层和它的后一层之间都有一个连接,我们提出的DenseNet网络具有L(L + 1)/2个直接连接。对于每个层,它的输入是所有前面的层的特征图,并且其自身的特征图被用作所有后面的层的输入。DenseNet的突出优点有几点:减轻了梯度消失的问题,加强了特征传播,鼓励特征重用,并且大大减少了参数数量。我们在4个高度竞争性的对象识别基准任务(CIFAR-10,CIFAR-100,SVHN和ImageNet)中对我们提出的架构进行了评估。结果显示,DenseNet 在大多数任务上相比以前的最优结果获得了显著的进步,并且在实现高性能的同时所需的内存和计算更少。相关代码和模型可以在这里找到:

  随着图形学最近得到的进步,使用合成的图像训练模型变得更加容易了,这能免除对数据进行注释的昂贵花费。但是,由于合成的图像和真实图像分布之间存在差距,从合成的图像学习可能无法实现期望的性能。为了缩小这一差距,我们提出模拟+无监督(Simulated+Unsupervised,S + U)学习,它的任务是学习一个模型,以使用未标记的真实数据来改善模拟器的输出的真实感(realism),同时保留来自模拟器的注释信息。我们为S + U学习开发了一种使用对抗网络的方法,类似生成对抗网络(GAN),但我们的方法使用合成的图像(而非随机向量)作为输入。我们对标准GAN算法进行了几个关键的修改,以保留注释信息,避免失真(artifacts)并保持训练稳定:(i)一个“自正则化”项,(ii)一个局部对抗损失( local adversarial loss),以及(iii)使用改善后的图像的历史信息来对判别器进行更新。我们的研究表明,这一方法能够生成高度逼真的图像,并且通过定性研究和用户研究证实了这一点。我们通过训练模型进行视线估计(gaze estimation)和手势估计(hand estimation)进行了定量评估。我们的研究显示,这一方法在使用合成图像方面实现了显著提升,并在没有任何已标注数据的情况下,在 MPIIGaze 数据集得到了 state-of-the-art 的结果。

  交流电(AC)照明带来了夜的节拍。 通过对这种节拍的感受,我们揭示了新的场景信息,包括:场景中的灯泡类型,城市规模的电网分段(phase)以及光传输矩阵。这种信息区分了反射和半反射,夜间高动态范围以及在采集期间未观察到的灯泡的场景渲染(scene rendering)。 后者由我们收集并提供的来源丰富的灯泡响应函数数据库促成。为了实现以上工作,我们构建了一种新颖的 coded- exposure 高动态范围成像技术,专门设计用于在电网交流照明上运行。

  Longuet-Higgins 奖是 IEEE 计算机协会模式分析与机器智能(PAMI)技术委员会在每年的 CVPR 颁发的“计算机视觉基础贡献奖”,表彰十年前对计算机视觉研究产生了重大影响的 CVPR 论文。奖项以理论化学家和认知科学家 H. Christopher Longuet-Higgins 命名。

  从以上多个奖项的获奖者来看,虽然华人学者在CVPR的论文提交数量和竞赛上有出色表现,但是获奖的比例并不算高。

  今年,CVPR 共收到2680有效投稿,其中2620篇经过完整评议(其余60篇有一些是出于技术或伦理方面的原因被委员会拒绝,有一些则在评议前退出)。

  最终,一共有783篇论文被接收(接收率为29%)。其中有71篇获得长篇口头报告的展示机会,144篇获得短报告(spotlights)的机会。

  CVPR 2017的接收论文有三种展示形式:两种形式的口头展示(长篇与短篇,即Oral 与 Spotlights),以及海报展示。新智元统计发现,大会一共有107个Session。

  SPOTLIGHTS: 每一个spotlight的报告者有4分钟的口头报告时间,来强调论文的主要贡献和创新之处,以及报告论文的主要研究成果。

  POSTERS: 口头报告之外的论文将会得到海报展示的机会。此外,所有的口头报告之外的论文也会出现在接下来的海报展示环节中。

  经过新智元的统计,全部 783 篇论文中,华人学者参与并署名的论文约为356篇,占比45.47%。(新智元同学人眼统计,可能会存在微小误差)

  新智元根据接收论文的题目做了粗略的热词统计(见上面这张云图)——“深度学习”毫无意外地是最热。同时,Image、Object、Video 等词出现频率也很高,这很好理解,因为 CVPR 是计算机视觉会议。同样,识别、检测、分类和卷积、残差(网络)等也是高频词。

  Face 的出现证明了人脸识别的火热,相较 hand、pose ,尤其是 hand,还不到 Face 的五分之一。在模型的选择中,GAN 和生成模型十分突出,与 2017 年以来视觉界对 GAN 的关注离不开关系。实际上,这次被接收的论文中出现了多种 GAN 的变体。

  CVPR 2017 接收论文领域分布情况。本次大会共接受 783 篇论文,内环表示主要分领域,外环表示次要分领域。内环右上角开始,顺时针依次显示了论文数量从多到少的主要分领域。最大的蓝色部分代表机器学习,接下来的红色代表物体识别和场景理解,再接着的蓝色表示 3D计算机视觉。其他颜色对应内容详见下面列表。

  在这届 CVPR 接收的全部 783 篇论文中,机器学习是主要分领域中论文最多的,占了 23.5%,计算机视觉理论最少,占1.40%。各个主要分领域论文分布情况如下:

  而在机器学习论文当中,最多的是 CNN 和深度学习(外环右上角紫色部分),其次是计算机视觉中的机器学习(外环右上角蓝色部分),再次是非监督学习、离散优化、连续优化等。

  2017 年的 CVPR 共有 3 场主旨演讲,分别在当地时间 22 日、23 日和 25日举行。主题从基础——了解灵长类视觉系统从而更好地设计深度神经网络——到应用,再到未来研究方向,为为期一周的大会奠定了基调。

  摘要:神经科学和认知科学的一大难题是人类思维的反向工程。与其他科学领域相比,这个领域仍处于起步阶段。旨在模拟人工系统里的人类智能(AI)的正向工程方法也还是起步阶段。但是,在人类行为中显见的智能和认知的灵活性是存在的证据,证明机器可以被设计来模仿人类思维并与人类一起工作。在这个演讲中,我将提出,通过结合脑科学和认知科学家的研究(生成和数据采集),以及旨在模拟思维(实例化和数据预测)的正向工程,思维的反向工程可以解决。为了支持这个论点,我将重点关注感知智能(对象分类和检测),我将讲述脑科学,认知科学和计算机科学中如何融合以创造可以支持这些任务的深度神经网络。这些网络不仅在图像任务上达到人类的表现,而且它们的内部运作机制也大量模拟理论灵长类动物视觉系统的内部机制。但是,灵长类视觉系统(NI)表现仍然超出当前的深度神经网络(AI),我将展示一些神经科学方面的新线索。更广泛地说,这只是这一伟大人类科学追求的开始——理解自然智能,我希望激励更多人与我们一起参与这一领域。

  摘要:对于所有的计算机视觉研究者和实践者来说,这是一个令人兴奋的时代。我们已经看到,将多年的技术进展转化为市场化技术这一方面获得了空前增长。微软多年以来一直致力于开发新的计算机视觉技术,向所有的开发者开放,并把它们融入各种产品当中。

  在这一研究中,我将会简单地回顾计算机视觉在微软研究院过去25年的研究历史,强调微软研究院对计算机视觉领域的贡献,并且着重介绍长期投入在企业中成功打造产业研究院的重要意义。

  在介绍微软商业化的成果之前,我还会介绍一些我们在计算机图学、图学理解、视觉和语言等方面的最新研究成果,具体地,我将介绍微软在开发三款产品上的经验:微软Pix,HoloLens和认知服务,三者分别以不同的方法在利用计算机视觉系统和技术。

  Pix 是一个基于AI的照相APP,它会让你更轻松有趣地拍出“伟大的照片”,“聚焦、拍照、完美!”它融合了微软研究院几十个CVPR、ICCV和SIGGRAPH的研究成果。HoloLens是市场上第一个商业可用的混合现实系统。认知服务则能让你在只使用几行代码的情况下,在不同的设备和平台上,搭建起基于AI的、实用的APP。

  在本次演讲中,我讲展示IRIS,这是一个交互式的视觉学习服务,让开发者可以创建图像识别应用程序。我还将展示一些关于HoloLens最新的demo,其中包括Holoportation 项目。Holoportation 是一个新的3D捕捉技术,允许对高质量的人物3D模型进行重建、压缩和变换,随时随地都能进行。推动从研究到产品循环,其中有不少挑战。我讲会讨论,从生产Pix, HoloLens 和 认知服务中所获得的经验。

  摘要:我会在大会上介绍我们实验室在计算机从语言中提取社会意义的研究,也就是考虑人与人之间的社交关系的研究。我们研究了在交通信号灯前,经常和社区成员之间的互动情况。我们自动地测量了语言交互的质量,研究了交流过程中种族的角色,并未这一领域的一些未来研究提供了建议。

  另一方面,我们将科学论文的语言与由科学家及其研究领域组成的网络进行计算建模,以更好地了解科学创新进展情况以及跨学科的作用。我将上述研究对科学史,特别是人工智能的影响。这两项研究都强调了社会语境和社会模式在解释我们使用的词语背后潜在含义的重要性。

  本届 CVPR 有超过 50 个workshop,其中“超越 ILSVRC”workshop 将正式宣布ImageNet 竞赛的完结。ImageNet 之所以不再正式举办,是因为在 2016 年 ILSVRC 的图像识别错误率已经达到 2.9% 左右,远远超越人类(5.1%),今后再进行这类竞赛意义就不大了。未来,计算机视觉的重点在图像和视频的理解。由此,便产生了一个值得关注的问题——继 ImageNet 之后成为计算机视觉界标志性竞赛的是什么。

  可以看出,从场景理解到自动驾驶,本届 CVPR 举办了各种竞赛。其中,新智元获得独家消息,Look into Person(LIP)竞赛,中国中科院信息工程研究所刘偲副研究员带领的S-Lab团队与三星电子北京研究院合作夺得行人图像分割项目冠军。这一竞赛为CVPR2017 workshop的竞赛单元,其独家发布了LIP人体图像数据集,通过海量的图片、丰富的标注类别、多样的数据,有效地填补了图像分割领域行人数据集的空白。

  竞赛分为行人图像分割、人体姿态检测等项目,信工所S-Lab与三星合作团队即是夺得了行人图像分割项目的冠军。这一项目要求参赛者对真实行人图片进行像素级别的类别预测,从而完成图像分割,赛题难度较大,吸引了海内外众多团队参与。S-Lab与三星合作团队在竞赛中针对行人图像视角多样化的特点,提出了基于视角的图像分割模型VS-Net,极大地提升了图像分割的精确程度,为后续的学术研究与业界应用提供了新的思路。

QQ在线编辑

服务热线

展开