37篇Facebook今年被CVPR收录的论文都说了啥?

网友投稿 787 2022-05-30

AI 科技评论按:CVPR 2019 已于 6 月 16 日至 20 日在美国加利福利亚州长滩市盛大举办,吸引了超过万人参加,雷锋网 AI 科技评论的记者也前往现场为大家带来了精彩的大会报道。作为工业界的学术实力干将之一,Facebook AI 研究院在本次大会上的成果也备受瞩目。而 Facebook AI 研究院也对自己今年的战绩进行了统计:共有 37 篇论文被收录,其中包括 15 篇 Oral 论文。下面就让我们一起来看看这些成果吧。

Oral 论文一览

《2.5D 视觉声音》

2.5D Visual Sound

双声道音频为听者提供了 3D 的听觉感受,让人对场景有丰富的感知体验。然而,双声道录音几乎是不可实现的,即使能实现也需要相当水平的专业知识和设备。我们建议利用视频将普通的单声道音频转换成双声道音频,其关键思想是,视觉帧揭示了重要的空间线索:尽管单声道音频在完成过程中明显缺乏这些空间线索,但它们与空间线索紧密相连。我们的多模态方法可以从未经标注的视频中还原空间线索与单声道音频的这一联系。我们设计了一个深卷积神经网络,通过注入有关目标和场景配置的视觉信息,将单声道(单通道)原声解码成对应的双声道。我们将输出结果称之为 2.5D 视觉声音——视觉流帮助平面的单通道音频「提升」到空间化的声音。除了生成声音,我们的神经网络自监督表征学习也显示出对声源分离的作用。

相关视频演示链接:

http://vision.cs.utexas.edu/projects/2.5D_visual_sound/

论文地址:

https://research.fb.com/publications/2-5d-visual-sound/

《多语句视频描述的对抗性推理》

Adversarial Inference for Multi-Sentence Video Description

尽管图像标注工作取得了显著进展,但由于视频数据的复杂性,视频描述仍处于起步阶段,而为长视频生成多语句描述则更具挑战性。其中主要的挑战包括生成视频描述的流畅性和连贯性,以及它们与视频的相关性。近年来,为了改进图像标注模型,研究者们探索了基于强化和对抗学习的方法,但这两种方法都存在着许多问题,例如 RL 存在的可读性差、冗余度高问题,以及GANs 存在的稳定性问题。在本文中,我们建议在推理过程中应用对抗性技术,设计一种有助于更好地生成多语句视频描述的鉴别器。此外,我们发现多鉴别器采用的「混合」设计(即每个鉴别器针对视频描述的某一方面)能够实现更好的效果。具体而言,我们通过解耦鉴别器从三个标准方面进行评估:(1)视频的视觉相关性;(2)语言的多样性和流畅性(3)语句之间的连贯性。我们的方法在通常使用的 ActivityNet Captions 数据集进行自动和人工评估的结果都显示,可以得到更准确、更多样、更连贯的多语句视频描述。

论文地址:

https://research.fb.com/publications/adversarial-inference-for-multi-sentence-video-description/

《鲁棒可视问答的循环一致性》

Cycle-Consistency for Robust Visual Question Answering

尽管多年来,可视化回答取得了显著的进展,但今天的 VQA 模型的鲁棒性仍有许多不足之处。我们引入了一种新的评估协议和相关数据集(VQARephrasings),并证明了最先进的 VQA 模型对问题中存在的语言变化是相当脆弱的。VQA- rephrasings 包含三个人为提供的 rephrasings(改述),用于解决来自 VQA v2.0 验证数据集的 4 万个图像中的 4 万个问题。为了提高 VQA 模型的鲁棒性,我们提出了一个使用循环一致性的与模型无关的框架。具体来说,我们训练一个模型,不仅用来回答问题,而且还用来生成以特定答案为前提条件的问题,这样的话,针对生成问题预测的答案与原始问题的真实答案相同。在不使用额外标注的情况下评估 VQA-Rephrasings 数据集,我们的方法在问题的表述变化方面比最先进的 VQA 模型具有更显著的鲁棒性。此外,在标准 VQA 和在挑战 VQA v2.0 数据集的可视化问题生成任务上,我们的方法比其他当前最先进的方法的表现都要更好。

论文地址:

https://research.fb.com/publications/cycle-consistency-for-robust-visual-question-answering/

《DeepSDF:学习用于形状表征的连续符号距离函数》

DeepSDF: Learning Continuous Signed Distance Functions for Shape Representation

计算机图形学、3D 计算机视觉和机器人领域的研究者已经提出了多种方法来表示用于 3D 几何的渲染和重建。这些方法在保真度、有效性和压缩能力方面进行权衡。本论文引入了 DeepSDF,即一个用于形状类别表征的学到的连续符号距离函数(SDF),它能够基于局部和带噪声的 3D 输入数据实现高质量形状表征、插值和补充。比如 DeepSDF 的分类作用,就是通过连续体积场来表示形状的表面:场中点的大小表示到表面边界的距离,同时标记(-)和(+)分别表示该区域是在形状区域内还是在形状区域外,因此我们的表征隐式地将形状边界编码为学习到的函数的零水平集(zero-level-set),同时显式地将空间分类表示为形状内部/外部区域。虽然经典的 SDF 能够以解析或离散体素的形式表示单个形状的表面,但 DeepSDF 可以表示形状的完整类别。此外,该方法在学习 3D 形状表征和补充方面展示出了最先进的性能,和之前的研究相比,模型尺寸减小了一个数量级。

论文地址:

https://arxiv.org/pdf/1901.05103.pdf

《使用网络规模近邻搜索的对抗性图像的防御》

Defense Against Adversarial Images Using Web-Scale Nearest-Neighbor Search

大量最近的研究表明,卷积网络对敌方图像不具有鲁棒性:通过扰动数据分布中的样本而产生的图像,以最大限度地减少扰动示例的损失。在这篇论文中,我们假设对抗性干扰将图像从图像流形中移开,因为没有物理过程可以产生对抗性图像。这一假设表明,一个能够成功防御对抗性图像的机制应让图像设计回归到图像流形上。我们研究了这种防御机制,通过对包含数百亿图像的网络级图像数据库进行近邻搜索来模拟未知图像流形设计。对 ImageNet 防御策略的经验评估表明在攻击环境中该策略非常有效,即敌对方无法访问图像数据库。我们还提出了两种新的攻击方法来破坏近邻防御,并给出了近邻防御失效的条件。我们进行了一系列的消融实验,这表明在防御系统的鲁棒性和精确性之间存在着权衡,大型图像数据库(包含数亿图像)对于获得良好的性能至关重要,仔细构建图像数据库对于抵御为规避防御而定制的攻击非常重要。

论文地址:

https://arxiv.org/pdf/1903.01612.pdf

《具有点云感知的逼真环境中的具身问答》

Embodied Question Answering in Photorealistic Environments with Point Cloud Perception

为了帮助弥合互联网视觉风格问题与具身感知的视觉目标之间的差距,我们以一个大规模的导航任务为例——在逼真环境(MatterPort3D)中具身问答[1]。我们深入研究使用 3D 点云、RGB 图像或其组合的导航策略。我们对这些模型的分析揭示了几个关键的发现。我们发现,两个看似简单的导航基线(仅向前导航和随机导航)都是强大的导航者,并且由于具身问答所采用的评估设置的特定选择,它们也很难被超越。我们发现了一种新的损失加权方法,我们称之为拐点加权法,在用行为克隆训练循环导航模型时非常重要,并且能够用这种技术完成基线。我们发现点云为学习障碍规避提供了比 RGB 图像更丰富的信号,这有助于推动研究者使用(并继续研究)3D 深度学习模型进行实体导航。

论文地址:

https://research.fb.com/publications/embodied-question-answering-in-photorealistic-environments-with-point-cloud-perception/

《基于场景补全的 RGB-D 扫描的极端相对姿态估计》

Extreme Relative Pose Estimation for RGB-D Scans via Scene Completion

在相同的底层环境下,评估两次 RGB-D 扫描之间的相对刚性姿态是计算机视觉、机器人学和计算机图形学中的一个基本问题。大多数现有的方法只允许有限的相对姿态变化,因为它们在输入扫描之间有相当大的重叠。我们引入了一种新的方法,在输入扫描之间很少甚至没有重叠的情况下,将范围扩展到极端相对姿态。关键思想是推断出关于底层环境更完整的场景信息,并与完成的扫描相匹配。特别地,我们的方法不是只对每个单独的扫描执行场景补全,而是在相对姿态估计和场景补全之间进行切换。这使得我们可以在后期迭代中利用来自两个输入扫描的信息来执行场景补全,从而为场景补全和相对姿态估计带来更好的结果。在基准数据集上的实验结果表明,相对于最先进的相对姿态估计方法,我们的方法有较大的改进。特别是,我们的方法在相对姿态估计甚至在非重叠扫描之间实现了令人兴奋的结果。

论文地址:

https://arxiv.org/pdf/1901.00063.pdf

《FBNET:基于可微神经网络架构搜索的硬件感知的有效卷积网络设计》

FBNet: Hardware-Aware Efficient ConvNet Design via Differentiable Neural Architecture Search

给移动设备设计又准又快的卷积网络是非常具有挑战的,因为设计空间太大了。因此,之前的神经网络架构搜索(NAS)方法计算量太大。卷积架构优化依赖的因素有分辨率和目标设备等。然而,用现有的方法一个一个去重新设计代价太高。并且,之前的方法主要集中在减少 FLOPs,但是 FLOP 计数并不总是能反映实际延时。基于这些情况,我们提出了一种可微神经架构搜索(DNAS)框架,使用基于梯度的方法去优化卷积网络结构,避免像之前的方法那样去穷举和单独训练结构。FBNets(Facebook-伯克利-网),是 DNAS 的一种分支模型,超越了人工设计的和自动生成的当前最先进模型。FBNet-B 在 ImageNet 数据集上达到了 74.1% 的 top-1 准确率,在三星 S8 手机上实现了 295M 的 FLOPs 以及 23.1ms 的延时,也就说与 MobileNetV2-1.3 相比,FBNet-B 在准确率差不多的情况下将 FLOPs 减少了 2.4 倍,将响应速度提高了 1.5 倍。尽管 FBNet-B 比 MnasNet[20] 具有更高的准确性和更低的延迟,但我们还评估出 FBNet-B 的搜索成本比 MnasNet 低 420 倍,仅为 216 GPUhours。针对不同分辨率和通道大小的搜索,FBNets 比 MobileNetV2 的准确率高了 1.5% 至 6.4%。最小的 FBNet 网络在一台三星 S8 上达到了 50.2% 的准确率和 2.9ms 的延时(每秒 345 帧)。通过使用在三星上优化的 FBNet,iPhone-X-优化模型在 iPhone X 上搜索速度提高了 1.4 倍。

FBNet 模型源代码:

https://github.com/facebookresearch/mobile-vision

论文地址:

https://research.fb.com/publications/fbnet-hardware-aware-efficient-convnet-design-via-differentiable-neural-architecture-search

《实现贴切的视频描述》

Grounded Video Description

视频描述是视觉和语言理解中最具挑战性的问题之一,因为视频和语言都具有很大的可变性。因此,模型通常会简化识别的难度,生成基于先验但不一定基于视频的可信语句。本次研究中,我们通过使用视频的某个帧中对应的边框来标注语句中的每个名词短语,从而明确让生成的语句与视频中的显示画面挂钩。我们的数据集 ActivityNet- Entities 增强了这一具有挑战性的 ActivityNet Captions 数据集,其包含 15.8 万个边框标注,其中每个标注都以名词短语为基础。这样的话,就能使用这些数据训练视频描述模型,并且非常重要的是,这些数据可以评估该模型对所描述的视频的合理性或「真实性」。为了生成合理的说明,我们提出了一种能够利用这些边框标注的新的视频描述模型。我们证明了该模型在前述数据集上的有效性,同时也显示出该模型能用于基于 Flickr30k Entities 数据集的视频描述。本次研究在视频描述、视频片段描述和图像描述方面实现了最先进的性能,并展示了我们的模型生成的语句,与视频中显示的画面匹配得更贴切。

代码链接:

https://github.com/facebookresearch/grounded-videodescription

数据集链接:

https://github.com/facebookresearch/activityNet-Entities

论文地址:

https://research.fb.com/publications/grounded-video-description/

《接缝材料和照明估计的反向路径跟踪》

Inverse Path Tracing for Joint Material and Lighting Estimation

现代计算机视觉算法给三维几何重建带来了显著的进步。然而,照明和材料重建的研究仍然较少,目前材料和照明模型的方法假设非常简单。本文介绍了一种利用可逆的光传输模拟来联合估计室内场景中物体和光源材料性质的新方法——反向路径跟踪。我们假设一个粗略的几何扫描,以及相应的图像和相机姿态。本次工作的关键贡献是,让模型能够精确并同步检索光源和基于物理的材料属性(如漫反射、镜面反射、粗糙度等),以便在新的条件下编辑和重新渲染场景。为此,我们引入了一种新的优化方法,使用可微蒙特卡罗渲染器来计算关于未知照明和材料属性估计的导数。该方法使用定制的随机梯度下降对物理正确的光传输和材料模型进行了联合优化。

论文地址:

https://research.fb.com/publications/inverse-path-tracing-for-joint-material-and-lighting-estimation/

《用于详细视频理解的长期特征库》

Long-Term Feature Banks for Detailed Video Understanding

为了理解世界,我们人类需要不断地将现在与过去联系起来,并将事件置于语境中。在本文中,我们使现有的视频模型也能做到这一点。我们提出了长期特征库(Long-Term Feature Bank)的方法,即在整个视频范围内提取支持性的信息,用以增强最先进的视频模型——这些模型此前只能查看 2-5 秒的短片段。我们的实验表明,使用长期特征库扩充 3D 卷积网络可以在三个具有挑战性的视频数据集上产生最先进的结果:AVA,EPIC-Kitchens 和 Charades。目前,相关代码可在网上获取。

论文地址:

https://arxiv.org/pdf/1812.05038.pdf

《全景 FPN 网络》

Panoptic Feature Pyramid Networks

最近引入的全景分割任务使该领域的研究者对统一实例分割任务(对象类)和语义分段任务(材料类)产生了兴趣。然而,当前用于该联合任务的最先进方法使用单独的和不相似的网络,来进行实例分割和语义分割,而无法让两个任务之间共享计算。在这项工作中,我们的目标是在架构层面统一这些方法,为这两个任务设计单一网络。我们的方法是使用共享的特征金字塔网络(FPN)主框架来支持 Mask R-CNN(一种热门的实例分割方法)。令人惊讶的是,该简单基线不仅在实例分割方面仍然有效,而且还产生了一种轻量级、表现最佳的语义分割方法。在本次工作中,我们对具有 FPN 的 Mask R-CNN 的最小扩展版本进行了详细研究,我们将其称为 Panopific FPN,并证明对于这两个任务而言,它是稳健且准确的基线。鉴于其有效性和概念简单性,我们希望我们的方法可以作为一个强大的基线,并有助于未来的全景分割研究。

论文地址:

https://ai.facebook.com/blog/improving-scene-understanding-through-panoptic-segmentation/

《用于单目性能跟踪的高保真人脸模型的自监督适应》

Self-Supervised Adaptation of High-Fidelity Face Models for Monocular Performance Tracking

数据捕获和人脸建模技术的改进使我们能够创建高保真的真实人脸模型。但是,驱动这些真实的人脸模型需要特殊的输入数据,例如 3D 网格和未展开的纹理。此外,这些人脸模型需要在受控实验室环境下获得干净的输入数据,这与野外采集的数据显著不同。所有这些限制使得在日用相机跟踪中使用高保真模型很困难(所有这些限制使得日用相机在使用高保真模型进行追踪变得具有挑战性)。在本文中,我们提出了一种自监督的域适应方法,能够让日用相机拍摄到的高逼真人脸模型变成动画格式。我们的这一方法首先通过训练一个可以直接从单个二维图像驱动人脸模型的新网络来规避对特殊输入数据的需求;然后,在假设人脸在连续帧上的外观是一致的前提下,基于「连续帧纹理一致性」进行自监督域适应,我们克服了实验室与非控制环境之间的领域不匹配问题,避免了对照明或背景等新环境建模的必要性,例如调整照明或背景。实验表明,在不需要任何来自新领域的标记数据的情况下,我们能够让手机摄像头中的高保真人脸模型执行复杂的面部运动。

论文地址:

http://openaccess.thecvf.com/content_CVPR_2019/papers/Yoon_Self-Supervised_Adaptation_of_High-Fidelity_Face_Models_for_Monocular_Performance_Tracking_CVPR_2019_paper.pdf

《微密集 DensePose:从稀少的标注和运动线索中进行精细学习》

Slim DensePose: Thrifty Learning from Sparse Annotations and Motion Cues

DensePose 通过将图像像素密集地映射到人体表面坐标,取代了传统的地标探测器。然而,这种强大的功能带来了极大的标注成本,因为管理模型需要为每个人体姿态实例手工标注数百个点。因此,在这项工作中,我们寻找方法来显著减少 DensePose 标注,从而提出更有效的数据收集策略。特别地,我们证明了如果在视频帧中收集标注,通过使用动作线索可以使它们的效果成倍增加。为了探索这个想法,我们引入了 DensePose-Track,这是一组视频数据集,其中所选的帧是以传统的 DensePose 方式进行标注。然后,基于 DensePose 映射的几何特性,利用视频动态及时传送真实有效的标注,并从 Siamese 方差约束中学习。在对各种数据注释和学习策略进行了详尽的经验评估之后,我们证明这样做可以在强基线上显著提高姿态估计结果。然而,尽管最近的一些研究工作提出了这样的建议,但我们发现,仅通过对孤立帧应用几何变换来合成运动模式的效果要差得多,而从视频中提取运动线索的效果更好。

论文地址:

https://research.fb.com/publications/slim-densepose-thrifty-learning-from-sparse-annotations-and-motion-cues/

《精确到每一缕头发的多视图头发捕捉》

Strand-Accurate Multi-View Hair Capture

头发由于其微小的尺度结构和大量的重合遮挡,是最具挑战的重建对象之一。在本文中,我们提出了第一种方法,以精确到每一缕头发的方法来捕获高保真度的头发几何结构。我们的方法分三个阶段来实现。第一阶段,我们提出了一种新的采用立体倾斜支撑线的多视图方法来解决不同视角之间的头发对应问题。详细来说,我们提出了一个新的成本函数,它由颜色一致性项和几何项组成,将每个头发像素重建为一个三维线,其通过合并所有深度图,可以得到一个点云以及每个点的局部线方向。第二阶段,我们提出了一种新的基于均值漂移的发丝重构方法,将噪声点数据转换为一组发丝。最后,我们使用多视图几何约束来精细到没一缕发丝,从而拉长短头发并恢复缺失的头发,从而显著地提高重建完整性。我们在合成数据和实际采集数据上对这一方法进行了评估,结果表明我们的方法可以在亚毫米精度下重建每一缕发丝。

论文地址:

http://openaccess.thecvf.com/content_CVPR_2019/papers/Nam_Strand-Accurate_Multi-View_Hair_Capture_CVPR_2019_paper.pdf

Poster 论文一览

3D Human Pose Estimation in Video with Temporal Convolutions and Semisupervised Training

代码链接:

https://github.com/facebookresearch/VideoPose3D

论文地址:

https://research.fb.com/publications/3d-human-pose-estimation-in-video-with-temporal-convolutions-and-semi-supervised-training/

Activity Driven Weakly Supervised Object Detection

代码链接:

https://github.com/facebookresearch/astmt

Attentive Single-Tasking of Multiple Tasks

代码及模型链接:

https://github.com/facebookresearch/astmt

ChamNet: Towards Efficient Network Design Through Platform-Aware Model Adaptation

论文地址:

https://research.fb.com/publications/chamnet-towards-efficient-network-design-through-platform-aware-model-adaptation/

DMC-Net: Generating Discriminative Motion Cues for Fast Compressed Video Action Recognition

论文地址:

https://research.fb.com/publications/dmc-net-generating-discriminative-motion-cues-for-fast-compressed-video-action-recognition/

Engaging Image Captioning via Personality

论文地址:

https://research.fb.com/publications/engaging-image-captioning-via-personality/

Feature Denoising for Improving Adversarial Robustness

代码链接:

https://github.com/facebookresearch/ImageNet-Adversarial-Training

论文地址:

https://research.fb.com/publications/feature-denoising-for-improving-adversarial-robustness

Graph-Based Global Reasoning Networks

论文地址:

https://research.fb.com/publications/graph-based-global-reasoning-networks/

Improved Road Connectivity by Joint Learning of Orientation and Segmentation

论文地址:

http://openaccess.thecvf.com/content_CVPR_2019/papers/Batra_Improved_Road_Connectivity_by_Joint_Learning_of_Orientation_and_Segmentation_CVPR_2019_paper.pdf

Inverse Cooking: Recipe Generation from Food Images

代码及模型:

https://github.com/facebookresearch/inversecooking.

论文地址:

https://research.fb.com/publications/inverse-cooking-recipe-generation-from-food-images

Kernel Transformer Networks for Compact Spherical Convolution

论文地址:

https://research.fb.com/publications/kernel-transformer-networks-for-compact-spherical-convolution/

Large-Scale Weakly Supervised Pretraining for Video Action Recognition

论文地址:

https://research.fb.com/publications/large-scale-weakly-supervised-pre-training-for-video-action-recognition/

LBS Autoencoder: Self-Supervised Fitting of Articulated Meshes to Point Clouds

论文地址:

https://arxiv.org/abs/1904.10037

37篇!Facebook今年被CVPR收录的论文都说了啥?

Less Is More: Learning Highlight Detection fromVideo Duration

论文地址:

https://arxiv.org/abs/1903.00859

LVIS: A Data Set for Large Vocabulary Instance Segmentation

LVIS 链接:

http://www.lvisdata set.org

Multi-Target Embodied Question Answering

论文地址:

https://arxiv.org/pdf/1904.04686.pdf

Non-Adversarial Image Synthesis with Generative Latent Nearest Neighbors

论文地址:

https://arxiv.org/pdf/1812.08985v1.pdf

Panoptic Segmentation

论文地址:

https://research.fb.com/publications/panoptic-segmentation/

Reducing Uncertainty in Undersampled MRI Reconstruction with Active Acquisition

论文地址:

https://research.fb.com/publications/reducing-uncertainty-in-undersampled-mri-reconstruction-with-active-acquisition/

StereoDRNet: Dilated Residual StereoNet

论文地址:

http://openaccess.thecvf.com/content_CVPR_2019/papers/Chabra_StereoDRNet_Dilated_Residual_StereoNet_CVPR_2019_paper.pdf

Thinking Outside the Pool: Active Training Image Creation for Relative Attributes

论文地址:

http://openaccess.thecvf.com/content_CVPR_2019/papers/Yu_Thinking_Outside_the_Pool_Active_Training_Image_Creation_for_Relative_CVPR_2019_paper.pdf

Towards VQA Models That Can Read

代码链接:

https://github.com/facebookresearch/pythia

论文地址:

https://research.fb.com/publications/towards-vqa-models-that-can-read/

via https://ai.facebook.com/blog/facebook-research-at-cvpr-2019/

转自:AI科技评论

EI 人工智能 AI

版权声明:本文内容由网络用户投稿,版权归原作者所有,本站不拥有其著作权,亦不承担相应法律责任。如果您发现本站中有涉嫌抄袭或描述失实的内容,请联系我们jiasou666@gmail.com 处理,核实后本网站将在24小时内删除侵权内容。

上一篇:【IoT美学】物联网通信技术——5G
下一篇:Activiti工作流框架中任务流程元素详解!使用任务元素进行任务的调度和执行
相关文章