探索

摘要 我们探索了普通的、非分层的视觉转换器(ViT)作为目标检测的骨干网络。这种设计使原始 ViT 架构能够针对对象检测进行微调,而无需重新设计用于预训练的分层主干。通过对微调的最小调整,我们的普通骨干检测器可以获得具有竞争力的结果。令人惊讶的是,我们观察到:(i)从单尺度特征图(没有常见的 FPN 设计)构建一个简单的特征金字塔就足够了;(ii)使用窗口注意力(没有移位)就足够了跨窗口传播块。通...

特别声明: 版权声明:本文内容由网络用户投稿,版权归原作者所有,本站不拥有其著作权,亦不承担相应法律责任。如果您发现本站中有涉嫌抄袭或描述失实的内容,请联系我们jiasou666@gmail.com 处理,核实后本网站将在24小时内删除侵权内容。