计算机视觉一些概念(五大基本任务)

网友投稿 790 2022-05-29

四大基本任务

图像分类:给定一张输入图像,图像分类任务旨在判断该图像所属类别。

目标定位:以包围框的(bounding box)形式得到图像类别位置,通常只有一类目标或固定数目的目标和背景类。

目标检测:相对于目标定位,目标种类和数目不定。

语义分割:语义分割需要判断图像中哪些像素属于哪个目标。

实例分割:语义分割不区分属于相同类别的不同实例。例如,当图像中有多只猫时,语义分割会将两只猫整体的所有像素预测为“猫”这个类别。与此不同的是,实例分割需要区分出哪些像素属于第一只猫、哪些像素属于第二只猫。

难点

语义鸿沟,拍摄视角变化,目标占据图像的比例变化,光照变化,背景相似,目标形变,遮挡。

卷积层

标准卷积、深度方向的可分离卷积(SeparableConv2D)、深度可分离卷积(DepthwiseConv2D)、转置卷积(反卷积)、空洞卷积。

为什么用卷积

图像数据维度高,Dense参数多、计算量大、容易过拟合。

卷积:

局部连接:

图像特征、边缘、角点只占据图像很小的部分,相隔较远的图像块关系不大。

通道上全连接、空间上局部连接。

参数共享:

提取图像特征的模式可以复用。

空间上参数共享。

卷积输入输出关系

输入H,滤波器F,零填充P,步长S:

感受野大小计算

感受野:卷积神经网络的每一层输出的特征图上的像素点在原图像上映射的区域大小。

(尺寸F)小滤波器优点:更小参数量、更多分线性。

下一层每个像素点的感受野是上一次卷积层滤波器的大小。

多层:

计算机视觉的一些概念(五大基本任务)

当有多层3×3标准卷积堆叠时,第l 层卷积(l 从1开始)的输出神经元的感受野为2l +1。

1x1卷积作用

常用来增加非线性、降维(通道上进行压缩,减少计算量和网络参数)、升维。

池化层

局部最大池化(常用)、局部平均池化、全局最大池化、全局平均池化(常用)

作用:

增加特征平移不变性;减小特征图的大小,降低过拟合,

最大池化为什么最常用

根据相关理论,特征提取的误差主要来自两个方面:邻域大小受限造成的估计值方差增大;卷积层参数误差造成估计均值的偏移。一般来说,mean-pooling能减小第一种误差,更多的保留图像的背景信息,max-pooling能减小第二种误差,更多的保留纹理信息。

参考

https://zhuanlan.zhihu.com/p/31727402

https://www.jianshu.com/p/5268b42daeda

https://keras.io

https://www.zhihu.com/question/23437871/answer/24696910

机器视觉 计算

版权声明:本文内容由网络用户投稿,版权归原作者所有,本站不拥有其著作权,亦不承担相应法律责任。如果您发现本站中有涉嫌抄袭或描述失实的内容,请联系我们jiasou666@gmail.com 处理,核实后本网站将在24小时内删除侵权内容。

上一篇:云合同电子合同:告别笔录打印签字,公安行政执法可使用电子签名
下一篇:Windows 10上使用Hyper-V虚拟机安装docker
相关文章

 发表评论

暂时没有评论,来抢沙发吧~