计算机视觉(分类/检测/分割)的基本操作

在计算机视觉的深度学习中，我们最常用的就是CNN网络，翻译过来就是卷积神经网络，所以卷积操作就是最基本的操作。那我们就开始看看这个神奇的卷积操作是怎样的(我开始学习的时候根本就不清楚为什么要卷积，没有一个直观的概念)。
在这里插入图片描述

图片的格式

(1)在构建好深度学习网络后，我们要将数据读取进去进行训练(本人认为数据预处理阶段相较于网络的构建更加花费时间，后续有时间再说)，
(2)平时的图片格式有jpg/png/gif…很多的类型。就我而言，一般收集的图片最多是jpg和png的形式。我们知道三原色(rgb)，
(3)那我们将图片导入网络进行训练的时候通常是(w，h，channle)，这里的channle就是通道数，rgb形式的彩色图片的通道就是3，若是灰度图，通道数就是1啦。

卷积和池化

不多废话，上公式了！！！
在这里插入图片描述 卷积和池化
1.输入图像尺寸： W* W * 3
2.Filter/卷积核/kernel： F×F
3.步长/stride：S
4.padding：P
5.Filter/卷积核/kernel数量：M

输出图像尺寸： N×N×M
则N = (W − F + 2P )/S+1

注意呢：向上取整(不是4舍5入)
在这里插入图片描述 为什么要进行卷积和池化？

1.卷积的作用：用输出图像中更亮的像素表示原始图像中存在的边缘信息，将边缘检测图像用于训练。

2.池化的由来：卷积输出中包含的大部分信息是冗余的，可以通过池化操作减小输入的大小以及输出中相似值的数量。

不直观，上图片吧
现在应该有比较直观的感受了吧。卷积提取特征，池化消除冗余信息，计算公式中卷积和池化其实是一样的，只是提取特征和处理时的计算方式不同。
在这里插入图片描述

原文链接：https://blog.csdn.net/weixin_43999691/article/details/117565500